;docx

ПРОБЛЕМА РАЗРЕЖЕННОСТИ ДАННЫХ ПРИ КОЛЛАБОРАТИВНОЙ
ФИЛЬТРАЦИИ ДЛЯ СИСТЕМ ДИСТАНЦИОННОГО ОБУЧЕНИЯ
Н.В. Михедко, Д.Г. Штенников, А.В. Малышев
Санкт-Петербургский национальный исследовательский университет информационных
технологий, механики и оптики
Тел.: (812) 233-1961, e-mail: [email protected]
В повседневной жизни люди полагаются на рекомендации других людей, произнесенные слова,
рекомендательные письма, новости из средств массовой информации, общие исследования и т.д.
Рекомендательные системы оказывают помощь и приращают этот естественный социальный процесс, чтобы
помочь людям тщательно анализировать доступные книги, статьи, веб-страницы, фильмы, музыку,
рестораны, шутки, продукты питания, и пр., чтобы найти наиболее интересную и ценную информацию для
них.
Рекомендательные сервисы находят свое применение и в системах дистанционного обучения, таких как
открытые университеты и виртуальные школы. Система выдачи рекомендаций призвана стать альтернативой
или вспомогательным инструментом для поисковых систем. Так как, в отличие от поисковых сервисов,
которые предлагают пользователю в основном объекты, о которых он уже имеет представление,
рекомендательный сервис не только может найти уже известные объекты, но и предоставить пользователю
те, которые могли бы заинтересовать его, но без участия модуля рекомендаций пользователь не обратил бы
на них внимание. Из этого следует, что рекомендательный сервис являет собой некий инструмент рекламы
в сфере дистанционного обучения, которая, к тому же, сама находит заинтересованную в ней целевую
аудиторию, а пользователям позволяет более продуктивно и экономно тратить свое время в процессе
обучения.
Разработчики одной из первых систем рекомендаций, Tapestry, придумал фразу «коллаборативная
фильтрация (КФ)», которая получила широкое распространение, независимо от того факта, что
рекомендатели явно могут не сотрудничать с получателями. Основное предположение КФ заключается в том,
что если пользователи X и Y оценивают n элементов аналогично, или совершают одинаковые действия
(например, покупка, просмотр, прослушивание), то, следовательно, они оценят или отреагируют на другие
предметы, аналогично.
Методы КФ используют базы данных предпочтений пользователей для прогнозирования дополнительных
тем или продуктов, которые могут понравиться новому пользователю. Предпочтения могут быть выражены
явно, допустим, по пятибалльной шкале, или же неявно, при этом учитывается прохождение теста или клика
по тому или иному элементу.
Как правило, большинство образовательных рекомендательных систем основано на большом количестве
данных, в то время как большинство пользователей не ставит оценки курсам. Ранжированная матрица
пользователь–объект, используемая для коллаборативной фильтрации, таким образом, будет чрезвычайно
разреженной и эффективность прогнозов или рекомендации систем КФ будут сомнительными.
В некоторых ситуациях разреженность данных вызывает появление, в частности, проблемы холодного
старта. Она заключается в том, что когда новый пользователь или элемент только что появился в системе,
трудно вычислить подобие, потому что нет достаточной информации (в некоторой литературе, проблема
холодного старта так же называется проблемой нового пользователя или проблемой нового элемента).
Новые элементы не могут быть рекомендованы до тех пор, пока некоторые пользователи не оценят его, так
же, новые пользователи вряд ли получат хорошие рекомендации, пока отсутствуют их оценки или история
обучения. Покрытие может быть определено как процент элементов, по которым алгоритм может дать
рекомендации. Проблема низкого покрытия возникает тогда, когда количество выставленных пользователем
оценок очень мала по сравнению с большим количеством элементов в системе, и система рекомендаций не
в состоянии выработать рекомендации для него. Соседская транзитивность относится к проблеме
с разреженными базами данных, в которых пользователи с похожими вкусами не могут быть
идентифицированы в качестве таковых, в том случае, если они оба не оценили какой-нибудь одинаковый
элемент. Это может снизить эффективность рекомендательной системы, которая основывается на попарном
сравнении пользователей для создания прогнозов.
Для решения проблемы разреженности данных предложено множество подходов. Методы сокращения
размерности, такие, как методы сингулярного разложения (SVD), удаляют несущественных пользователей
или элементы для уменьшения размерности матрицы напрямую. Запатентованное латентносемантическое индексирование (LSI), используемое в информационном поиске, основано на методе
сингулярного разложения, в нём сходство между пользователями определяется представлением
пользователей в ограниченном пространстве. Голдберг разработал систему Eigentaste, которая применяется
в методе главных компонент (PCA), тесно связавших технику факторного анализа для уменьшения
размерности. Однако, когда определенные пользователи или элементы отбрасываются, полезная
информация для рекомендаций, связанных с ними, может потеряться и качество рекомендаций ухудшиться.
Гибридные алгоритмы КФ полезны для решения проблемы разреженности, в которых внешний
информационный контент может быть использован для получения предсказаний для новых пользователей
или новых элементов. Подход гибридной коллаборативной фильтрации должен быть предложен для
использования большого количества таксономической информации, предназначенной для точной
классификации продуктов, для решения проблемы разреженности данных рекомендаций КФ. Шейн
предлагает метод видовой модели скрытой переменной для вывода рекомендаций в условиях холодного
старта, который для установки моделей сочетает в себе информацию обоих методов фильтрации:
коллаборативного и по содержимому. Ким и Ли предложили вероятностную модель для решения проблемы
холодного старта, в которой элементы делятся на группы, а прогнозы делаются для пользователей, учитывая
Гауссовское распределение пользовательских оценок.
На основе моделей КФ алгоритмов, таких как TAN-ELR (модифицированный древовидный алгоритм
Байеса, оптимизированный расширенной логистической регрессией), решает проблему разреженности,
предоставляя более точные прогнозы для разреженных данных. Некоторые новые методы КФ, основанные на
модели, которые решают проблемы разреженности, включают в себя технику ассоциативного поиска,
которая применяется в рамках ассоциативного поиска и связана с распространением активации алгоритмов
для изучения переходных связей между пользователями через их оценки и историю покупок.
Данные исследования направлены на улучшение работы рекомендательных систем в дистанционном
обучении путём выявления и устранения проблем разреженности данных, низкого покрытия и холодного
старта при использовании коллаборативной фильтрации.