Межународный | Дорожный контроль

.

Системы коллаборативной фильтрации

Александр Панзыга Новости науки и техники

Системы контроля доступа и видеонаблюдения Интернет-технологи всегда мечтали знать предпочтения своей аудитории с точностью до конкретной единицы — и никогда их не знали. Мы не знаем, как с точки зрения типографского дела будет издаваться эта статья, но подозреваем, что шрифт на ее страницах будет черным, а бумага белой. Если бы была возможность делать шрифт разноцветным, то следующий абзац мы бы выделили красным — а так просто делаем его жирным и снабдим отступом. Это чтобы вы понимали, что на самом деле он — красный. В настоящее время, когда мы пишем эти строки, в мире происходит технологическая революция, масштабы которой пока не оценены по достоинству.

Суть этой революции заключается в том, что на вебе наконец-то научились достоверно исследовать предпочтения каждого конкретного человека и предлагать ему многие вещи именно в соответствии с его собственными, а не чьими-то еще, и актуальными прямо сейчас, предпочтениями. И пусть еще имеют место неточности, и много в современных технологиях распознавания предпочтений нерешенных проблем, но — лед тронулся, господа присяжные заседатели. И командовать парадом отныне будут те, кто это понял. От мысленных экспериментов на тему аудитории вообще Интернет переходит к практике на уровне конкретный живой человек в частности. Существуют три большие группы методов, позволяющих оценивать предпочтения аудитории. К первой группе относятся методы коллаборативной фильтрации.

Несмотря на мудреное название, их суть убийственно проста. Русская версия Википедии определяет коллаборативную (совместную) фильтрацию как метод, дающий автоматические прогнозы (фильтрацию) относительно интересов пользователя по собранной информации о вкусах множества пользователей (сотрудничающих между собой). Суть метода коллаборативной фильтрации заключается в следующем. Каждого пользователя системы просят высказать свое мнение, выраженное в определенном численном значении на некоторой шкале градации относительно предъявляемого ему ряда объектов. Этими объектами могут быть различные потребительские товары, фотографии, статьи, музыкальные произведения, кинофильмы, телепередачи, компьютерные игры и так далее. По мере того как в базе системы коллаборативной фильтрации набирается все больше и больше собранных оценок, происходят следующие важные вещи: - система начинает реально понимать, как выглядят собственные предпочтения каждого отдельного пользователя этой системы; - система начинает объединять пользователей в группы по схожести их интересов и делится персональным составом групп с самими пользователями, входящими в эти группы; - система становится способной дать персональную рекомендацию каждому конкретному пользователю в отношении объектов, с которыми он пока не сталкивался. Это происходит на основании логики вида Если вы оцениваете это, это и это так-то, так-то и так-то, но не знаете пока чего-то нового, а люди, очень похожие на вас по своим оценкам, оценили это новое вот так, то я предложу вам это новое, потому что я уверен, что вы с высокой степенью вероятности оцените это новое для себя так же, как и те, чьи предыдущие предпочтения совпадают с вашими. Коллаборативная фильтрация идеально выглядит на бумаге, но на практике сталкивается с большими проблемами. Впрочем, эти проблемы не носят фатального характера, а вполне себе преодолимы. Первая из них именуется проблемой холодного старта.

Но что делать в самом начале ее функционирования, когда количество оценок в ней минимально Ведь в этом случае система практически ничего не может предложить пользователю в качестве полезного результата — она сама пока ничего не знает. В то же самое время она требует, чтобы пользователь сам дисциплинированно оценивал объекты, ничего при этом не получая взамен. Получается настоящий замкнутый круг нет оценок — нет точности и ценности системы; а если нет точности — кто согласится жертвовать своим временем и силами Следовательно, нет оценок. Поэтому на старте систему коллаборативной фильтрации приходится привязывать к другим сервисам, которые на первых порах обеспечат пользователям некоторую добавленную стоимость в отношении их усилий, затраченных на выставление оценок. Вторая проблема — это проблема разработки четкой шкалы, по которой будут градуироваться пользовательские оценки.

Если сделать шкалу, допустим, трехбалльной хорошо, нормально, плохо, то при постановке оценок пользователи не будут сильно утомляться, потому что выбирать придется всего-то из трех возможных вариантов, но вот точность таких оценок будет невысока, и, соответственно, пострадает достоверность прогноза. И действительно, для одного респондента в предложенных условиях нормально будет означать сгодится в сельских условиях, а для другого нормально — это на миллиметр не дотянуло до отличной оценки, но ее тут нет, значит, ставлю хорошо.