Всего за 649 руб. Купить полную версию
Один из руководителей сервиса Pandora, который каталогизирует и рекомендует музыку, однажды описал мне систему этой компании как целый оркестр алгоритмов с дирижирующим алгоритмом. Каждый алгоритм применяет собственные стратегии для выработки рекомендаций, а затем алгоритм-дирижер определяет, какие варианты выдать в тот или иной момент. (При этом единственный результат работы сервиса следующая песня в плейлисте.) В разные моменты требуются разные алгоритмические методы рекомендаций.
Единого монолитного алгоритма не существует, поскольку каждая платформа работает по-своему, используя индивидуальные переменные и наборы уравнений. Важно помнить, что работа ленты Фейсбука это коммерческое решение, аналогичное тому, как производитель продуктов питания решает, какие ингредиенты использовать. Алгоритмы также меняются со временем, совершенствуясь с помощью машинного обучения. Данные, которые они получают, используются для постепенного самосовершенствования, чем стимулируется еще большее вовлечение; машина адаптируется к пользователям, а пользователи к машине. Различия между платформами стали более заметными и актуальными в середине 2010-х годов, когда социальные сети и стриминговые сервисы усилили алгоритмическую подачу информации и та стала основой пользовательского опыта.
Мы, пользователи, в принципе не понимаем, как обычно работают алгоритмические рекомендации. Их уравнения, переменные и весовые коэффициенты не являются общедоступной информацией, потому что технологические компании не заинтересованы в их обнародовании. Они являются коммерческой тайной и важны для бизнеса почти так же, как коды запуска ядерных ракет для государства. Их редко раскрывают; редко встречаются даже намеки на них. Одна из причин заключается в том, что в условиях общедоступности алгоритма пользователи получат возможность обманывать систему, чтобы продвигать свой собственный контент. Еще одна причина страх перед конкуренцией: другие цифровые платформы могут украсть секретный ингредиент и состряпать более качественный продукт. И все же эти инструменты, как и многие другие цифровые технологии, зародились в некоммерческой среде.
Алгоритмы рекомендаций как способ автоматической обработки и сортировки информации начали применяться в 1990-х годах. Одним из первых примеров стала система сортировки электронной почты муторное занятие и по сей день. Уже в 1992 году инженеры научно-исследовательского центра компании Xerox в Пало-Альто (более известного как PARC) начали утопать в почте. Они пытались решить проблему растущего использования электронной почты, в результате которого пользователей захлестывает колоссальный поток входящих документов, как написали Дэвид Голдберг, Дэвид Николс, Брайан Оки и Дуглас Терри в статье 1992 года. (Они даже не подозревали, с каким объемом цифровой коммуникации мы столкнемся в XXI веке.) Их система фильтрации электронной почты под названием Tapestry использовала два вида алгоритмов, работавших совместно: фильтрация на основе содержания и совместная фильтрация. Первый, который уже применялся в нескольких системах электронной почты, оценивал текст писем например, если вы хотели установить приоритет по слову алгоритм. Второй, более инновационный метод, основывался на действиях других пользователей. При определении приоритета конкретного письма учитывалось, кто его открыл и как на него отреагировал. В статье говорилось:
Люди помогают друг другу осуществлять фильтрацию, записывая свои реакции на прочитанные документы. Например, такая реакция может уведомлять, что документ показался особенно интересным (или особенно неинтересным). Подобные реакции, называемые в общем случае аннотациями, могут быть доступными фильтрам других людей.
Tapestry использовались фильтратор, запускавший повторяющиеся запросы по набору документов, ящичек, собиравший материалы, которые могли заинтересовать пользователя, и оценщик, который устанавливал приоритеты и категоризировал документы. Концептуально это очень похоже на современные алгоритмические ленты: цель Tapestry заключалась в том, чтобы выводить на первый план контент, который с наибольшей вероятностью окажется важен для пользователя. Однако подобная система требовала гораздо больше предварительных действий со стороны пользователей: им приходилось писать запросы, по которым система определяла, что они желают увидеть, основываясь либо на контенте, либо на действиях других пользователей. Остальным пользователям в системе также приходилось выполнять весьма целенаправленные действия, помечая материал как важный или нерелевантный. Для подобной схемы требуется небольшая группа людей, которые уже знают друг друга и понимают, как их сообщество взаимодействует с электронной почтой например, вы уже осведомлены, что Джефф отвечает только на особо важные письма, и поэтому вы хотите, чтобы ваш фильтр выводил наверх все письма, на которые отвечает Джефф. Tapestry лучше всего функционировала в весьма небольшой системе.
В 1995 году Упендра Шардананд и Пэтти Маес из MIT Media Lab (медиалаборатории Массачусетского технологического института) описали в своей статье социальную фильтрацию информации технику создания персонализированных рекомендаций из любой базы данных для пользователя на основе сходства профилей интересов. Эта работа опиралась на идеи Tapestry и стала ответом на перегруженность онлайн-информацией: Объем значительно больше, нежели человек может отфильтровать, чтобы найти то, что ему понравится. Авторы пришли к выводу о необходимости автоматизированных фильтров: Нам нужна технология, которая поможет продраться через всю информацию, чтобы найти то, что нам действительно нужно, и избавит нас от того, с чем мы не хотим заморачиваться. (Естественно, эта проблема актуальна до сих пор.) Шардананд и Маес утверждали, что у фильтрации на основе содержания есть существенные недостатки. Она требует перевода материала в данные, понятные машине, например в текст; ей не хватает интуитивной прозорливости, поскольку она может фильтровать только по терминам, которые вводит пользователь; и она не измеряет внутреннее качество. Она не способна отличить хорошо написанную статью от плохо написанной, если в этих двух работах используются одинаковые термины. Невозможность оценить качество наводит на мысли об искусственном интеллекте: новые инструменты вроде ChatGPT, казалось бы, способны понимать и генерировать осмысленный язык, однако на самом деле они лишь повторяют схемы, присущие уже существующим данным, на которых они обучались. Качество субъективно; сами по себе данные без человеческой оценки не могут его определить.