машинного обучения.
Прежний показатель «вовлеченности» отражал количество времени, которое люди тратили на новостную ленту, количество кликов, которые они сделали, прочитанные статьи, количество их ответных сообщений и т. д. Пользователи проводят много времени на страницах Facebook, однако они не были довольны тем контентом, что у них был.
С января 2018 г. Facebook коренным образом изменила свои критерии: показатели вовлеченности теперь пытаются оценить взаимодействие пользователей с важным для них контентом и определить, что им по душе. Целый отдел компании Facebook занимался распознанием интересов пользователей. Хотя некоторый контент и вызывает клики, это не обязательно самый приятный контент для пользователей, которые впоследствии сочтут его пустой тратой времени. В 2018 г. повышение уровня удовлетворенности пользователей стало руководящим принципом компании Facebook. Все это способствует увеличению количества контента с активным посещением и уменьшению контента с пассивной реакцией пользователей.
Выбор критериев для оптимизации результата не входит в обязанности FAIR. Вся эта инфраструктура – прерогатива отдела разработок и инжиниринга. Но они, в свою очередь, используют системы для распознавания изображений, понимания текста и т. д., основанные на методах, разработанных FAIR и используемых группами прикладных исследований и разработок. У «технологической ракеты» Facebook много ступеней!
Facebook и будущее СМИ
Корпоративный рекламный бюджет все чаще устремлен к онлайн-сервисам, в частности к Google и Facebook, в ущерб традиционным СМИ, таким как печатные газеты. Но в то же время социальные сети привлекают значительную часть случайных читателей к традиционным СМИ. В 2018 г. изменение алгоритма новостных лент поспособствовало развитию контента, рекомендованного друзьями, за счет контента, размещенного непосредственно в СМИ. Посты в газетах включают в себя рейтинг, именуемый индексом доверия, который оценивает их надежность. Все это приводит к увеличению обмена важным контентом из авторитетных и надежных СМИ и уменьшению контента, единственной целью которого является привлечение внимания и количество кликов: пользователи нажимают на ссылки, но не делятся ими. Новый алгоритм нарушил отношения между издательскими публикациями (реакция на статью, опубликованную органом печати) и веб-публикациями (реакция на статью, рекомендованную другом). Количество веб-публикаций резко возросло, что привело к появлению более серьезных статей в новостных лентах. Скорее всего это будут именно те статьи, которые были рекомендованы друзьями. Таким образом, корректировка алгоритма привела к повышению качества традиционных СМИ в ущерб рекламистам[112]. Именно такую роль играет Facebook в экономике медиасектора.
Обновленная компания Facebook
Основываясь на опыте последних нескольких лет, когда Facebook обвиняли равно в небрежности в отношении нежелательного контента и в чрезмерной цензуре, компания призвала правительства либеральных демократий принять новые правила по данному вопросу. Как частная компания, Facebook не считала правомерным решать, какой контент приемлем, а какой нет. Поэтому в конце 2018 г. компания вместе с правительством Франции начала дискуссию о фильтрации контента. Десятого мая 2019 г. Марк Цукерберг встретился с Эмманюэлем Макроном в Елисейском дворце, чтобы подвести итоги[113]. Работа все еще ведется: эта политика должна развиваться демократическим путем, а не зависеть от одной частной компании.
Новые правила будут, однако, лишь общими рамками. Как применить их на практике? Как решить – сохранять или удалять информацию? Команда Facebook начала крупную общественную кампанию, чтобы определить наилучший план действий[114]. В ней участвовало более 2000 человек из 88 стран мира. Оказалось, что людям прежде всего требуется наблюдательный совет, который бы утверждал политику в отношении контента, независимо от Facebook и правительства. Совет будет основан на универсальных принципах прав человека, обеспечивая компромисс между самовыражением, безопасностью, неприкосновенностью частной жизни и равенством. Совет, в частности, создаст и механизмы обжалования.
Кроме того, обновленный Facebook знаменует собой изменение философии, ориентированной на защиту личных данных пользователей. Шестого марта 2019 г. Марк Цукерберг объявил об этом на форуме[115]. Будущее компании будет сосредоточено вокруг приватного общения с друзьями с использованием данных с непрерывным шифрованием.
Работа FAIR
Для машинного обучения обязательна маркировка данных. В FAIR мы стараемся обучать систему умеренно. Например, мы изучаем, как использовать большой объем данных, не помечая их вручную. Мы делаем это так: берем 3,5 млрд изображений в Instagram и обучаем достаточно большую нейронную сеть предугадывать хэштеги, которые люди вводят при публикации фотографии. Таким образом, мы составили список из 17 000 наиболее часто вводимых информационных хэштегов и обучаем сверточную сеть предугадывать, какой из них, вероятно, выберет пользователь для конкретного изображения.
Вам может показаться, что прогнозирование хэштегов – бесполезная затея? Вы правы. Но это обязательное условие. Данная операция позволяет нейронной сети разработать универсальное представление об изображении, а упомянутые 17 000 хэштегов охватывают почти все пространство понятий, содержащихся в изображениях. После обучения сети мы удаляем последний слой (тот, который производит хэштеги) и заменяем его другим слоем, который мы обучаем интересующей нас задаче. Например, обнаружение насильственных или порнографических изображений с целью их фильтрации.
Такое предварительное обучение, или трансферное обучение, работает лучше, чем обучение машины конкретной задаче. Оно отображает точные записи в таких базах данных, как ImageNet.
Другой способ – это использование нейронной сети «Mask R-CNN[116]», разработанной FAIR, которая за последние годы добилась большого прогресса. Она позволяет не только узнавать предметы или людей, но также определять их местонахождение и рисовать их контуры. Она укажет вам на кузена Чарльза, тетю Хлою, бейсбольную биту, которую Жюльен держит в руке, собаку перед дверью, бокалы и бутылку вина на столе, а также количество овец в поле… Зачем это нужно? Например, незрячий пользователь проводит пальцем по фотографии на его мобильном телефоне, а тот вслух описывает ему то, чего он коснулся. Сети настолько хорошо сжаты, что некоторые версии могут работать на современном мобильном телефоне в реальном времени со скоростью около 20 фотографий в секунду. Все это включено в программное обеспечение с открытым исходным кодом под названием Detectron, что, в свою очередь, позволяет исследовательскому сообществу улучшать его.
Премия Тьюринга
В марте 2019 г. я получил возможность оценить путь, пройденный мною с того момента, как я впервые «взломал» компьютер, будучи еще подростком. Итак, я имел удовольствие и честь получить премию Тьюринга, эквивалент Нобелевской премии в области вычислительной техники, присуждаемой Ассоциацией вычислительной техники. Я разделил премию с двумя моими коллегами – Йошуа Бенджио и Джеффри Хинтоном.
Премией Тьюринга награждаются научные или технологические работы, которые имеют большое практическое влияние и являются предметом научных публикаций. Насколько я понял, премию вручают и старым работам, даже таким, которые за последние пять лет не фигурировали в цитатах.
Получение награды совпало с изменениями в моей карьере в компании Facebook. В январе 2018 г. я оставил свою должность