эти векторы в так называемую «трансформаторную» сеть со сложной архитектурой, которая представляет значение как последовательность векторов. Декодер выдает слова перевода одно за другим. Чтобы сгенерировать каждое из этих слов, он принимает в качестве входных данных ранее переведенные слова, а также вывод модуля внимания, который позволяет ему сосредоточиться на части входного предложения, соответствующей слову, которое он в данный момент возвращает (источник: Michael Auli).
Этим акронимом они продолжают традицию сокращений, начатую исследователями из Института искусственного интеллекта Аллена в Сиэтле, которые назвали свою систему ELMo (Embeddings from Language Models, т. е. векторное представление слов из языковой модели). Исследователи искусственного интеллекта веселятся: ведь Элмо и Берт – персонажи детской телепрограммы «Улица Сезам».
Идея ELMo, BERT и некоторых других, таких как Bengio, Word2vec и FastText, заключается в использовании самостоятельного обучения. Вернемся к общей идее самостоятельного обучения. В данном случае оно включает в себя отображение последовательности слов, взятых из входящего текста большой сетью «преобразователей», маскирование 10–20 % слов и обучение системы предсказанию пропущенных слов. Для этого система должна узнать значение слов и структуру предложений. Внутреннее представление слов и фраз, выученных сетью этого типа (обученной на миллиардах предложений) превосходно, то есть достаточно хорошо, чтобы сформировать входные данные для системы перевода или понимания. Статья о BERT была размещена на сайте arXiv в октябре 2018 г.[93] перед подачей материалов на конгресс ICLR. В течение нескольких недель команды из Facebook, Hugging Face (французский стартап чат-ботов) и других компаний воспроизводят результаты и публикуют свои коды. В реальности, статья не была представлена в ICLR до мая 2019 г., но за это время она уже получила более 600 цитирований! Этот пример иллюстрирует скорость создания и распространения идей.
В июле 2019 г. команда Facebook пропустила через свою модель, вдохновленную BERT и названную RoBERTa (Robustly Optimized BERT Pretraining Approach, «надежно оптимизированный BERT», традиция игры слов продолжается), огромную базу данных и возглавила рейтинг GLUE (General Language Understanding Evaluation, общая оценка понимания языка) – конкурс, включающий в себя целую серию заданий на понимание языка)[94].
Конкуренция все росла. Менее чем за год исходный BERT поднялся на 12-е место. В тройку лидеров (по состоянию на июль 2019 г.) входят RoBERTa (Facebook), XLNet (Google) и MT-DNN (Microsoft). На четвертом месте мы обнаруживаем… человека.
Впрочем, все это очень относительно. Например, одна из задач GLUE – разрешение так называемой «схемы Винограда[95]». Так обозначаются предложения, в которых ссылка на местоимение неоднозначна, например: «скульптура не помещается в коробку, потому что она слишком большая» или «скульптура не помещается в коробку, потому что она слишком маленькая».
В первом случае местоимение «она» относится к скульптуре, а во втором – к коробке. Но вы должны иметь некоторые знания о том, как устроен мир, чтобы иметь возможность связать местоимение с правильным словом. Исследователи ИИ часто используют этот пример, чтобы показать, что машинам нужно больше здравого смысла. До недавнего времени лучшие системы ИИ не превышали 60 % правильных совпадений. Лучшие системы сегодня приближаются к 90 %. Все еще далеко от 95 % производительности человека.
Идея обучения завершению предложений набирает обороты. В начале 2019 г. два молодых исследователя из FAIR (Facebook Artificial Intelligence Research, лаборатория исследования AI компании Facebook) в Париже предложили для перевода модифицированную версию BERT и назвали ее XLM (Cross-Lingual Language Model, т. е. межъязыковая модель языка). Их идея состоит в том, чтобы представить системе два предложения, одно на французском, другое на английском, и научить систему предсказывать пропущенные слова. Но при этом она может использовать слова английского предложения (например, слово «blue», т. е. «синий» или «голубой»), чтобы сделать вывод о наличии замаскированного слова «bleu» с тем же значением во французском предложении. При этом система находит общее представление независимо от языка. После обучения такие системы могут улучшить работу переводчиков[96].
Прогнозирование
Экономика любит управление ресурсами, прогнозирование спроса на тот или иной продукт, предсказание изменений цены акции или финансовой стоимости. Даже если (особенно в последнем случае) данные очень трудно интерпретировать. Если бы было иначе, каждый мог бы узнать заранее цены на фондовом рынке и разбогатеть в один миг. Финансовые новости были бы намного менее забавными.
Прогнозирование потребления энергии позволяет EDF (Électricité de France S. A., французская государственная энергетическая компания, крупнейший в мире оператор атомных электростанций) или любой коммунальной компании лучше управлять производительностью электростанции и эффективно распределять ресурсы с минимумом потерь. Как это делается?
Распределяющие компании постоянно измеряют потребление электроэнергии в районе или в городе. Эти измерения образуют серию чисел, которые зависят от местоположения. Ночью в жилом районе в течение недели потребление электроэнергии низкое. Оно увеличивается между 7 и 9 часами утра, когда жители просыпаются, затем снижается, когда они идут на работу или в школу, и находится на том же уровне в течение дня, поскольку некоторые люди остаются дома. Оно затем увеличивается вечером и остается на одном уровне примерно с 22 часов вечера до полуночи, когда люди ложатся спать. Потом оно, естественно, снижается. Кривая распределения будет немного иной по выходным и еще зависит от погоды. В промышленной зоне этот график практически перевернут. Потребление высокое днем, а ночью и по выходным остается на очень низком уровне, так как люди в это время не работают.
Таким образом, электроэнергетическая компания оперирует временными рядами: жилой 1, жилой 2 и т. д. и другими показателями, такими как наружная температура, уровень солнечного освещения, время суток, индикатор дня (1 для буднего дня, 0 для выходных или праздничных дней). Каждый час характеризуется списком подобных индикаторов. Этот список представляет собой одномерную таблицу чисел, очень похожую на изображение. Сверточная сеть обучается на основе прошлых данных, собранных за долгие годы.
Линейная регрессия – это классический метод, который не использует сверточную сеть для считывания «изображения» потребления. Выход – это простая взвешенная сумма входов. Такой же метод используется и в финансовом прогнозировании. Модель «авторегрессии» опирается на предыдущие показатели и предсказывает их будущие значения. Для этих моделей вам просто нужно рассчитать правильные коэффициенты. Но такой метод уже неактуален, если вход в систему сложный, то есть когда несколько факторов работают одновременно (например, в случае энергопотребления).
Еще одна сфера, в которой прогнозирование стало очень важным, – это реклама. Для компаний, размещающих контент в Интернете, принципиален так называемый коэффициент кликабельности (CTR) (click-through rate, соотношение числа кликов на баннер к числу показов баннера, важный показатель для интернет-маркетинга): Google, Facebook или, скажем, такая компания как Criteo, хотят знать, на какую рекламу люди будут «нажимать», потому что от этого зависит их доход. Чтобы эти компании были