Книги онлайн » Книги » Разная литература » Зарубежная образовательная литература » Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун
1 ... 46 47 48 49 50 ... 82 ВПЕРЕД
Перейти на страницу:
слов, наиболее вероятной с точки зрения языковой модели. Некоторые современные системы используют нейронные сети (сверточные или рекуррентные) для достижения всех этих моделей.

Таким образом, сверточные сети присутствуют почти во всех приложениях, где используется речь. Например, виртуальные помощники, такие как Алекса, преобразуют запросы в текст для дальнейшего их анализа системой.

Этот метод похож на управление набором номеров на мобильном телефоне или автоматическим добавлением субтитров к видео: все это – приложения, использующие распознавание речи. Существует также прямой перевод речи в речь, бесценный для жителя Мадрида, желающего общаться с таксистом из Пекина. Мобильный телефон – посредник в этом диалоге. Клиент говорит по-испански, а его телефон переводит вслух на китайский. Водитель отвечает на китайском, и машина переводит на испанский по громкой связи или в наушниках клиента.

Рис. 7.2. Пример сверточной сети для распознавания речи

Сеть принимает «изображение», представляющее 0,4 секунды речи, и создает вектор оценок для каждого из возможных звуков языка (источник: NYU/IBM)[79],[80].

Синтез речи и звука

В последние годы для синтеза звука и речи используется особый тип сверточной сети. Эти сети иногда называют «деконволютивными», потому что они выглядят как сверточная сеть, вход и выход которой поменялись местами. Входом в эту сеть является последовательность слов или фонем, а на выходе – синтетический речевой сигнал с интонацией, просодией и т. д. Архитектура этих сетей очень похожа на архитектуру распознавания речи, в которой все векторы перевернуты: деконволютивная сеть создает спектрограмму, аналогичную той, которая используется для распознавания. Но, чтобы «инвертировать» спектрограмму и произвести речевой сигнал, используется отдельно управляемая деконволютивная сеть.

В некоторых системах вход имеет вектор эмбеддинга говорящего. Чтобы вычислить вектор эмбеддинга голоса с помощью обученной сверточной сети, требуется всего несколько секунд речи человека. Этот вектор подается на вход синтезатора голоса, который затем может читать любой текст голосом человека. Это называется «клонированием» голоса.

Современные синтезаторы речи настолько точны, что иногда их трудно отличить от говорящего человека. Впрочем, хотя важно уметь говорить, но все-так нужно еще и знать, что сказать, а здесь машины еще очень далеки от того, чтобы вести осмысленный разговор.

Понимание языка и перевод

Недостаточно просто расшифровать звуки. Виртуальный помощник должен правильно классифицировать сам запрос, то есть определить его содержание и смысл. Система записывает: «Какая будет погода завтра?» Или: «Завтра пойдет дождь?», или: «Завтра будет жарко?», при этом виртуальный помощник должен «понимать», что все эти фразы означают «дать прогноз погоды на завтра». Для Алексы, например, инженеры Amazon определили около 80 различных намерений: позвонить кому-нибудь, воспроизвести музыку, дать информацию о пробках на дороге, выбрать радиостанцию. Как только намерение будет распознано, сервер Amazon сможет выполнить запрошенную задачу[81].

Определение намерения необходимо и при поиске информации. Этим занимается все больше и больше нейронных сетей, называемых «трансформерами». Когда вы вводите в строку браузера «население Армении», Google выполняет поиск следующим образом. Запрос обрабатывается нейронной сетью, которая представляет его значение в виде списка чисел, другими словами, вектора. На другом конце спектра векторы контента были взяты из миллиардов страниц в Интернете. Сеть сравнивает первый вектор со вторым. Если они схожи, контент, соответствующий этим векторам, возвращается сетью и отображается поисковой системой.

То же самое и с сообщениями. О чем этот пост на Facebook? Политика? Относится ли его контент к «левому» или «правому» политическому крылу? Может ли быть этот комментарий неонацистским или расистским? Что это – комплимент или сарказм?

Метод, используемый для представления текста для целевой классификации, долгое время был следующим: мы строили большой вектор, количество компонентов которого было равно размеру словаря. Каждый компонент указывал, сколько раз конкретное слово появилось в тексте, так что у нас появлялся некоторый набор слов. Это все очень просто, только слова не по порядку. Затем мы сравнивали эти векторы, чтобы выяснить, говорят ли два текста об одном и том же предмете, если их наборы слов были похожи. Входной вектор также может быть классифицирован нейронной сетью. Система работала, но не очень хорошо: в этом процессе было трудно определить, сообщают ли два текста об одном и том же лишь потому, что в обоих случаях используется один и тот же набор слов.

Рис. 7.3. Модель языка, предложенная Йошуа Бенджо и его командой в 2003 г.

Языковая модель воспринимает последовательность входных слов и создает выходной вектор оценок, который для каждого слова в лексиконе дает вероятность того, что это слово будет следовать за входной последовательностью. Языковые модели используются для создания текста, а также для повышения точности систем распознавания речи и систем перевода. Представленная здесь языковая модель – одна из первых, в которой для этих целей использовалась нейронная сеть. Первый уровень этой сети преобразует каждое слово, представленное его индексом в лексиконе, в вектор эмбеддинга через линейный слой определенного типа, называемого таблицей поиска (LUT). После обучения миллионами текстов эти векторы представляют всю полезную информацию о входных словах. Похожие внешне слова, такие как «chien» и «chat», будут представлены близкими векторами. С момента появления глубокого обучения все лучшие языковые модели используют глубокие нейронные сети.

Более современные методы используют эмбеддинг векторных последовательностей текстовых представлений. Каждое слово в словаре связано с вектором размерностью от 100 до 1000. Эти векторы запоминаются так, что одинаковые слова представлены ближайшими векторами (евклидова метрика).

Идея изучения векторов эмбеддинга слов возникла в начале 2000-х годов, когда Йошуа Бенжио опубликовал поразительную статью, намного опередившую свое время. Он предложил архитектуру нейронной сети для языковой модели[82]. На основе сегмента текста система обучается предсказывать следующее слово. Как представлены слова на входе нейронной сети? У нас есть список всех слов в лексиконе, отсортированный в лексикографическом порядке. В этом списке каждое слово обозначено номером. Последовательность слов легко трансформируется в последовательность чисел, заменяя каждое слово его номером в списке. Затем у нас есть список векторов – LUT (таблица поиска, англ. Lookup Table), который для каждого индекса слова предоставляет вектор эмбеддинга.

Векторы LUT обучаются, как веса слоя линейных нейронов. Сеть имеет несколько скрытых слоев, за которыми следует выходной слой, который создает большой вектор, дающий вероятность того, что данное слово в лексиконе появится после определенной последовательности слов, представленных как входы. Преобразование взвешенных сумм на выходе последнего линейного модуля в вероятностное распределение осуществляется модулем softmax (реализация логистической функции, обобщенной для многомерных случаев). Этот модуль вычисляет экспоненту каждого из своих входов и делит их на их сумму. Таким образом,

1 ... 46 47 48 49 50 ... 82 ВПЕРЕД
Перейти на страницу:
В нашей электронной библиотеке 📖 можно онлайн читать бесплатно книгу Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун. Жанр: Зарубежная образовательная литература / Науки: разное. Электронная библиотека онлайн дает возможность читать всю книгу целиком без регистрации и СМС на нашем литературном сайте kniga-online.com. Так же в разделе жанры Вы найдете для себя любимую 👍 книгу, которую сможете читать бесплатно с телефона📱 или ПК💻 онлайн. Все книги представлены в полном размере. Каждый день в нашей электронной библиотеке Кniga-online.com появляются новые книги в полном объеме без сокращений. На данный момент на сайте доступно более 100000 книг, которые Вы сможете читать онлайн и без регистрации.
Комментариев (0)