на беспрецедентный уровень благодаря вирусной скорости социальных сетей и возможностям искусственного интеллекта.
В настоящий момент можно выделить две эпохи в развитии пропаганды. Первую условно назовем эпохой классической пропаганды, а вторую (воспользовавшись терминологией Г. Почепцова) – эпохой «пропаганды 2.0», или «цифровой пропаганды». И если классическая пропаганда хорошо изучена, то есть выявлены ее виды, цели, каналы, аудитории, механизмы и принципы воздействия, построены модели ее изучения, то «пропаганды 2.0» еще ждет своих исследователей. Здесь, безусловно, большие возможности предоставляет искусственный интеллект: в частности, современные методы машинного обучения и автоматической обработки текстов необходимы для идентификации пропаганды. Представим далее результаты исследовательского проекта, ориентированного на применение искусственного интеллекта для выявления пропагандистского контента в текстах СМИ.
2.3. Идентификация пропагандистского контента на базе тематической модели корпуса текстов СМИ
В данном параграфе мы продемонстрируем возможности использования подхода, основанного на тематическом моделировании (topic modeling) для идентификации пропаганды в СМИ. Отметим, что, насколько нам известно, описанный подход для выявления столь семантически нечеткого явления, как пропаганда, предлагается впервые.
Данный инициативный исследовательский проект осуществлялся в апреле – июне 2020 г. международным коллективом, в который входили медиаэксперты О. Г. Филатова (Россия), Дж. М. Ионеску (Румыния) и группа исследователей из Казахстана под руководством профессора Р. И. Мухамедиева (основной исполнитель – К. О. Якунин). Опыт коллег из Казахстана, которые в течение последних лет выполнили серию проектов[154], ориентированных на применение систем искусственного интеллекта в различных прикладных областях исследований на стыке машинного обучения, обработки естественного языка и изучения социума, активно задействовался в рамках представленного ниже исследовательского проекта[155].
Как уже отмечалось, в данном проекте использовался подход по выявлению текстов с пропагандистским содержанием с применением тематической модели корпуса текстов.
Анализ больших объемов текстовой информации в настоящее время обеспечивается методами автоматической обработки естественных языков (natural language processing). Эти технологии позволяют пользователям собирать информацию из больших объемов текстовых данных[156], обеспечивают анализ контента[157], персонализированный доступ к новостям[158] и даже поддерживают их производство и распространение[159]. Впечатляющие результаты в области автоматической обработки естественных языков, согласно современным исследованиям[160], стали возможны благодаря достижениям в развитии методов машинного обучения, многократному увеличению вычислительной мощности, наличию большого объема лингвистических данных и развитию понимания структуры естественного языка в приложении к социальному контексту.
Проблема автоматической классификации текстов с пропагандистским содержанием рассматривается в ряде работ[161], однако количество публикаций по этой теме на порядок меньше, чем, например, количество исследований в области анализа тональности текстов (sentiment analysis). Объем размеченных по пропагандистскому содержанию корпусов (наборов данных для обучения моделей) также невелик. Так, в одной из публикаций[162] представлен подход, основанный на «мешке слов» (bag-of-words). Метод «мешка слов» учитывает лишь частоту встречаемости слов в документе вне зависимости от места расположения слова. Данный метод позволил классифицировать пропаганду на уровне отдельных предложений с показателем качества F1 Score – 0,6. F1 score, или гармоническая мера, объединяет ошибки первого и второго рода в процессе классификации. С некоторой долей условности можно считать, что метод правильно классифицирует пропаганду примерно в 60 % случаев.
Одним из методов, продуктивно применяемых в области обработки естественных языков, является тематический анализ, или тематическое моделирование. Тематическое моделирование – это метод, основанный на статистических характеристиках коллекций документов, который используется в задачах автоматического реферирования, извлечения информации, информационного поиска и классификации[163]. Смысл данного подхода заключается в интуитивном понимании того, что документы в коллекции образуют группы, в которых частота встречаемости слов или сочетаний слов различается. Основой современных тематических моделей является статистическая модель естественного языка. Вероятностные тематические модели описывают документы дискретным распределением на множестве тем, а темы – дискретным распределением на множестве терминов или слов[164]. Другими словами, тематическая модель определяет, к каким темам относится каждый документ и какие слова образуют каждую тему. Кластеры документов, относящихся к совокупности тем, формируемых в процессе тематического моделирования, в частности, позволяют решать задачи синонимии и полисемии терминов[165].
Предложенный нами подход отличается от существующих тем, что анализ происходит не на уровне отдельных предложений или слов, а на более высоком уровне абстракции – на уровне так называемых топиков (групп текстов, объединенных единой темой), к которым тексты могут иметь большее или меньшее отношение. При этом тексты, которые могут описывать и несколько тем, могут входить в несколько топиков одновременно с разным уровнем сопричастности. Однако данный подход требует корпуса текстов большого объема (как минимум сотни тысяч документов), а также явного свойства публикаций, по которому можно провести разделение корпуса (например, по источнику публикации).
Предложенная модель была разработана в связи с тем, что классический подход к классификации текстов предполагает наличие значительного объема размеченных вручную текстов из заданного корпуса, то есть в зависимости от подхода и корпуса может потребоваться от тысяч до сотен тысяч и даже миллионов размеченных вручную текстов. В то время как для анализа тональности и других более изученных задач используется большое количество размеченных корпусов достаточного объема из самых разных областей (посты в социальных сетях, отзывы и обзоры, комментарии и т. п.), существует также множество задач с явной нехваткой размеченных данных – к таким задачам как раз и относится идентификация пропаганды, а также, например, социальной значимости, резонансности (популярности) публикаций и т. д. Мы предложили модель, которая может успешно применяться даже при наличии минимального объема ручной разметки (в данном исследовании проводится разметка новостных источников) либо вообще без ручной разметки. Последний вариант возможен в случае, когда есть некое явное свойство публикаций, которое коррелирует с целевым (неявным) свойством. Например, если целевое свойство – это потенциальная популярность, то есть резонансность, публикации, его можно связать с объективными показателями вовлеченности пользователей: просмотры, комментарии, лайки, репосты.
Предложенная модель также может быть рассмотрена как альтернативный подход к использованию принципа transfer learning[166], поскольку она учитывает эффективное векторное представление (embedding), основываясь на большом объеме неразмеченных данных. Следовательно, даже те документы, которые невозможно отнести к определенному подкорпусу (или для которых явное свойство, например вовлеченность пользователей, неизвестно), все еще могут применяться на этапе тематического моделирования для получения более эффективных векторных представлений.
Предложенный метод состоит из четырех этапов:
1) формирование корпуса текстов и его разделение на подкорпусы с использованием некоего явного (объективного) свойства публикаций (для данной работы это новостной источник).
2) расчет тематической модели полного корпуса;
3) оценка меры межкорпусного тематического дисбаланса;
4) экстраполяция полученных оценок дисбаланса на все документы корпуса, включая те, для которых значение явного свойства (см. этап 1) неизвестно (например, когда уровень пропагандистского содержания новостного источника оценить затруднительно или он неизвестен).
Теперь остановимся на