каждом этапе подробнее.
Этап 1. Формирование корпуса текстов. Мы сформировали корпус новостных публикаций из открытых русскоязычных новостных источников. Предложенный метод предполагает, что корпус должен быть разделен на два или более отдельных корпусов на основании некоего явного свойства (в данном случае новостной источник публикации) с целью выявить особенности, позволяющие определить некое неявное целевое свойство (в данном случае идентификации пропаганды в тексте публикации).
Для наиболее точного исследования мы решили проанализировать пропагандистские СМИ с явно субъективной риторикой и сравнить их с теми медиа, чья риторика является более объективной.
Русскоязычные СМИ в Российской Федерации на момент исследования были представлены государственными холдингами, контролирующими и курирующими деятельность данных СМИ, частными, или независимыми, СМИ (так называемыми оппозиционными, или либеральными, медиа) и иностранными СМИ публичной дипломатии, вещающими на русском языке, принадлежащими правительствам США, Великобритании, Германии и Франции, которые в России зарегистрированы в качестве иностранных агентов в соответствии с Федеральным законом от 02.12.2019 № 426-ФЗ «О внесении изменений в Закон Российской Федерации “О средствах массовой информации” и Федеральный закон “Об информации, информационных технологиях и о защите информации”». Существуют также два государственных средства массовой информации, Sputnik и RT, но из-за внутреннего регулирования их деятельности, их целевая аудитория – это не граждане России, а граждане стран СНГ.
Международные вещатели являются частью системы государственной публичной дипломатии, поэтому их риторика явно пропагандистская. Их цель – это продвижение имиджа и политических интересов государства в иностранном гражданском обществе. Поэтому мы решили проанализировать такие СМИ, как RT, Sputnik, «Радио Свобода»*, «Телеканал Настоящее время»* и Deutsche Welle*.
В качестве СМИ, имеющих более объективную риторику, мы решили исследовать такие СМИ, которые менее вовлечены в политическую жизнь страны и которые концентрируются на освещении бизнес-среды или экономики. Мы проанализировали одно нейтральное информагентство (Interfax), три бизнес-ориентированных СМИ (РБК, «Ведомости», Business FM) и одну интернет-газету (Lenta.ru).
Таким образом, исходя из соображений, изложенных выше, мы разделили корпус, состоящий из 428 180 публикаций за 2018–2020 гг., на два корпуса в зависимости от их типа и источника:
1) Пропагандистские публикации (346 440 публикаций):
а) RT;
б) «Телеканал Настоящее время»*;
в) «Радио Свобода»*;
г) Deutsche Welle*;
д) Sputnik;
2) Условно объективные публикации (81 740 публикаций):
а) «Ведомости»;
б) Interfax;
в) Lenta.ru;
г) Business FM;
д) РБК.
Этап 2. Тематическое моделирование. Для построения тематической модели корпуса документов применяют: вероятностный латентно-семантический анализ (probabilistic latent semantic analysis, PLSA), суммирующая регуляризация тематических моделей (additive regularization of topic models, ARTM)[167] и весьма популярное латентное размещение Дирихле (latent Dirichlet allocation, LDA)[168]. Последнее может быть выражено следующим равенством:
представляющим сумму смешанных условных распределений по всем темам множества T, где p(w|t) условное распределение слов в темах, p(t|m) условное распределение тем по новостям. Переход с условного распределения p(w|t,m) на p(w|t) осуществляется за счет гипотезы условной независимости, согласно которой появление слов в новостях m по теме t зависит от темы, но не зависит от новости m и есть общее для всех новостей. Данное соотношение справедливо, исходя из допущений об отсутствии необходимости сохранения порядка документов (новостей) в корпусе и порядка слов в новости; помимо этого, метод LDA предполагает, что компоненты φwt и θtm порождены непрерывным многомерным вероятностным распределением Дирихле. Целью алгоритма является поиск параметров φwt и θtm путем максимизации функции правдоподобия с соответствующей регуляризацией.
Для определения оптимального количества тематических кластеров Т часто применяется метод максимизации значения когерентности, рассчитанной с применением UMass-метрики[169].
Этап 3. Оценка межкорпусного дисбаланса. Следующий этап – определение межкорпусного дисбаланса в распределении новостных публикаций разных корпусов в рамках каждого отдельного топика. Эта мера дисбаланса рассматривается как оценка влияния принадлежности к данному топику на целевой показатель (пропаганду), поскольку изначальное разделение на корпусы мы провели на основании явного объективного свойства (новостной источник), исходя из предположения, что существует присущий этому разделению дисбаланс между данными двумя корпусами: между пропагандой и условно объективной информацией.
Формула меры дисбаланса:
В данной формуле Dticj – мера дисбаланса представленности документов из корпуса cj в топике ti , а wdktlcm – вес принадлежности документа dk из корпуса cm к топику tl.
Этап 4. Экстраполяция результатов. Последним этапом предложенного метода является применение полученной тематической модели и оценок дисбаланса для получения классификации каждого отдельного документа. Для этого существует две основные причины:
1) несмотря на то что были выбраны пропагандистские и условно объективные источники, распределение пропагандистского содержания в новостях, безусловно, неравномерно, то есть пропагандистские публикации могут быть размещены в условно объективных источниках и наоборот;
2) как упоминалось выше, не все источники можно отнести к одному из двух корпусов: пропагандистское содержание определенных источников бывает сложно оценить однозначно, поскольку в разные периоды времени, в разных разделах и у разных авторов интенсивность пропагандистского содержания может сильно варьироваться.
Для агрегации оценок межкорпусного дисбаланса с весами отношения документов к каждому топику можно применить несколько подходов:
1) просто взвешенное среднее, которое было использовано для получения результатов, описываемых в данном параграфе;
2) байесовский подход к агрегации, рассматривающий субъективные вероятности отношения документа к заданному критерию[170];
3) полуобучаемый (semi-supervised) подход[171], дающий возможность предобучить модель на результатах, полученных путем применения описываемого подхода, а затем провести дообучение (fine tuning) модели на вручную размеченном наборе текстовых данных, с тем чтобы увеличить качество ее работы.
Для проведения валидации предложенной модели была сформирована репрезентативная случайная выборка, включившая тысячу публикаций из оригинального корпуса, исключенных из процесса тематического моделирования и расчета мер межкорпусного дисбаланса. Эти публикации были вручную размечены экспертами по шкале Лайкерта от –2 до +2, где –2 – это условно объективная публикация, а +2 – пропагандистская.
Затем модель была применена к этой выборке для расчета метрик качества работы модели. Шкала Лайкерта была линейно нормализована в интервале от 0 до 1, экстраполированные оценки пропаганды также были нормализованы от 0 до 1. На основании полученных значений была рассчитана корреляция Пирсона. Коэффициент корреляции Пирсона показывает меру взаимосвязи между экспертной разметкой и результатами модели. Коэффициент может варьироваться от 0 до 1, где 0 – полное отсутствие взаимосвязи, а 1 – полная четкая связь между двумя показателями. При этом в гуманитарных исследованиях корреляция более высокая, чем 0,2–0,3, на выборке достаточного объема считается доказательством наличия слабой, но достоверной связи между показателями.
Затем объектам были присвоены классы: публикации с оценкой выше 0,5 были отнесены к классу «пропаганда», а с оценкой ниже 0,5 – к классу «объективные». Эти данные были использованы для