Original size 832x1266

Исследование тролль-фабрик в российском сегменте Твиттера

9

Введение

Я выбрала набор данных из датасета Kaggle, содержащий около 3 миллионов твитов, отправленных с аккаунтов, связанных с Интернет-исследовательским агентством (IRA) — российской «тролльной фабрикой». Эти твиты были собраны с 2013 по 2018 год и предоставлены FiveThirtyEight на основе исследования, проведенного учеными из Университета Клемсона. Данные содержат информацию о 2,848 Twitter-аккаунтах, которые были связаны с IRA, и охватывают различные аспекты их активности в соцсетях, включая тексты твитов, количество подписчиков, региональную принадлежность и типы аккаунтов.

Данные содержат подробную информацию о ретвитах, цитатах и количестве «обновлений» аккаунта (количество твитов, ретвитов и лайков). Эта информация является очень полезной для анализа влияния и распространения пропаганды через социальные сети.

big
Original size 896x551

Ироничная иллюстрация к проекту

Эта тема меня интересует по нескольким причинам:

Это большой массив данных, который охватывает как период выборов президента США, так и выборов в России, а также множество других военных и политических компаний за прошлое десятилетие. На мой взгляд, это один из самых больших публичных массивов «фабрик троллей» в открытом доступе

Несмотря на то, что Твиттер сейчас согласно российскому законодательству — экстремистская социальная сеть, он остается одним из «правых» с политической точки зрения источников информации (Warzel, 2023). Мне интересно проследить, как происходили политические манипуляции в 2010-х, во время, когда эта социальная сеть была легальной на территории Российской Федерации для рассмотрения.

Подробное рассмотрение этих данных в рамках исследований и работ — актуально для развития методов борьбы с дезинформацией в интернете и улучшения осведомленности пользователей об окружении слов, которые могут быть идентифируемы как дезинформация.

В условиях исследования — я не ставлю перед собой задачу показать через какие фразы была осуществлена дезинформация. Мне хочется показать на примерах графиков и некоторых обработок общие черты, характерные для «фабрик троллей».

Для анализа данных я выбрала несколько типов графиков:

1. Я использовала столбчатые диаграммы для отображения частоты появления определенных слов в твитах, топ-15 языков и тому подобные за каждый год (2013-2018) и для распределения аккаунтов по категориям.

2. Гистограммы идеально подходят для отображения частоты (например, топ-10 самых популярных слов или количество аккаунтов по категориям). Они дают представление именно о частотных характеристиках данных, что помогает визуализировать, какие темы или слова были наиболее популярными среди аккаунтов.

3. Круговые диаграммы подходят для визуализации пропорционального распределения категорий или типов аккаунтов качественных данных (язык, пропорция категории). Например, они помогают показать, какие категории аккаунтов (российский, английский сегмент) преобладают в выборке.

4. Линейные графики хорошо подходят для отображения изменений данных во времени (например, в нашем случае — это активность по месяцам в Твиттере). В данном контексте это поможет понять, как изменялась активность аккаунтов с течением времени.

5. Диаграммы рассеивания хороши для поиска зависимостей между двумя числовыми переменными.

Дизайн графиков

Для построения графиков я использовала зеленую палитру с голубыми оттенками, которая отсылает к эпохе новых технологий и кибер-культуре.

Original size 3508x672

Цветовая палитра

Шрифт также я решила подобрать по таким критериям как современность и минималистичность.

Original size 2177x359

Шрифт, используемый в построении графиков

Предварительная подготовка

Изначально этот датасет был загружен с платформы Kaggle, известной своим обширным набором данных для исследований в области Data Science. Для удобства работы и объединения данных, которые были представлены в нескольких CSV-файлах, предварительно была проведена проверка структуры файлов, после чего все отдельные CSV-файлы были объединены в единый DataFrame для дальнейшего анализа и выявления ключевых особенностей в деятельности данной группы выгруженных аккаунтов.

Original size 3108x1536

Код для выгрузки файлов

Тип графика № 1 — динамика роста публикаций

Середина 2015 года — резкое увеличение числа публикаций. Этот период совпадает с усилением напряженности в отношениях между Россией и США после событий в Крыме в 2014 году и начала конфликта на востоке Украины. В США также начиналась подготовка к президентским выборам 2016 года. Возможно, именно в этот момент «фабрика троллей» начала активно наращивать свое присутствие в американском пространстве.

Original size 3600x1800

График № 1. Динамика публикаций по месяцам

Original size 2189x1252

Код для графика № 1

Наибольшая активность приходится на 2016 и 2017 годы. Конец 2016 года, с заметным пиком, непосредственно предшествует президентским выборам в США в ноябре 2016 года. Это указывает на возможную попытку повлиять на исход выборов путем распространения определенной информации (вероятно, в пользу Дональда Трампа).

Чрезвычайно высокий пик в начале 2017 года приходится на период после выборов и начала работы новой администрации президента США. Возможно, «фабрика троллей» пыталась посеять сомнения в легитимности выборов или углубить социальные и политические разногласия в американском обществе.

Обращение к Chat GPT осуществлялось для включения необходимого шрифта, цвета в модель и отладки кода в случае этих характеристик.

Original size 3000x1800

График № 2. Количество публикаций по годам

Original size 4096x1812

Код для графика № 2

Тип графика № 2 — топ-3 языка, на которых написаны твиты

Данные показывают, что подавляющее большинство твитов (71.6%) написаны на английском языке. Это является ключевым элементом, подтверждающим, что основной целью деятельности «фабрики троллей» было англоязычное информационное пространство, и с высокой вероятностью, в первую очередь, Соединенные Штаты. Учитывая временной период активности (2015–2017 годы с пиками в 2016 и 2017 годах), это совпадает с периодом подготовки и проведения президентских выборов в США, как уже писала ранее.

Русский язык — второй по популярности и это тоже не случайно. В США существует значительная русскоязычная диаспора, и часть контента могла быть направлена на эту аудиторию с целью формирования определенного мнения по выборам.

Обращение к Chat GPT: осуществлялось для включения необходимого шрифта, цвета в модель и отладки кода в круговую диаграмму.

Original size 1973x1336

График № 3. Топ-3 языка

Original size 4096x2560

Код для графика № 3

Тип графика № 3 — топ языков и регионов по количеству публикаций

Как и следовало из круговой диаграммы, английский язык абсолютно доминирует, занимая подавляющее большинство публикаций — около 2.15 миллиона твитов, что еще раз подтверждает, что основной целью деятельности «фабрики троллей» было англоязычное информационное пространство.

Другие языки, также попавшие в топ-15:

— Немецкий (около 0.08 млн) — Германия также могла быть целью информационного воздействия, хотя и в меньшем масштабе, чем США.

— Украинский (около 0.04 млн) — учитывая геополитический контекст и российско-украинские отношения в рассматриваемый период, наличие публикаций на украинском языке может быть связано с попытками влияния на украинское общественное мнение и признания некоторых действий в рамках конфликта — легитимными.

Обращение к Chat GPT осуществлялось для включения необходимого перевода характеристик, а также группировки по языкам и регионам.

Original size 3600x1800

График № 4. Топ-15 языков по количеству публикаций

Второе место занимает категория «Неизвестно» в данных по регионам с приблизительно 0.6 миллиона публикаций. Это большая доля.

Как уточнила у Chat GPT (промпт — «Каковы особенности API твиттера, почему при сборе данных не определяется IP), а также особенности работы платформы Twitter, инструмент Social Studio, использовавшийся для сбора данных, мог не всегда корректно определять регион на основе IP-адреса или других метаданных твитов. Некоторые настройки приватности или особенности API Twitter могли препятствовать определению региона для определенных аккаунтов или твитов.

Original size 3600x1800

График № 5. Топ-15 регионов по количеству публикаций

0

Коды для графиков № 4 и № 5

Тип графика № 4 — аномалии в подписках

На протяжении всего периода, особенно начиная с 2015 года, наблюдается большое количество аккаунтов с высоким числом подписок. Это вполне актуальная стратегия для быстрого наращивания числа подписчиков. Аккаунты подписываются на большое количество пользователей в надежде, что те подпишутся в ответ и те, в свою очередь, будут более видимыми и не восприниматься пользователями как «бот».

Также с 2015 по 2017 год наблюдается тенденция увеличения числа подписчиков у значительной части аккаунтов — некоторые аккаунты были достаточно успешны в привлечении внимания аудитории. В дальнейшем — будет интересно посмотреть, а как они это сделали — однако, это не фокус нашего исследования.

Original size 5262x2923

График № 6. Соотношение подписчиков и подписок (2013-2018)

0

Код для графика № 6

Тип графика № 5 — облака слов в твитах

В ранние годы анализа преобладали случайные или неявно политические темы, но начиная с 2015 года наблюдается четкий сдвиг в сторону обсуждения международной политики, а в 2016–2017 годах основное внимание уделяется президентским выборам в США и фигуре Дональда Трампа.

В 2018 году фокус мог несколько сместиться на другие внутриамериканские социальные и политические вопросы — движение BLM и прочее.

0

График № 7. Облака слов

0

Код для графика № 7

Тип графика № 6 — топ-10 слов с 2013-2018

2015 год — заметный поворот в риторике. В топ-10 появляются слова, имеющие явную политическую и региональную окраску: «workout», «россии», «сша», «exercise», «us», «new», «police», «рф», «im», «сирии». Наличие слов «россии» (России), «сша» (США), «us» (мы/нас), «рф» (РФ — Российская Федерация), «сирии» (Сирии) указывает на начало активного обсуждения международной политики и вовлеченности в информационное пространство, связанное с Россией и США, а также с конфликтом в Сирии, что тоже интересно — стремление повлиять и на военную кампанию там.

0

График № 8. Топ-10 слов по годам

Original size 2189x1252

Код для графика № 8

Тип графика № 7 — категоризация акаунтов «троллей»

Как и предполагалось ранее, из-за специфики Твиттера — преобладание «правых троллей», что явно указывает на определенную нацеленность на конкретные сегменты американского общества. Использование «неанглоязычных» аккаунтов говорит о попытках охватить более широкую аудиторию, включая русскоязычную диаспору в США или другие страны, например, латиноамериканские.

Original size 3600x1800

График № 9. Распределение аккаунтов по категориям

Original size 3712x1136

Код для графика № 9

Тип графика № 8 — соотношение ретвитов и оригинальных постов

Преобладание ретвитов в данном наборе данных является важной характеристикой. Это стратегия основанна на быстром и масштабном распространении информации, без создания чего-то «мыслящего», то есть преимущественно созданного другими пользователями.

Это важно для нашего анализа — позволяет понять, что эти «тролли» — не создавали чего-то нового, а лишь стремились придать значение некоторым политическим новостям.

Original size 2189x1252

График № 10. Соотношение ретвитов и оригинальных постов

Original size 4096x1060

Код для графика № 10

Тип графика № 9 — облака слов по используемым хэштегам

0

График № 11. Облака хэштегов

Хэштеги напрямую отражают ключевые политические фигуры (Трамп, Обама, Хиллари Клинтон), важные события (выборы, протесты, теракты), а также острые социальные вопросы (расовые, контроль над оружием). Появление русскоязычных хэштегов в 2018 году может быть связано с попыткой влияния на российскую аудиторию или с маскировкой деятельности ввиду пристального внимания к появлению «троллей».

Топ-10 хэштегов за 2018 год: #корпусзачистыевыборы, #nom24ru, #blackhistorymonth, #зачистыевыборы, #sotu, #выборы2018, #trump, #marchforourlives, #guncontrol, #impeachtrump. Этот список явно отражает то, что напрямую связано с выборами в России в этом году.

0

График № 12. Топ-10 хэштегов по годам

0

Код для графиков № 11 и № 12

Заключение

Анализ предоставленных данных о трех миллионах твитов, связанных с российской «фабрикой троллей», выявил ряд ключевых особенностей, указывающих на целенаправленную кампанию по информационному воздействию.

1. Явный фокус на Соединенные Штаты, особенно в период с 2015 по 2018 год, с пиками активности, совпадающими с президентскими выборами 2016 года и последующими событиями.

2. Доминирование английского языка, преобладание США в региональном распределении публикаций, а также частое использование политически значимых ключевых слов и хэштегов, таких как «trump», «hillary», #maga и #blacklivesmatter, однозначно свидетельствуют об этом.

3. Высокая доля ретвитов, разнообразие категорий аккаунтов, включая «правых» и «левых» троллей, а также имитацию новостных лент, говорит о попытке охватить широкий спектр мнений и аудиторий для успешности кампании.

Дополнительные материалы

Описание применения генеративной модели:

Midjourney — генерация обложки и нескольких изображений.

Chat GPT — обращения с целью рекомендаций по улучшению кода, редактуры изображений.

Оформление:

Обложка проекта создана при помощи leonardo.ai

Код отформатирован при помощи carbon

Исследование тролль-фабрик в российском сегменте Твиттера
9