Провідні європейські медіа пишуть про дослідження українського Big Data інженера. Він успішно виявляє російську пропаганду — розповідаємо як

Анатолій Шара — аналітик Big Data, Machine Learning інженер. А поза основною роботою в ІТ-індустрії — фахівець з аналізу російської пропаганди, яку поширюють за допомогою ферм тролів та ботів. Протягом більш як трьох років він аналізує масиви даних із сотень тисяч коментарів в інформаційному полі різних європейських країн. Лише уявіть: під статтями у європейських медіа, які стосуються ключових для Росії питань, понад 60% коментарів можуть становити вигідні для Кремля наративи. А їхній стиль написання явно вказує на «тролівську» природу.

Одне з провідних німецьких видань Der Spiegel нещодавно опублікувало статтю, де використало дослідження, яке проводив Анатолій та його колега Дмитро Будашний. У ньому йшлося про те, як проросійська партія «Альтернатива для Німеччини» використовує російські фабрики тролів для власної популяризації в соціальній мережі Facebook. Після цього про українських дослідників написали провідні медіа Італії та Фінляндії. А нині готуються публікації в Польщі та Чехії.

Журналістка DOU поговорила з Анатолієм про його проєкт, методи та результати досліджень, їхню технічну складову, головних замовників і міжнародне визнання. А ще — про ставлення української влади до протидії фейкам і використання великих даних за кордоном.

— Хто ви за фахом та яким чином почали аналізувати російські фейки? Адже це досить вузька ніша, принаймні зараз.

Хто я за освітою, чітко сказати непросто. За першою освітою я філолог — вивчав англійську та німецьку мови в Кривому Розі. Після цього вступив до Київської школи економіки, вивчав аналіз ринків. Паралельно з цим опановував основи програмування, алгоритміку, математичну базу для машинного навчання, обробку природної мови на курсах в Projector, а нині завершую бакалаврат у ІПСА КПІ на факультеті «Штучний інтелект».

Загалом же в ІТ працюю четвертий рік. Я Machine Learning інженер у сфері NLP.

Власне, для мене тема з російськими фейками та ботами розпочалася під час навчання на ІТ-спеціаліста. Точкою відліку став курсовий проєкт Projector у 2019 році. Я навчався на курсі Data Science. Natural Language Processing та замислювався, де ці знання можу застосувати. На думку спала Німеччина і досить спотворене представлення України в ній, що дуже схоже на російські наративи. Я це знаю, бо певний час проживав там, працюючи журналістом.

Тож із цікавості почав аналізувати коментарі під статтями про Революцію гідності у відомому німецькому виданні Die Zeit. І побачив, що величезна кількість матеріалів і справді слово у слово повторювала російську пропаганду. «Майдан — це фашистський путч, там нацисти, скінхеди тощо». Можна й не перелічувати — просто згадайте все, що росіяни транслювали в інфопростір про Революцію гідності протягом усіх цих років — і отримаєте перелік тезисів у коментарях.

Я обрав це темою курсової роботи. Натренував класифікатор, який мав розпізнавати коментарі та відрізняти фейкові від справжніх. Представив результати, які свідчили: 70% коментарів про Україну в цих статтях були гарним перекладом російських меседжів. Тоді ж цією темою зацікавилися двоє моїх майбутніх партнерів за проєктом — розробники Senior-рівня, з якими познайомились у Projector — Ігор та Дмитро. Наразі працювати з фейками продовжуємо тільки ми з Дмитром. Він займається збором даних, я — їхнім аналізом та переговорами з клієнтами. Алгоритм дій з курсової можна переглянути на GitHub.

Анатолій Шара та Дмитро Будашний. Фото: Наталя Азаркіна для Projector

Результати курсового дослідження я показав ще й своїм друзям у Німеччині — журналістам та аналітикам. Їх такі цифри шокували. Мовляв, нічого собі, ми розуміємо, що це серйозна проблема, досліджуймо далі. Тоді якраз постала проблема з «Північним потоком-2», російська пропаганда виходила на новий рівень.

Довідка: «Північний потік-2» — це розширення активного в Балтійському морі газогону «Північний потік» завдовжки 1234 кілометри, побудоване в обхід української території. З його введенням в експлуатацію Україна втратить доходи від транзиту газу.

На той час я був аналітиком даних у групі компаній One Philosophy Group — це багатопрофільна компанія у сфері PR та комунікацій. І не займався фейками чи подібним. Проте я все одно запропонував керівництву взятися за аналіз коментарів у статтях про «Північний потік-2». Мені відповіли, що я можу виділяти кілька годин на це, але загалом цей проєкт робився pro bono, тобто як некомерційний.

Компанія на ньому не заробляла, лише інвестувала у проєкт частину мого часу як працівника. Тоді я й запросив Дмитра до збирання даних та Ігоря для допомоги з їх аналізом, щоб, так би мовити, спробувати себе в новій сфері й подивитися, що з цього вийде.

Для аналізу взяли чотири провідних німецьких медіа і два австрійських. І почали досліджувати коментарі під статтями про «Північний потік-2» за весь період існування проєкту. Тобто на той час — усе, що було написано з 2017 по 2019 роки. Це був величезний масив даних із сотень тисяч коментарів.

Ось ми отримали цей масив. А що з ним робити далі, як його аналізувати? Висунули кілька гіпотез, одна з яких вдало спрацювала. Я переклав німецькою мовою сотні висловлювань російських високопосадовців про «Північний потік-2». І ми почали шукати відповідники цим висловлюванням в отриманих даних.

— Якими методами та засобами ви користувалися для аналізу даних?

Метод наш був і дуже простий — це використовувати регулярні вислови, але й водночас складний, адже в німецькій мові одне речення можна написати 3–4 способами. І ми створювали складну архітектуру синтаксичної системи. Самостійно готували спеціальну програму, яка могла знайти коментар у будь-якому варіанті написання.

З’ясувалося, що 60% коментарів із цих сотень тисяч містять повні відповідники цим меседжам. Наприклад, Путін бовкнув: «Росія — надійний постачальник газу». Російський посол у Німеччині сказав, що США проти «Північного потоку-2», бо хочуть продавати свій сланцевий газ. Хтось із російських високопосадовців ще сказав, що «Україна — це ненадійний партнер». І все це у коментарях без жодних змін. Єдине — з перекладом німецькою. Врешті з’ясувалося, що близько 60% коментарів в усіх шести медіа збігаються абсолютно — тобто написані «під копірку».

Ключові наративи серед масиву проаналізованих «тролівських» коментарів у зазначених виданнях про проєкт «Північний Потік-2». Дані на скриншоті стосуються першої — і найменшої з чотирьох ітерацій

За допомогою наших лексикографічних аналізаторів ми також з’ясували, що кілька ключових фраз для «вбивання» німцям у голови писалися добротною німецькою мовою, тоді як додаткові — через Google Translate. Наприклад, «Росія — надійний постачальник газу» написано нормально, все інше — машинний переклад, подекуди й просто набір слів.

Ще доходило до смішного: хоча більшість тролів і ботів мали німецькі імена, деякі «палилися»: «Алексей Петрович, Владимир Олегович». Хто ж здогадається, звідки вони? :)

— Чим завершився проєкт? І чи взяли його результати до роботи в українських держструктурах?

Врешті, протривавши сім місяців, проєкт так і не знайшов логічного завершення. Коли ми отримали результати перших ітерацій дослідження, то почали показувати їх українським державним органам. Спілкувалися з депутатами. Носили до «Нафтогазу», які тоді активно протидіяли будівництву російського газопроводу. На що нам відповіли, що дослідження нецікаве, навряд чи на це хтось зверне увагу. Казали, що вони у «Нафтогазі» співпрацюють з американськими лобістами, експертами, і «Північний потік-2» ніколи не буде добудований. Як ми тепер знаємо, вони помилялися.

Показували результати і керівництву МЗС. Мовляв, ось, погляньте — це ж грандіозний вплив на формування демонізованого образу України у світі. А нам казали: «Хлопці, це все так класно, супер-пупер, але грошей немає. От якби ви безплатно все це робили, може б, і знайшли якесь застосування».

Ми пояснювали, що безплатно — це неможлива умова. Бо треба орендувати сервер, ці дані повинні оброблятися, Amazon коштує недешево, робота людей теж має оплачуватися тощо. Загалом зацікавленості у нашій роботі не було. Створювалося враження, що ніхто з українських можновладців не розуміє цінності великих даних і можливостей ІТ-технологій. Та й українські ЗМІ дотримувались приблизно такої ж думки.

— В Україні не зацікавилися, утім ваша діяльність продовжилася. З ким ви співпрацюєте та як шукаєте клієнтів?

Влітку 2019 року я змінив роботу і почав працювати в українському офісі сінгапурської фінтех-компанії — аналіз фейків усе ж не основна моя діяльність. Та навички й зацікавленість у темі збереглися. Тож я почав шукати людей, які готові за такі дані платити. І знаходив.

Розсилав результати першого дослідження різноманітним дослідницьким інституціям, медіа, що займаються міжнародними відносинами, інформаційною безпекою тощо. Отримав схвальні відгуки від експертів та журналістів з Фінляндії, Норвегії, Данії, Німеччини, Чехії, Швеції, Естонії, Литви, Британії. Так ми здобували впізнаваність у Європі.

Здебільшого нашими клієнтами стали німецькі аналітичні центри та медіа. Німецькі, бо завдяки чималій кількості моїх знайомих там спрацювало сарафанне радіо: і виходити на нас майбутні клієнти звідти почали вже самостійно. Більше сказати не можу — у нас підписані договори про нерозголошення.

Співпраця зазвичай починається дуже просто. Мені на електронну скриньку, адресу якої знають лише перевірені друзі, надходить лист. Хтось посилається на якогось мого знайомого журналіста чи аналітика в Німеччині й каже: «Я такий-то, ви не хочете обговорити можливість опрацювання певних даних для нас?».

Ми починаємо перемовини, уточнюємо технічне завдання, рахуємо приблизно бюджет, строки. Бо знов-таки це не наш основний вид діяльності, часу треба чимало (деякі проєкти розтягувались на 6–7 місяців). І тоді беремося до справи.

Лист із пропозицією співпраці від однієї з естонських організацій

— Якою є ваша робота з технічного погляду?

На той час мій стек складався з Python, SQL та алгоритмів Machine Learning. Хоча я все ж більше займався менеджерською роботою та аналітикою, ніж програмуванням.

Одне із частих завдань — класифікація текстів, зокрема публікацій, коментарів, дописів, за певними ознаками. Коли у вас мільйон текстів, то інколи треба робити так зване тематичне моделювання (англ. topic modeling), їх кластеризацію.

Зазвичай конструкції багатомовні, тож треба застосовувати ще й новітні фреймворки. Спершу використовували гуглівський TensorFlow, але потім перейшли на реалізацію фейсбуківського фреймворку PyTorch і мультимовні моделі від Hugging Face чи spaCy, натреновані на англійську, німецьку та російську мови. Останній поділяє коментарі на позитивні, негативні, нейтральні, умовно позитивні, умовно нейтральні тощо.

Також тренуємо NER-моделі, щоб визначати іменовані сутності, тобто прізвища, імена, назви аеропортів тощо. Ця інформація з коментарів часто цікавить замовників. І визначаємо рівень токсичності кожного повідомлення — чи є hate speech (мова ворожнечі). У кожної країни своє розуміння хейтспічу, блеймінгу, шеймінгу тощо. Ми створюємо певні словники — і за кількістю збігів з ними у коментарі визначається його токсичність.

Крім того, звичайно, використовуємо SQL-бази та спеціальні захищені сервери. Спроби зламу — звична для нас річ. Були атаки і на наші скриньки, і особисті сторінки у соціальних мережах. Безпека у нас йде окремою статтею витрат: ми закуповували спеціальні продукти для її забезпечення, включно з месенджерами, у яких команда спілкується про задачі. Ми працюємо з чутливими для уряду Німеччини темами (наші найбільші замовники — німецькі дослідницькі інституції, фінансування яких залежить від уряду), тож маємо належно захищати дані.

Ось так і створювали наше ПЗ. Ця робота досить складна, адже хоча потрібні фреймворки й відкриті, але відкритих даних для тренування моделей майже немає. І ніхто вам так просто їх не віддасть.

І ще в цій сфері важливо гарно знати мову. Робота винятково через Google Translate для таких проєктів нікуди не годиться, адже автоматичні перекладачі не вловлюють багатьох мовних особливостей. Знання комп’ютерної лінгвістики теж дуже доречне.

— На основі ваших даних німецьке видання «Шпігель» опублікувало матеріал. За ним було ще кілька публікацій, зокрема в італійських медіа. Як ви почали співпрацювати?

Більшість результатів нашої роботи — конфіденційні. Першим, хто їх опублікував, власне, й було провідне німецьке видання Spiegel, яке й замовило дослідження. Що цікаво, то навіть у самій Німеччині це видання вважають помірковано-проросійським.

Але коли вони побачили дані про те, що росіяни стоять за розкруткою проросійської партії AfD у такий спосіб, то відреагували: «Блін, ми ж з ними торгуємо: вони нам газ, ми їм технології „Сіменс“, „Бош“, а вони хочуть нас знищити зсередини». Їх такі ворожі дії шокували. Вони випустили матеріал із нашими поясненнями та даними, які дуже скрупульозно перевірили.

Діалог із журналістами «Шпігеля», в якому обговорюється майбутня публікація

А після цього написали редакторську статтю (матеріал, який пояснює думку редакторів видання щодо певного факту чи події — ред.), де закликали німецький уряд надати Україні зброю для оборони. О 3:30 ночі мені написала їхня журналістка: «Сьогодні опублікуємо editorial з таким закликом. Ми зрозуміли, наскільки все запущено, росіяни вкрай знахабніли».

Ця публікація викликала резонанс у Німеччині. Та українська влада чомусь не зробила з цього показовий момент. Зі слів самих німецьких журналістів: в Україні цю ситуацію могли б використати як важіль тиску на німецький уряд. Це ж бо розголос у провідному медіа. Втім, не сталося. Ба більше, до них не звернувся жоден український журналіст з проханням цю тему прокоментувати.

Інформацію підхопили й медіа інших країн. Про нас написали центральні видання Фінляндії та Італії, нині готуються до публікації статті у Чехії та Польщі.

Один з італійських журналістів написав з питанням про особисту зустріч — як виявляється, випросив мої контакти.

Він прилетів до України, ми поспілкувалися. Стаття у Spiegel перевернула його уявлення про масштаби загрози. Під час розмови він мені сказав: «Ти не уявляєш, наскільки у нас в Італії все погано з образом України в медіа». Розповідав про Віталія Марківа та такі пов’язані з його справою «таємниці мадридського двору», що я відверто не знаю, як пану Віталію вдалося добитися виправдання.

Довідка: Віталій Марків — український військовослужбовець в батальйоні оперативного призначення ім. Кульчицького Нацгвардії України. Учасник Революції гідності та російсько-української війни. У липні 2019 року італійський суд спершу визнав Віталія винним у загибелі італійського фоторепортера Андреа Роккеллі на Донбасі в травні 2014 року, але 3 листопада 2020-го Марківа було повністю виправдано й звільнено апеляційним судом Мілана.

— Можете розповісти докладніше, наскільки погані справи з російськими наративами в Італії? Та й в інших країнах теж.

Італійська преса перебуває під серйозним впливом російських фабрик тролів та ботів. Попри те, що в цій країні потужна українська громада, Росії добре вдається підживлювати їхні й так дещо скептичні щодо Європи настрої та популярні антиукраїнські меседжі. За прикладами далеко ходити не треба — можна зазирнути в італійський сегмент Twitter:

  • «Італія забагато платить у бюджет Євросоюзу, натомість не отримує нічого»;
  • «Україна має виконати Мінські домовленості»;
  • «В Україні процвітає фашизм, нацизм».

Власне, останнім меседжем Італію беруть найбільше, бо там страшенно бояться фашизму та усього із ним пов’язаного.

Проукраїнських журналістів і загалом проукраїнських людей там багато, але з ними ніхто не працює з нашого боку. Цей італієць сам нас знайшов і приїхав без жодної допомоги. Каже: «Я розумію, що в Україні чекати від держави допомоги немає сенсу». За мотивами нашої розмови він випустив статтю.

З ним прилетів ще хлопчина з італійського телеканалу RAI 3. Він знімав нас приблизно дві години для документального фільму про захист від інформаційних атак.

І він теж щиро дивується позиції наших можновладців: «Чуваки, ну чому у вашій владі геть не працюють з Європою, чому ви не показуєте усіх цих даних? Це ж такі невеликі гроші для держави. На заснування центру з боротьби з фейками, найняття п’яти програмістів та закупівлю для них технічних засобів і 150 тисяч доларів вистачило б». Ну що сказати, якщо на формування позитивного образу України у світі та пряму боротьбу з агресією РФ в інформаційному полі в самій Україні грошей не виділяють.

Звісно, все не обмежується вищенаведеними прикладами. В англомовному сегменті Twitter дуже активні російські тролі. От є офіційний Twitter-акаунт американського посольства в Україні. Публікують твіт: «Сьогодні Сполучені Штати привезли в Україну 85 тонн боєприпасів». Що роблять російські тролі? Вони тієї ж секунди приходять під цю новину і пишуть: «Украина — недострана, америкосы — гов**», «Украина не выдержит нападения» тощо.

І таких повідомлень — тисячі. Таким чином вони «перебивають» своїми текстами те, що написало американське посольство. У 2019–2020 роках ми аналізували Twitter-акаунт американського посольства, і 80% коментарів про Америку і Україну були негативними. На той час там писали гидоту і про Трампа, і про Волкера, і про Байдена, і про Зеленського, і про Порошенка — не гребували ніким.

Ключові слова та фрази російських тролів під постами Посольства США у Twitter

Ми також аналізували англомовний сегмент Twitter щодо опозиційних виступів у Венесуелі 2020 року. Там росіяни розгортали величезну кампанію, аби заглушити повідомлення про реальні події. Часто геть не заморочувались мовним питанням. Пишете текст російською, перекладаєте у гуглі іспанською — ось вам і коментар. Такі ж слово у слово повідомлення були англійською та німецькою мовами.

З нещодавніх прикладів — випадок з передачею німецьких гаубиць, які зберігалися в Естонії. І які та, своєю чергою, хотіла передати Україні. Естонці запитали в Німеччини, чи можна? А вони такі: «Ні». Естонці сперечатися не стали — ні так ні.

Німці назвали причину: гаубиці старі, в Естонії вони на зберіганні вже 30 років. І раптом щось піде не так — вони відповідальність нести не хочуть. Але їх уже ніхто не слухав.

В українських медіа це подали так: «Німеччина нас кинула». Російські тролі підживлювали те все поширенням паніки: «Євросоюз вам геть не допомагає, раптом що — ви самі». Ці ж наративи підтримували усілякі проросійські «фейкомети», що базуються в Україні — «Страна.юа» та їм подібні. Загалом почалася хвиля атаки на Німеччину. Підхопили цю тему і деякі українські політики. І все, дипломатично Україна програла цей скандал. Це один з прикладів, коли російські тролі досягають свого за допомогою наших недолугих політиків і їхніх неправильних заяв.

Також можу розповісти про партнерський проєкт із чеським дослідницьким центром European Values Center for Security Policy. Ми досліджували, наскільки глибоко російський державний бізнес зайшов у Європу. Наша команда взяла на себе Німеччину, Австрію, Польщу, Україну, чеська — свою країну. Аналізуючи Німеччину, ми з’ясували, що російська мережа піцерій тісно пов’язана з російськими радикальними націоналістами та вихідцями зі спецслужб. Це викликало резонанс у Німеччині, й цю мережу зрештою не допустили на їхній ринок. Звіт дослідження про цю справу — публічний.

— Де ви працюєте нині та які подальші плани щодо розвитку антифейкової діяльності?

Нині я працюю як ФОП. Виконую багато проєктів для української медіамоніторингової агенції Semantrum як IT-фахівець, але я не в штаті. Проєкти з російськими фейками — все ще не моя основна діяльність, як і у моїх партнерів. Щодо планів, то, можливо, в темі ботів та фейків ми почнемо працювати із Францією — там скоро президентські вибори, роботи буде вдосталь. Також є запит на виконання певних завдань для Естонії.

Щодо співпраці власне з українськими структурами... Тут усе складно. Але якщо ми й погодимось, то тільки на проєктну основу — ось є задача, бюджет, тоді беремося до справи. В державних органах штатними працівниками ми точно не будемо, як і не станемо обличчям якоїсь державної антифейкової організації. Ми цінуємо свою репутацію і не готові підписатися на чергові розпили бюджетів, поширені в держструктурах.

Похожие статьи:
Розвиток IT-індустрії не лише спонукає вкладати якомога більше у навчання спеціалістів. Бум галузі призводить і до появи хитрих схем...
Привіт, мене звати Олександр Гончар. Я займаюся машинним навчанням в українському стартапі MAWI solutions та консультую компанії щодо ML....
Компания Яндекс сообщила, что её приложение «Яндекс.Штрафы» теперь может запомнить данные разных автомобилей и водителей. Как...
Я прошел один из стандартных путей украинских программистов: получил техническую специальность, работать начал еще...
У рубриці DOU Проектор всі бажаючі можуть презентувати свій продукт (як стартап, так і ламповий pet-проект). Якщо вам...
Яндекс.Метрика