Июнь 22

Гід по головній європейській події з комп’ютерної лінгвістики: люди, тренди та NLP

Що два-три роки один з європейських університетів бере на себе нелегке завдання організувати найбільшу в Європі конференцію з комп’ютерної лінгвістики — EACL (European Chapter of the Association for Computational Linguistics). Цього разу організатором виступив Політехнічний університет Валенсії, а саме представники дослідницького центру Pattern Recognition and Human Language Technology при університеті.

Конференція EACL представляє європейську частину Асоціації з комп’ютерної лінгвістики (ACL), що вже п’ятдесят років формує світову спільноту науковців та професіоналів із питань опрацювання природної мови. ACL щороку організовує низку конференцій у різних куточках світу, забезпечуючи таким чином майданчик для спілкування та обміну досвідом. Такого майданчика в Україні наразі бракує, але й комп’ютерних лінгвістів на наших теренах досить мало, тож події від ACL є гарною нагодою поспілкуватися з іншими лінгвістами, надихнутися та почути про щось новеньке.

Існує три основні причини, з яких я відвідую конференції.

1. Насамперед, це люди

На EACL 2017 приїхало понад 600 учасників. Переважно це дослідники, прикладні лінгвісти та інженери з університетів та компаній Європи, але були також представники зі Штатів, Канади, екзотичного Катару та інших країн. Наша Grammarly-команда щодня збирала компанію цікавих людей за обідом та вечерею, бо ж немає нічого кращого за захопливі розмови про опрацювання природної мови тихим вечором у прекрасній Валенсії. Бачились та спілкувались з Міреллою Лапатою (працює над питаннями представлення значення), Йоханом Босом (працює над семантичним аналізом; випустив Parallel Meaning Bank), Роберто Навільї (творець BabelNet та Babelfy), Гінріхом Шютце (співавтор NLP-класики Foundations of Statistical NLP), Кеннетом Хефілдом (творець KenLM), Деніелом Зіманом (працює над Universal Dependencies) та іншими NLP-дослідниками. Окрім цікавих людей з академічних закладів, на конференції були й представники індустрії: Microsoft (Maluuba), Thomson Reuters, eBay, Oracle, TextKernel, IBM, Nuance та інші.

NLP-спільнота в Україні ще досить скромна, і представників з українських університетів та компаній на EACL, окрім нас, на жаль, не було. Так, за веселими посиденьками ми мали нагоду розповісти про нашу країну, особливості нашої мови та культури.

2. Ідеї

Хоча на EACL було досить мало доповідей, пов’язаних із виправленням помилок, важливо наслухатись про способи вирішення інших NLP-задач. Досить часто нові ідеї виникають на основі, здавалось би, нерелевантних відкриттів. Думаю, саме так почали використовувати методи машинного перекладу для виправлення граматичних помилок. Представлення постерів, демонстрації програм, перерви на каву та вже згадані обіди та вечері є ідеальною нагодою послухати про успіхи та труднощі інших дослідників і поділитися власним досвідом. Зрештою, проблеми генерування чи анотування даних та питання надійності метрик є спільними для всіх.

Одним із корисних і цікавих задумів у академічній сфері є змагання Shared Task. Організатори дають у відкритий доступ набір даних і пояснюють умови змагання. Мета полягає в тому, щоб привернути увагу до певної наукової проблеми, поширити корпус даних, а також у змагальний спосіб дізнатися про методи, які найкраще допоможуть впоратися із завданням. Наприклад, для задач на машинний переклад існує багато різних корпусів для Shared Task (різні жанри, домени, мови). Цікаво було подивитися, в яких випадках і чому нейронні мережі виграють (або програють) традиційному статистичному машинному перекладу. Також підбивали підсумки Shared Task для завдання передбачення кінцівки розповіді (Story Cloze), для якої наразі досягнуто лише 77 % точності.

3. Новинки та тенденції

Саме на конференціях можна дізнатися про нові ресурси та алгоритми для опрацювання природної мови. Цього року на EACL я почула про багатомовні векторні представлення смислів (Nasari sense embeddings), Parallel Meaning Bank, занурилась у питання Vision and Language (а саме visual dependency grammar та visual question answering), а також побачила тисячу і один спосіб побудови векторних представлень слів. Зацікавили постери про визначення недостатності аргументації в есе, перефразування, розроблення вже класичних інструментів для опрацювання мов із невеликою кількістю лінгвістичних ресурсів.

Основні тренди на EACL: способи представлення значення речень, створення універсальних мовонезалежних рішень, машинний переклад, векторні представлення слів та концептів, опрацювання даних із соцмереж, діалогові системи та синтаксичний аналіз (мед на вуха лінгвіста!).

Семантичний аналіз речень також популярний. Наприклад, Марко Дамонте запропонував швидкий парсер для побудови AMR-графів. Отаких (хто розшифрує речення на основі семантичного графа, отримає «молодець» від Мар’яни):

Основна тема дебатів у кулуарах: чи потрібні знання про мову для розв’язання NLP-задач, беручи до уваги досягнення глибинного навчання. Вистачає палких прихильників з обох сторін. А є і треті, які навчають рекурентні нейронні мережі синтаксису.

Цікаве обговорення викликала ідея Гінріха Шютце. На сьогодні є два основні підходи до побудови NLP-застосунків: класичний NLP pipeline з набором етапів опрацювання тексту (токенізація, морфологічний аналіз, синтаксичний аналіз тощо) і побудова end-to-end рішень методами глибинного навчання. Шютце запропонував спробувати щось середнє — закодувати інформацію, отриману з класичних етапів опрацювання тексту, у вектори. Ідея отримала назву Red Box.

Хочеться згадати цікавий проект з виділенням лінгвістичних ознак. Аліц’я Пьотрковіч виокремила ознаки, які впливають на популярність заголовків статей: іменовані сутності (люди, компанії, локації), незвичні (читай: нечастотні) поєднання слів, емоційно забарвлені слова, прикметники у найвищому ступені порівняння тощо. З такими результатами можна навчитись передбачати, які посилання розійдуться вірусом по мережі, а які практично ніхто не відкриє. Також це кльова підказка для журналістів та блогерів.

Серед демонстраційних версій програм було кілька цікавих проектів:

відстежування історичних постатей;
перевірка стилю для текстів іспанською мовою;
переклад з усної арабської на письмову англійську.

На семінарі LAW (Linguistic Annotation Workshop) я побувала вже вдруге (на ACL 2016 цей семінар теж проводили). Дослідники ділилися досвідом щодо інструментів для анотування, використання платформи Amazon Mechanical Turk, укладання інструкцій з анотування та ведення анотувальних проектів, показували нові корпуси та давали поради щодо забезпечення якості даних. Сьогодні інструменти для анотування дедалі частіше містять ігрові елементи для збільшення зацікавленості анотувальників. Радять також подавати на вхід автоматично проанотовані дані: менше роботи, дешевше коштує, ще й анотувальники вчаться. Тренувальна стадія в будь-якому проекті є дуже важливою. Вона дозволяє усунути неоднозначності в інструкції та доповнити її новими правилами та винятками.

Конференція EACL 2017 закінчилась, залишивши гарні спогади. Наступного разу ми обов’язково поїдемо з доповіддю, аби показати і наші досягнення.

NLP-спільнота в Україні росте та розвивається, тому хочеться, щоб на ACL-конференціях було більше дослідників з України. Приєднуйтесь до EACL 2019, де б вона не була ;)

Стаття створена у співавторстві з Ігорем Титиком. Редакція Настасії Осідач.

Читайте також: «DOU Проектор: словник ВЕСУМ та інші пов’язані засоби NLP для української мови»