Анонс корпусу БрУК сучасної української мови

Навздогін попередній колонці, присвяченій темі комп’ютерної обробки української мови, мене уповноважили зробити такий анонс:

Корпусна група БрУК та група lang-uk оголошують про співпрацю над відкритим корпусом сучасної української мови (БрУК). Корпусна група БрУК — це неформальне горизонтальне об’єднання лінгвістів та програмістів, яке існує вже близько двох років. Учасники групи працюють на засадах волонтерства і розробляють лише відкриті ресурси та інструменти. Трохи більше, ніж півроку тому, група оголосила про випуск Великого електронного словника української мови (ВЕСУМ), про який писали тут. Зараз група працює над створенням корпусу української мови та над покращенням підтримки української мови у LanguageTool.

Корпус БрУК — відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови. Він складається з якісних текстів, зібраних за суворими критеріями, та побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown. Роботу над корпусом розпочали волонтери корпусної групи БрУК, і ми, волонтери групи lang-uk, також долучаємось до роботи над ним за напрямком автоматизації процесів, програмування та пошуку фінансування. Поява цього корпусу, а також розробка анотацій для нього (таких як частин мови, дерев розбору речень, іменованих сутностей тощо) відкриє широке поле для подальших досліджень і розробок у галузі комп’ютерної лінгвістики для української, а також для застосування вже наявних для англійської та інших поширених мов інструментів обробки природнього тексту.

Група БрУК вікрита до приєднання лінгвістів-волонтерів для роботи над корпусом. Все, що потрібно: знання української мови, трішки часу, ентузіазм та відкритість. Натомість ви маєте можливість долучитись до створення засадничого проекту української комп’ютерної лінгвістики на найближче майбутнє та отримати великий досвід у сучасному NLP.

Як приєднатись

Будь ласка, завітайте на r2u.org.ua/corpus — там є контакти команди БрУКу, а також вимоги до добирання текстів до корпусу.

Контактна адреса групи: Данный адрес e-mail защищен от спам-ботов, Вам необходимо включить Javascript для его просмотра.

Також існує спільнота у фейсбуці: www.facebook.com/r2u.org.ua/

Похожие статьи:
Почитать Фейсбуковская компания Parse выложила в открытый доступ свои SDK. Пост о том, как строить современные библиотеки. Длинная телега...
Міністр цифрової трансформації Михайло Федоров підписав лист, який закликає не мобілізувати до лав ЗСУ ІТ-фахівців. Відповідний лист...
Вітаю, колеги. Мене звати Андрій Трубіцин, я співпрацюю з ЕРАМ у ролі Senior Solution Architect. Мої робочі завдання передбачають документування...
Компания J’son & Partners Consulting представила краткий обзор рынка CDN в России и в мире на сентябрь 2015 года, в котором дан анализ состояния...
Що таке спеціалізація для ІТ-компанії? Як це — працювати в аутсорсингу в конкретній ніші? Я Ігор Цинман, співзасновник...
Яндекс.Метрика