Анонс корпусу БрУК сучасної української мови

Навздогін попередній колонці, присвяченій темі комп’ютерної обробки української мови, мене уповноважили зробити такий анонс:

Корпусна група БрУК та група lang-uk оголошують про співпрацю над відкритим корпусом сучасної української мови (БрУК). Корпусна група БрУК — це неформальне горизонтальне об’єднання лінгвістів та програмістів, яке існує вже близько двох років. Учасники групи працюють на засадах волонтерства і розробляють лише відкриті ресурси та інструменти. Трохи більше, ніж півроку тому, група оголосила про випуск Великого електронного словника української мови (ВЕСУМ), про який писали тут. Зараз група працює над створенням корпусу української мови та над покращенням підтримки української мови у LanguageTool.

Корпус БрУК — відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови. Він складається з якісних текстів, зібраних за суворими критеріями, та побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown. Роботу над корпусом розпочали волонтери корпусної групи БрУК, і ми, волонтери групи lang-uk, також долучаємось до роботи над ним за напрямком автоматизації процесів, програмування та пошуку фінансування. Поява цього корпусу, а також розробка анотацій для нього (таких як частин мови, дерев розбору речень, іменованих сутностей тощо) відкриє широке поле для подальших досліджень і розробок у галузі комп’ютерної лінгвістики для української, а також для застосування вже наявних для англійської та інших поширених мов інструментів обробки природнього тексту.

Група БрУК вікрита до приєднання лінгвістів-волонтерів для роботи над корпусом. Все, що потрібно: знання української мови, трішки часу, ентузіазм та відкритість. Натомість ви маєте можливість долучитись до створення засадничого проекту української комп’ютерної лінгвістики на найближче майбутнє та отримати великий досвід у сучасному NLP.

Як приєднатись

Будь ласка, завітайте на r2u.org.ua/corpus — там є контакти команди БрУКу, а також вимоги до добирання текстів до корпусу.

Контактна адреса групи: Данный адрес e-mail защищен от спам-ботов, Вам необходимо включить Javascript для его просмотра.

Також існує спільнота у фейсбуці: www.facebook.com/r2u.org.ua/

Похожие статьи:
1000 українців та українок, які постраждали від війни або є ветеранами, зможуть отримати стипендії на платні ІТ-курси від освітньої...
Харківський IT Кластер — єдиний з українських IT-об’єднань офіційно став частиною Консорціуму EEN — найбільшої у світі мережі...
В этот раз DOU Ревизор побывал в киевском офисе ЛУН — украинской продуктовой компании, которая делает поиск жилья комфортным....
Южнокорейская компания Samsung Electronics сообщила о реализации в партнерстве с Группой компаний CDC интерфейса прикладного...
PaaS та інфраструктура для людей — одна з небагатьох тем, що мене дійсно турбують та де я бачу багато простору для...
Яндекс.Метрика