Українські волонтери виклали у відкритий доступ перший результат своєї півторарічної роботи - відкритий електронний граматичний словник української мови.

"Це перший крок для створення чат-ботів, питально-відповідальних систем, систем перевірки орфографії, граматики та стилю, класифікаторів текстів тощо. І все це - українською мовою!", - розповіла Знай.ua одна із активних учасниць розробки безкоштовного продукту, комп'ютерний лінгвіст Мар'яна Романишин.

За її словами, до цього не були доступними інструменти саме для української мови, які допомагали б розробляти серйозний машинний переклад. Базові блоки і взялися створити команда лінгвістів та програміст Андрій Рисін.

Читайте також: Завод Кіровограду випускатиме сонячні батареї

Наразі ж у словнику проставили частину мови, відмінок, рід тощо. Його вже використовують для перевірки орфографії української мови у FireFox та LibreOffice, у лемматизаторі для ElasticSearch, у проекті PyMorphy та у проекті LanguageTool.

Популярні новини зараз
Ухилянтів хочуть дістати у будь-якій точці світу: ТЦК розсилають повістки за кордоном Доведеться сидіти на хлібі і воді: основні продукти харчування в Україні різко здорожчають восени - що найбільше "Холодний душ" від ПриватБанку: українцям масово блокують доступ до грошей - є лише кілька днів Торкнеться мешканців 9 областей: пенсіонери отримають пристойні доплати до пенсій
Показати ще

Наразі проект словника викладено на платформі GitHub.

Тут зібрали близько ~197 тисяч слів, що генерують 3,4 мільйони словоформ, і це - лише перший крок. Далі, активісти планують створити проанотований корпус української мови на мільйон слів.

Довідка: корпус у лінгвістиці - сукупність текстів, які спеціально підібрали і обробили за певними правилами, щоб їх можна було використати, як базу для дослідження мови.

Корпус української мови створювався один раз і є на даний момент закритим для використання.