Перейти до основного вмісту
Digital State UA
Напрямок:
GovTech

Україна будує власну національну LLM: перша версія — навесні 2026 року

Дата та час публікації:
Час читання:
2 хв
Україна будує власну національну LLM: перша версія — навесні 2026 року

Україна переходить від використання глобальних ШІ-рішень до створення власної великої мовної моделі (LLM), адаптованої до української мови, контексту та державних потреб. У 2025 році проєкт національної LLM перейшов від концепції до практичної реалізації — із чіткою технічною архітектурою, партнерствами та дорожньою картою релізу.

Технічним партнером розробки стала компанія Київстар, яка фінансує та веде розробку моделі. Після завершення проєкту мовна модель буде передана державі. В основі української LLM — сімейство відкритих моделей Gemma від Google, які адаптуються та донавчаються під українську мовну й культурну специфіку.

Ключовий етап проєкту зараз — підготовка якісних даних для навчання. Українська мовна модель потребує глибокого корпусу текстів, який виходить за межі відкритого інтернету. Дані збираються у державних інституціях, медіа, університетах і наукових установах. Значна частина важливих джерел досі існує лише в паперовому вигляді, що підкреслює стратегічну потребу масштабної цифровізації архівів.

Для незалежного контролю якості створено експертний комітет за чотирма напрямами: науково-технічним, правовим, культурно-історичним і мовним. Його завдання — сформувати власні бенчмарки та систему тестування, які дозволять оцінювати не лише продуктивність, а й безпеку та коректність моделі.

До січня 2026 року команда планує завершити:

  • першу базу текстів для тренування моделі;
  • оптимізований токенізатор, спеціально розроблений для української мови;
  • власні бенчмарки для оцінки якості та надійності LLM.

Паралельно формується правова рамка роботи з даними — з фокусом на прозорість, захист інтелектуальної власності та відповідність міжнародним стандартам.

Першу версію української національної LLM планують запустити в бета-тестування навесні 2026 року. Модель буде навчена на унікальних даних і зможе конкурувати з іншими мовними моделями у відкритих рейтингах. Назву для LLM оберуть шляхом голосування в Дія — його планують запустити у січні 2026 року.

Поділитись

Читайте більше