Preview

Информатика

Расширенный поиск

BelLitGPT – технологии языковых моделей для белорусского языка

https://doi.org/10.37661/1816-0301-2026-23-1-26-38

Аннотация

Цели. Работа выполнена в области исследования специализированных генеративных нейронных сетей для белорусского языка. Поставлена цель сделать первый шаг для построения национальной генеративной языковой модели.

Методы. Описывается процесс разработки модели BelLitGPT (700 млн параметров), который основан на стратегии трансферного обучения русскоязычной модели ruGPT-3 и состоит из трех этапов: подготовки корпуса, адаптации токенизатора и обучения модели. Обучающий корпус составлен из золотого фонда классической белорусской прозы и подготовленных статей из Википедии. Подробно описываются методика адаптации токенизатора для расширения словарного запаса специфическими белорусскими лексемами, процесс обучения и тестирования модели.

Результаты. Результаты исследования подтверждают способность модели BelLitGPT генерировать связные, грамматически и стилистически корректные тексты. Особое внимание уделено созданию гибридного нейросимвольного подхода для генерации четверостиший с соблюдением ритма и рифмы.

Заключение. Эксперимент по масштабированию архитектуры показал сложности в обучении крупной модели (13 млрд параметров) в условиях дефицита данных.

Об авторах

А. М. Бондоловский
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Андрей Михайлович Бондоловский, кандидат экономических наук, заведующий лабораторией распознавания и синтеза речи

Сурганова, 6, Минск, 220012



Д. А. Ляхов
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Ляхов Дмитрий Александрович, кандидат физико-математических наук, старший научный сотрудник

Сурганова, 6, Минск, 220012



С. В. Кругликов
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Сергей Владимирович Кругликов, доктор военных наук, кандидат технических наук, доцент, главный научный сотрудник

Сурганова, 6, Минск, 220012



К. К. Шульган
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Константин Константинович Шульган, заместитель генерального директора по цифровому развитию

Сурганова, 6, Минск, 220012



Список литературы

1. Brown T., Mann B., Ryder N., Subbiah M., Kaplan J. D., …, Amodei D. Language models are few-shot learners. Advances in Neural Information Processing Systems, 2020, vol. 33, рр. 1877–1901.

2. Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. Language models are unsupervised multitask learners. OpenAI, 2019. Available at: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf (accessed 03.11.2025).

3. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., …, Polosukhin I. Attention is all you need. Advances in Neural Information Processing Systems, 2017, vol. 30, рр. 5998–6008.

4. Artetxe M., Ruder S., Yogatama D. On the cross-lingual transferability of monolingual representations. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online, 5–10 July 2020, рр. 4623–4637.

5. Jakubíček M., Kilgarriff A., Kovář V., Rychlỳ P., Suchomel V. The tenten corpus family. Proceedings of the 7th International Corpus Linguistics Conference (CL2013), Lancaster University, United Kingdom, 22–26 July 2013, рр. 125–127.

6. Sennrich R., Haddow B., Birch A. Neural machine translation of rare words with subword units. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, 7–12 August 2016, vol. 1, рр. 1715–1725.

7. Imamura K., Sumita E. Vocabulary adaptation for domain adaptation in neural machine translation. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 31 October – 4 November 2018, рр. 4623–4637.

8. Ghazvininejad M., Shi X., Choi Y., Knight K. Hafez: an interactive poetry generation system. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 30 July – 4 August 2017, рр. 43–48.

9. Mesnard T., Hardin C., Dadashi R., Bhupatiraju S., Pathak S., …, Eck D. Gemma: Open models based on Gemini research and technology, 2024. Available at: https://arxiv.org/pdf/2403.08295 (accessed 03.11.2025).

10. Lau J. H., Cohn T., Baldwin T., Brooke J., Hammond A. Deep-speare: A joint neural model of poetic language, meter and rhyme. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, Melbourne, Australia, 15–20 July 2018, vol. 1, рр. 1948–1958.

11. Zugarini A., Melacci S., Maggini M. Neural poetry: Learning to generate poems using syllables. Artificial Neural Networks and Machine Learning – ICANN 2019: Text and Time Series: 28th International Conference on Artificial Neural Networks, Munich, Germany, 17–19 September 2019, рр. 313–325.


Рецензия

Для цитирования:


Бондоловский А.М., Ляхов Д.А., Кругликов С.В., Шульган К.К. BelLitGPT – технологии языковых моделей для белорусского языка. Информатика. 2026;23(1):26-38. https://doi.org/10.37661/1816-0301-2026-23-1-26-38

For citation:


Lyakhov D.A., Bandalouski A.M., Kruglikov S.V., Shulgan K.K. BelLitGPT – language model technologies for the Belarusian language. Informatics. 2026;23(1):26-38. (In Russ.) https://doi.org/10.37661/1816-0301-2026-23-1-26-38

Просмотров: 800

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)