Мадэль аўтаматызаванай ідэнтыфікацыі амографаў для беларускай мовы
https://doi.org/10.37661/1816-0301-2023-20-4-87-100
Аннотация
Мэты. Мэтай працы з’яўляецца апісанне прататыпнай сістэмы для аўтаматызаванага здымання аманіміі ў электронных тэкстах на беларускай і рускай мовах. Гэта звязана з актуальнай праблемай аўтаматычнай апрацоўкі тэкстаў на марфалагічным узроўні, працэс якой ускладняецца флектыўнасцю беларускай мовы з разнастайнай і багатай сістэмай марфалагічных характарыстык часцін мовы.
Метады. У працы выкарыстоўваюцца правілавыя метады ідэнтыфікацыі амаграфіі і метады, заснаваныя на ведах.
Вынікі. Прапанаваны метады і падыходы для праектавання сістэм аўтаматычнага вызначэння амографаў. Падрабязна прадстаўлены метад, заснаваны на ведах, на аснове якога распрацаваны пакрокавы алгарытм ідэнтыфікацыі амографаў і рэалізаваны эфектыўны і хуткадзейны прататып для іх здымання на рускай і беларускай мовах.
Заключэнне. Прадстаўлены працоўны прататып пошуку амографаў, які з’яўляецца першым рэсурсам па здыманні шматзначнасці для беларускай мовы ў адкрытым доступе.
Об авторах
Ю. С. ГецэвічБеларусь
Гецэвіч Юрась Станіслававіч, кандыдат тэхнічных навук, дацэнт, загадчык лабараторыі распазнавання і сінтэзу маўлення
вул. Сурганава, 6, Мінск, 220012
Я. С. Зяноўка
Беларусь
Зяноўка Яўгенія Сяргееўна, малодшы навуковы супрацоўнік
вул. Сурганава, 6, Мінск, 220012
Д. І. Латышэвіч
Беларусь
Латышэвіч Давід Іосіфавіч, стажор малодшага навуковага супрацоўніка
вул. Сурганава, 6, Мінск, 220012
А. А. Бакуновіч
Беларусь
Бакуновіч Андрэй Аляксеевіч, малодшы навуковы супрацоўнік
вул. Сурганава, 6, Мінск, 220012
А. Я. Драгун
Беларусь
Драгун Анастасія Яўгеньеўна, малодшы навуковы супрацоўнік
вул. Сурганава, 6, Мінск, 220012
М. А. Казлова
Беларусь
Казлова Маргарыта Аляксандраўна, стажор малодшага навуковага супрацоўніка
вул. Сурганава, 6, Мінск, 220012
Список литературы
1. Word Sense Disambiguation: Algorithms and Applications / eds.: E. Agirre, P. Edmonds. – Springer, 2007. – Series: Text, Speech and Language Technology. – Vol. 33. – 377 р.
2. Ширшикова, А. А. О проблемах омонимии / А. А. Ширшикова // Альманах современной науки и образования. – Тамбов : Грамота, 2012. – № 2(57). – C. 190–192.
3. Tian, T. Improving web search results for homonyms by suggesting completions from an ontology / T. Tian, J. Geller, S. A. Chun // Current Trends in Web Engineering – 10th Intern. Conf. on Web Engineering, ICWE 2010 Workshops, Vienna, Austria, July 2010. – Vienna, Austria, 2010. – P. 41–44.
4. Van den Beukel, S. Homonym detection for humor recognition in short text / S. van den Beukel, L. Aroyo // Proceedings of the 9th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis, Brussels, Belgium, 31 October 2018. – Brussels, Belgium, 2018. – P. 286–291.
5. Pozdniakov, K Regular homophones: a tool for semantic typology and for linguistic reconstruction / K. Pozdniakov, G. Segerer // Africana Linguistica. – 2019. – Vol. 25. – P. 231–279.
6. Roll, U. Using machine learning to disentangle homonyms in large text corpora / U. Roll, R. A. Correia, O. Berger-Tal // Conservation Biology. – June 2018. – Vol. 32, iss. 3. – P. 716–724.
7. Рысаков, С. В. Статистические методы снятия омонимии / С. В. Рысаков, Э. С. Клышинский // Новые информационные технологии в автоматизированных системах. – 2015. – № 18. – С. 555–563.
8. Navigli, R. Structural semantic interconnections: a knowledge-based approach to word sense disambiguation / R. Navigli, P. Velardi // IEEE Transactions on Pattern Analysis and Machine Intelligence. – July 2005. – Vol. 27, iss. 7. – P. 1075–1086.
9. Гатауллин, Р. Р. Аналитический обзор методов разрешения морфологической многозначности / Р. Р. Гатауллин // Электронные библиотеки. – 2016. – Т. 19, № 2. – С. 98–114.
10. Зеленков, Ю. Г. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиции соседних слов / Ю. Г. Зеленков, И. В. Сегайлович, В. А. Титов // Компьютерная лингвистика и интеллектуальные технологии : тр. Междунар. конф. «Диалог-2005», Звенигород, 1–6 июня 2005 г. – М. : Наука, 2005. – C. 616–638.
11. Мухамедшин, Д. Р. Модуль разрешения морфологической неоднозначности: архитектура и организация базы данных / Д. Р. Мухамедшин, Д. Ш. Сулейманов // Программные продукты и системы. – 2020. – Т. 33, № 1. – C. 38–46.
12. Порохнин, А. А. Анализ статистических методов снятия омонимии в текстах на русском языке / А. А. Порохнин // Вестник АГТУ. Серия: Управление, вычислительная техника и информатика. – 2013. – № 2. – С. 168–174.
13. Лесько, О. Н. Использование онтологии предметной области для снятия омонимии в естественно-языковых текстах / О. Н. Лесько, Ю. В. Рогушина // Проблеми програмування : науковий журнал. – 2017. – № 2. – С. 61–71.
14. Зинькина, Ю. В. Разрешение функциональной омонимии в русском языке на основе контекстных правил / Ю. В. Зинькина, Н. В. Пяткин, О. А. Невзорова // Компьютерная лингвистика и интеллектуальные технологии : тр. Междунар. конф. «Диалог-2005», Звенигород, 1–6 июня 2005 г. – М. : Наука, 2005. – С. 198–202.
15. Okrut, T. Context-sensitive homograph disambiguation with NooJ in Belarusian and Russian electronic texts / T. Okrut, B. Lobanov, Y. Yakubovich // Intern. Scientific Conf. on the Automatic Processing of Natural-Language Electronic Texts ―NooJ’2015‖, Minsk, Belarus, 11–13 June 2015. – Minsk : UIIP NASB, 2015. – P. 48.
16. Камп’ютарна-лінгвістычныя сэрвісы www.corpus.by для аўтаматычнай апрацоўкі тэкстаў / Я. С. Качан [і інш.] // Нацыянальна-культурны кампанент у літаратурнай і дыялектнай мове : зб. навук. арт. – Брэст : БрДУ імя А. С. Пушкіна, 2016. – C. 93–104.
17. The problem of automatic search and determonation of homonyms for the Belarusian and Russian languages / Ya. Zianouka [et al.] // Информационные технологии в промышленности, логистике и социальной сфере. – Минск : Объединенный институт проблем информатики НАН Беларуси, 2021. – С. 182–184.
18. Новы Запавет – Кніга Прыповесьцяў : пер. А. Бокуна. – Мінск : Пазітыў-цэнтр, 2016. – 511 с.
Рецензия
Для цитирования:
Гецэвіч Ю.С., Зяноўка Я.С., Латышэвіч Д.І., Бакуновіч А.А., Драгун А.Я., Казлова М.А. Мадэль аўтаматызаванай ідэнтыфікацыі амографаў для беларускай мовы. Информатика. 2023;20(4):87-100. https://doi.org/10.37661/1816-0301-2023-20-4-87-100
For citation:
Hetsevich Yu.S., Zianouka Ya.S., Latyshevich D.I., Bakunovich A.A., Drahun A.Ya., Kazlova M.A. A model of homographs automatic identification for the Belarusian language. Informatics. 2023;20(4):87-100. (In Bel.) https://doi.org/10.37661/1816-0301-2023-20-4-87-100