Preview

Информатика

Расширенный поиск

Применение модели освоения языка к решению задачи обработки малых языков

https://doi.org/10.37661/1816-0301-2022-19-1-96-110

Аннотация

Решается задача построения компьютерной модели малого языка. Ее актуальность обусловлена необходимостью устранения информационного неравенства между носителями различных языков, востребованностью новых инструментов для исследования малоизученных языков и инновационных подходов к моделированию языка в условиях дефицита ресурсов, необходимостью поддержки и развития языков малых народов.

При решении задачи обработки малых языков на этапе описания проблемной ситуации преследуются три основные цели: обоснование проблемы моделирования языка в условиях дефицита ресурсов как особой задачи в сфере моделирования естественных языков, обзор литературы по соответствующей теме и разработка концепции модели усвоения языка с относительно малым числом доступных ресурсов. Используются методы компьютерного моделирования с применением нейронных сетей, обучение с частичным привлечением учителя и обучение с подкреплением.

В  работе  приведен обзор  литературы, посвященной моделированию  изучения  лексики,  морфологии и грамматики родного языка ребенком. На основании современных представлений о ходе изучения языка предложена архитектура системы обработки малого языка, которая при обучении опирается на компьютерное моделирование онтогенеза. Выделены основные компоненты системы и принципы их взаимодействия. В основе системы лежит модуль, построенный на базе современных диалоговых языковых моделей  и  обученный на  каком-либо крупном языке,  например английском. При обучении используется промежуточный слой, который представляет высказывания в некотором абстрактном виде, например, в символах формальной семантики. Соотношение между формальной записью высказываний и их переводом на целевой малый язык изучается методом моделирования процесса усвоения лексики и грамматики языка ребенком. Отдельный компонент имитирует неязыковой контекст, в котором происходит изучение языка.

В статье исследуется задача моделирования малых языков. Дано подробное обоснование актуальности моделирования малых языков: показана социальная значимость этой проблемы, польза ее решения для лингвистики, этнографии, этнологии и культурной антропологии. Отмечена неэффективность подходов, применяемых к крупным языкам, в условиях дефицита ресурсов. Предложена модель изучения языка с помощью имитации онтогенеза, которая опирается как на полученные результаты в области компьютерного моделирования, так и на данные психолингвистики.

Об авторе

Д. И. Качков
Белорусский государственный университет
Беларусь

Качков Дмитрий Ильич - аспирант кафедры многопроцессорных систем и  сетей факультета прикладной математики и информатики.

пр. Независимости, 4, Минск, 220030.



Список литературы

1. A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios [Electronic resource] / M. A. Hedderich [et al.]. – 2020. – Mode of access: https://arxiv.org/abs/2010.12309. – Date of access: 12.10.2021.

2. Dai, A. M. Semi-supervised sequence learning [Electronic resource] / A. M. Dai, Q. V. Le // Proc. of the 28th Intern. Conf. on Neural Information Processing Systems. – 2015. – Vol. 2. – P. 3079–3087. https://doi.org/10.18653/v1/P17-1161

3. TICO-19: the translation initiative for Covid-19 [Electronic resource] / A. Anastasopoulos [et al.] // Proc. of the 1st Workshop on NLP for COVID-19 (Part 2) at EMNLP 2020. – Dec. 2020. – Mode of access: https://aclanthology.org/2020.nlpcovid19-2.5/. – Date of access: 12.10.2021. https://doi.org/10.18653/v1/2020.nlpcovid19-2.5

4. Enabling low-resource transfer learning across Covid-19 corpora by combining event-extraction and co-training / A. Spangher [et al.] // Proc. of the 1st Workshop on NLP for COVID-19 at ACL 2020. – July 2020. – Mode of access: https://aclanthology.org/2020.nlpcovid19-acl.4/. – Date of access: 12.10.2021.

5. Attention is all you need / A. Vaswani [et al.] // Proc. of the 31st Intern. Conf. on Neural Information Processing Systems, Long Beach, California, USA, 4–9 Dec. 2017. – Long Beach, 2017. – P. 6000–6010.

6. Качков, Д. И. Моделирование языка и двунаправленные представления кодировщиков: обзор ключевых технологий / Д. И. Качков // Информатика. – 2020. – Т. 17, № 4. – С. 61–72. https://doi.org/10.37661/1816-0301-2020-17-4-61-72

7. Cloze-driven pretraining of self-attention networks / A. Baevski [et al.] // Proc. of the 2019 Conf. on Empirical Methods in Natural Language Processing and the 9th Intern. Joint Conf. on Natural Language Processing (EMNLP-IJCNLP), Hong Kong, China, 3–7 Nov. 2019. – Hong Kong, 2019. – P. 5360–5369. https://doi.org/10.18653/v1/D19-1539

8. RoBERTa: A Robustly Optimized BERT Pretraining Approach [Electronic resource] / Y. Liu [et al.]. – 2019. – Mode of access: https://arxiv.org/abs/1907.11692. – Date of access: 12.10.2021.

9. Замятин, К. Как и зачем сохранять языки народов России / К. Замятин, А. Пасанен, Я. Саарикиви. – Хельсинки, 2012. – 181 с.

10. Meisel, J. M. First and Second Language Acquisition (Cambridge Textbooks in Linguistics) / J. M. Meisel. – Cambridge University Press, 2011. – 318 р.

11. Clark, E. V. First Language Acquisition / E. V. Clark. – Cambridge University Press, 2009. – 2nd ed. – 490 р.

12. Лурия, А. Р. Язык и сознание / А. Р. Лурия ; под ред. Е. Д. Хомской. – М. : Изд-во Моск. ун-та, 1979. – 320 с.

13. Бурлак, С. А. Происхождение языка. Факты, исследования, гипотезы / С. А. Бурлак. – М. : Альпина Диджитал, 2019. – 609 с.

14. Немов, Р. С. Общая психология в 3 т. Том II в 4 кн. Книга 4. Речь. Психические состояния : учебник и практикум для академического бакалавриата / Р. С. Немов. – 6-е изд., перераб. и доп. – М. : Юрайт, 2017. – 243 с.

15. Evans, V. The Language Myth Why Language Is Not an Instinct / V. Evans. – Cambridge University Press, 2014. – 314 р.

16. Пирс, Ч. С. Принципы философии : в 2 т. / Ч. С. Пирс ; пер. с англ. В. В. Кирющенко, М. В. Колопотина. – СПб. : Санкт-Петербургское философское общество, 2001. – Т. 2. – 313 с.

17. Виноград, Т. Программа, понимающая естественный язык / Т. Виноград. – М. : Мир, 1976. – 296 с.

18. VQA: visual question answering / S. Antol [et al.] // IEEE Intern. Conf. on Computer Vision (ICCV). – Santiago, Chile, 2015. – P. 2425–2433. https://doi.org/10.1109/ICCV.2015.279

19. Embodied question answering / A. Das [et al.] // Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, UT, USA, 18–23 June 2018. – Salt Lake City, 2018. – P. 1–10.

20. A survey of reinforcement learning informed by natural language / J. Luketina [et al.] // Proc. of the Twenty-Eighth Intern. Joint Conf. on Artificial Intelligence, Macao, China, 10–16 Aug. 2019. – Macao, 2019. – P. 6309–6317. https://doi.org/10.24963/ijcai.2019/880

21. Janner, M. Representation learning for grounded spatial reasoning / M. Janner, K. Narasimhan, R. Barzilay // Transactions of the Association for Computational Linguistics. – 2018. – Vol. 6. – P. 49–61. https://doi.org/10.1162/tacl_a_00004

22. Côté, M.-A. TextWorld: A learning environment for text-based games / M.-A. Côté ; T. Cazenave, A. Saffidine, N. Sturtevant (eds.) // Computer Games. CGW 2018. Communications in Computer and Information Science. – Cham : Springer, 2018. – Vol. 1017. – Р. 41–75. https://doi.org/10.1007/978-3-030-24337-1_3

23. Arora, S. A survey of inverse reinforcement learning: Challenges, methods and progress [Electronic resource] / S. Arora, P. Doshi // Artificial Intelligence. – 2021. – Vol. 297. – Mode of access: https://arxiv.org/abs/1806.06877. – Date of access: 12.10.2021. https://doi.org/10.1016/j.artint.2021.103500

24. A general reinforcement learning algorithm that masters chess, shogi, and go through self-play / D. Silver [et al.] // Science. – 2018. – Vol. 362, no. 6419. – P. 1140–1144. https://dx.doi.org/10.1126%2Fscience.aar6404

25. Freudenthal, D. Computational models of language development / D. Freudenthal, A. Alishahi ; P. J. Brooks, V. Kempe (eds.) // Encyclopedia of Language Development. – 1st ed. – SAGE Publications Inc., 2014. – P. 92–96.

26. Fazly, A. A probabilistic computational model of cross‐situational word learning / A. Fazly, A. Alishahi, S. Stevenson // Cognitive Science. – 2010. – Vol. 34, iss. 6. – P. 1017–1063. https://doi.org/10.1111/j.1551-6709.2010.01104.x

27. Christiansen, M. H. Connectionist natural language processing: the state of the art / M. H. Christiansen, N. Chater // Cognitive Science. – 1999. – Vol. 23, iss. 4. – P. 417–437. https://doi.org/10.1207/s15516709cog2304_2

28. Buttery, P. J. Computational models for first language acquisition / P. J. Buttery // Technical Report UCAM-CL-TR-675. – University of Cambridge, 2006. – Mode of access: https://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-675.pdf. – Date of access: 21.03.2021.

29. MacWhinney, B. The CHILDES Project: Tools for Analyzing Talk: Transcription Format and Programs (3rd ed.) / B. MacWhinney. – Lawrence Erlbaum Associates Publishers, 2000.

30. Jones, G. A process model of children’s early verb use / G. Jones, F. Gobet, J. M. Pine // Proc. of the 22th Annual Conf. of the Cognitive Science Society, Philadelphia, PA, 13–15 Aug. 2000. – Philadelphia, 2000. – P. 723–728.

31. Alishahi, A. Computational Modeling of Human Language Acquisition / A. Alishahi. – Morgan & Claypool, 2010. – 107 p.

32. Andersen, E. S. The impact of input: language acquisition in the visually impaired / E. S. Andersen, A. Dunlea, L. Kekelis // First Language. – 1993. – Vol. 13, no. 37. – P. 23–49. https://doi.org/10.1177/014272379301303703

33. Vlasov, V. Dialogue Transformers [Electronic resource] / V. Vlasov, J. E. M. Mosig, A. Nicho. – 2019. – Mode of access: https://arxiv.org/abs/1910.00486. – Date of access: 12.10.2021.

34. Андреев, А. В. Введение в формальную семантику : учеб. пособие / А. В. Андреев, О. А. Митрофанова, К. В. Соколов. – СПб. : СПбГУ, 2014. – 88 с.

35. Goddard, C. The search for the shared semantic core of all languages / C. Goddard ; C. Goddard, A. Wierzbicka (eds.) // Meaning and Universal Grammar – Theory and Empirical Findings. – Amsterdam : John Benjamins, 2002. – Vol. I. – P. 5–40.

36. Barnes, J. Evidentials in the Tuyuca Verb / J. Barnes // Intern. J. of American Linguistics. – 1984. – Vol. 50, no. 3. – P. 255–271.


Дополнительные файлы

Рецензия

Для цитирования:


Качков Д.И. Применение модели освоения языка к решению задачи обработки малых языков. Информатика. 2022;19(1):96-110. https://doi.org/10.37661/1816-0301-2022-19-1-96-110

For citation:


Kachkou D.I. Applying the language acquisition model to the solution small language processing tasks. Informatics. 2022;19(1):96-110. (In Russ.) https://doi.org/10.37661/1816-0301-2022-19-1-96-110

Просмотров: 451


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)