Разработка метода подражательного обучения  для нейросетевой системы управления движением  мобильного робота на примере задачи поиска выхода  из лабиринта

Т. Ю. Ким; Г. А. Прокопович

doi:10.37661/1816-0301-2024-21-3-48-62

Разработка метода подражательного обучения для нейросетевой системы управления движением мобильного робота на примере задачи поиска выхода из лабиринта

Т. Ю. Ким, Г. А. Прокопович

https://doi.org/10.37661/1816-0301-2024-21-3-48-62

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Цели. Поставлена цель разработать новый метод обучения системы управления мобильным роботом поиску выхода из лабиринта на основе обучения с подкреплением и алгоритма правой руки.

Методы. В работе применен метод компьютерного моделирования в среде MATLAB/Simulink.

Результаты. Предложен новый метод обучения системы управления мобильным роботом, способный реализовывать алгоритм правой руки для поиска выхода из лабиринта. Данный метод основан на работе двух агентов, взаимодействующих между собой: первый непосредственно реализует поисковый алгоритм и ищет выход из лабиринта, а второй, следуя за ним, с помощью метода подражательного обучения пытается научиться находить выход из лабиринта. Агент-эксперт, реализуя дискретный алгоритм движения по лабиринту, совершает точные дискретные шаги и движется почти независимо от второго агента. Единственным ограничением является скорость его движения, которая прямо пропорционально зависит от расстояния между агентами. Второй агент, агент-ученик, методом проб и ошибок старается сократить расстояние до первого. Для реализации процесса обучения использовался метод обучения с подкреплением в режиме подражания, для которого была разработана соответствующая функция вознаграждения, позволяющая удерживать центр масс робота в центре коридора и при необходимости поворачивать, следуя за агентом-экспертом. Агенты передвигаются по виртуальному полигону, состоящему из разветвленных коридоров, достаточно широких для реализации различных маневров движений.

Заключение. Было доказано, что благодаря предложенному методу подражательного обучения агентученик способен не только перенимать от агента-эксперта требуемые паттерны поведения (искать в ранее неизвестном лабиринте выход по алгоритму правой руки), но и самостоятельно приобретать новые (изменять скорость на повороте, обходить небольшие коридоры-тупики), которые положительным образом влияют на выполнение поставленной задачи.

Ключевые слова

мобильный робот, агент, обучение с подкреплением, алгоритм правой руки, лабиринт, подражательное обучение

Об авторах

Т. Ю. Ким

Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Ким Татьяна Юрьевна, младший научный сотрудник, лаборатория робототехнических систем № 116

ул. Сурганова, 6, Минск, 220012

Г. А. Прокопович

Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Прокопович Григорий Александрович, кандидат технических наук, доцент

ул. Сурганова, 6, Минск, 220012

Список литературы

1. Towards continuous control for mobile robot navigation: A reinforcement learning and slam based approach / K. A. A. Mustafa [et al.] // Intern. Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. – 2019. – Vol. 42. – Р. 857–863. https://doi.org/10.5194/isprs-archives-XLII-2-W13-857-2019

2. Truong, X. T. Toward socially aware robot navigation in dynamic and crowded environments: A proactive social motion model / X. T. Truong, T. D. Ngo // IEEE Transactions on Automation Science and Engineering. – 2017. – Vol. 14, no. 4. – P. 1743–1760. https://doi.org/10.1109/TASE.2017.2731371

3. Playing Atari with Deep Reinforcement Learning [Electronic resource] / V. Mhin [et al.]. – 2013. – Mode of access: https://doi.org/10.48550/arXiv.1312.5602. – Date of access: 20.06.2024.

4. Mastering the game of Go with deep neural networks and tree search / D. Silver [et al.] // Nature. – 2016. – Vol. 529, no. 7587. – Р. 484–489.

5. Learning dexterous in-hand manipulation / M. Andrychowicz [et al.] // The Intern. J. of Robotics Research. – 2020. – Vol. 39, no. 1. – Р. 3–20. https://doi.org/10.1177/0278364919887447

6. Emergence of Locomotion Behaviours in Rich Environments [Electronic resource] / N. Heess [et al.]. – 2017. – Mode of access: https://doi.org/10.48550/arXiv.1707.02286. – Date of access: 20.06.2024.

7. Autonomous vehicle perception: The technology of today and tomorrow / J. V. Brummelen [et al.] // Transportation Research Part C: Emerging Technologies. – 2018. – No. 86. – P. 384–406. https://doi.org/10.1016/j.trc.2018.02.012

8. Huang, W. Learning to drive via Apprenticeship Learning and Deep Reinforcement Learning [Electronic resource] / W. Huang, F. Braghin, Z. Wang. – 2020. – P. 1–7. – Mode of access: https://doi.org/10.48550/arXiv.2001.03864. – Date of access: 20.06.2024.

9. Robust AI driving strategy for autonomous vehicles / S. Nageshrao [et al.] // AI-enabled Technologies for Autonomous and Connected Vehicles. – Springer, 2022. – Р. 161–212.

10. Sensor and sensor fusion technology in autonomous vehicles: A review / D. J. Yeong [et al.] // Sensors. – 2021. – Vol. 21, iss. 6. – Р. 2140. https://doi.org/10.3390/s21062140

11. Kweon, J. Deep reinforcement learning for guidewire navigation in coronary artery phantom / J. Kweon, K. Kim, Ch. Lee // IEEE Access. – 2021. – Vol. 9. – P. 166409–166422. https://doi.org/10.1109/ACCESS.2021.3135277

12. An Algorithmic Perspective on Imitation Learning / T. Osa [et al.]. – Bo ton : Now publishers Inc., 2018. – 188 p.

13. Лонца, A. Алгоритмы обучения с подкреплением на Python / A. Лонца ; пер. с англ. А. А. Слинкина. – М. : ДМК Пресс, 2020. – 285 с.

14. Chella, А. Imitation learning and anchoring through conceptual spaces / А. Chella // Applied Artificial Intelligence. – 2007. – No. 21. – P. 343–359.

15. Kim, T. Automatic tuning of the motion control system of a mobile robot along a trajectory based on the reinforcement learning method / T. Kim, R. Prakapovich // Communications in Computer and Information Science. – Springer, Cham, 2022. – Vol. 1562. – P. 234–244. https://doi.org/10.1007/978-3-030-98883-8_17

16. Sutton, R. S. Reinforcement Learning: An Introduction / R. S. Sutton, A. G. Barto. – 2nd ed. – London, England : The MIT Press, 2014. – 352 р.

17. Watkin , C. Q-learning / C. Watkin , P. Dayan // Machine Learning. – 1992. – Vol. 8, i . 3–4. – Р. 279–292.

18. Duan, J. M. Prior knowledge ba ed Q-learning path planning algorithm / J. M. Duan, Q. L. Chen // Electronic Optic & Control. – 2019. – Vol. 26, i . 9. – Р. 29–33.

19. Sutton, R. S. Reinforcement Learning: An Introduction / R. S. Sutton, A. G. Barto. – 2nd ed. – London, England : The MIT Pre , 2014. – 338 р.

20. Rossi, F. Horizontal and vertical scaling of container-based applications using reinforcement learning / F. Rossi, M. Nardelli, V. Cardellini // 2019 IEEE 12th Intern. Conf. on Cloud Computing (CLOUD), Milan, Italy, 8–13 July 2019. – Milan, 2019. – P. 329–338. https://doi.org/10.1109/CLOUD.2019.00061

21. PAC model-free reinforcement learning / A. L. Strehl [et al.] // ICML’06: Proc. of the 23th Intern. Conf. on Machine Learning, Pittsburgh, Pennsylvania, USA, 25–29 June 2006. – Pittsburgh, 2006. – P. 881–888. https://doi.org/10.1145/1143844.114395

22. Ravichandiran, S. Deep Reinforcement Learning with Python / S. Ravichandiran. – 2nd ed. – Packt Publishing, 2020. – 760 p.

23. Yu, Ch. Supervised-actor-critic reinforcement learning for intelligent mechanical ventilation and sedative dosing in intensive care units / Ch. Yu, G. Ren // BMC Medical Informatics and Decision Making. – 2020. – No. 20 (S3). – P. 1–8. https://doi.org/10.1186/s12911-020-1120-5

24. Imitation learning: progress, taxonomies and challenges [Electronic resource] / B. Zheng [et al.] // IEEE Transactions on Neural Networks and Learning Systems. – 2022. – P. 1–22. – Mode of access: https://arxiv.org/abs/2106.12177. – Date of access: 20.06.2024.

25. Ким, Т. Ю. Форсированное управление движением мобильного робота / Т. Ю. Ким, Г. А. Прокопович, А. А. Лобатый // Информатика. – 2022. − Т. 19, № 3. – С. 86–100. https://doi.org/10.37661/1816-0301-2022-19-3-86-100

Рецензия

Для цитирования:

Ким Т.Ю., Прокопович Г.А. Разработка метода подражательного обучения для нейросетевой системы управления движением мобильного робота на примере задачи поиска выхода из лабиринта. Информатика. 2024;21(3):48-62. https://doi.org/10.37661/1816-0301-2024-21-3-48-62

For citation:

Kim T.Yu., Prakapovich R.A. Development of an imitation learning method for a neural network system of mobile robot’s movement on example of the maze solving. Informatics. 2024;21(3):48-62. (In Russ.) https://doi.org/10.37661/1816-0301-2024-21-3-48-62

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Информатика