Распознавание эмоций по речи на основе LSTM-сетей с мультивекторным механизмом внимания
https://doi.org/10.37661/1816-0301-2026-23-1-69-87
Аннотация
Цели. Целью исследования является повышение точности распознавания эмоций по речевому сигналу с помощью моделей на основе рекуррентных нейронных сетей (РНС) с долгой краткосрочной памятью.
Методы. В работе предложен мультивекторный механизм внимания для РНС на основе ячеек LSTM. Данный механизм представляет собой обобщение классического мягкого внимания и позволяет модели одновременно анализировать различные аспекты временны́ х зависимостей. Предложенные архитектуры РНС применены к задаче распознавания эмоций по речевому сигналу. В качестве входных данных использовались последовательности мел-частотных кепстральных коэффициентов, отражающих частотно-временную структуру речевого сигнала. Эксперименты проводились на общедоступном наборе данных RAVDESS. Для автоматизированного подбора оптимальных гиперпараметров моделей использовался метод байесовской оптимизации.
Результаты. Результаты экспериментов с LSTM-сетями, имеющими различную размерность скрытого состояния (64, 96, 128), показывают, что применение мультивекторного механизма внимания приводит к статистически значимому улучшению среднего значения точности на величину от 0,88 до 1,56 %.
Заключение. Полученные результаты подтверждают целесообразность использования предложенного механизма мультивекторного внимания в архитектурах LSTM-сетей для задачи классификации эмоций в речи.
Об авторах
Д. В. КраснопрошинБеларусь
Краснопрошин Даниил Вадимович, магистр технических наук, аспирант кафедры электронных вычислительных средств
ул. П. Бровки, 6, Минск, 220013
М. И. Вашкевич
Беларусь
Вашкевич Максим Иосифович, доктор технических наук, доцент, профессор кафедры электронных вычислительных средств
ул. П. Бровки, 6, Минск, 220013
Список литературы
1. A review of affective computing: From unimodal analysis to multimodal fusion / S. Poria, E. Cambria, R. Bajpai, A. Hussain // Information Fusion. – 2017. – Vol. 37. – Р. 98–125.
2. Multimodal emotion recognition on RAVDESS dataset using transfer learning / C. Luna-Jiménez, D. Griol, Z. Callejas [et al.] // Sensors. – 2021. – Vol. 21. – P. 1–29.
3. Mirsamadi, S. Automatic speech emotion recognition using recurrent neural networks with local attention / S. Mirsamadi, E. Barsoum, C. Zhang // Proc. of IEEE Intern. Conf. on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, LA, USA, 05–09 Mar. 2017. – New Orleans, 2017. – P. 2227–2231.
4. Краснопрошин, Д. В. Отбор признаков на основе техники переноса обучения для классификации эмоций в речи с помощью полносвязной нейронной сети прямого распространения / Д. В. Краснопрошин, М. И. Вашкевич // Системный анализ и прикладная информатика. – 2025. – № 1. – С. 38–43.
5. Краснопрошин, Д. В. Анализ подходов к построению систем распознавания эмоций по речи с использованием методов глубокого обучения / Д. В. Краснопрошин, М. И. Вашкевич // Big Data and Advanced Analytics : сб. науч. ст. XI Междунар. науч.-практ. конф., Минск, 23–24 апр. 2025 г. – Мн., 2025. – С. 343–353.
6. Dal Rí, F. A. Speech emotion recognition and deep learning: an extensive validation using convolutional neural networks / F. A. Dal Rí, F. C. Ciardi, N. Conci // IEEE Access. – 2023. – Vol. 11. – Р. 116638–116649.
7. Waleed, G. T. Speech emotion recognition on MELD and RAVDESS datasets using CNN / G. T. Waleed, S. H. Shaker // Information. – 2025. – Vol. 16, no. 7. – Р. 518.
8. PANNs: Large-scale pretrained audio neural networks for audio pattern recognition / Q. Kong, Y. Cao, T. Iqbal [et al.] // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2020. – Vol. 28. – Р. 2880–2894.
9. Николенко, С. Глубокое обучение / С. Николенко, А. Кадурин, Е. Архангельская. – СПб. : Питер, 2019. – 480 с.
10. Hochreiter, S. Long short-term memory / S. Hochreiter, J. Schmidhuber // Neural Computation. – 1997. – Vol. 9, no. 8. – P. 1735–1780.
11. Context-aware attention mechanism for speech emotion recognition / G. Ramet, P. N. Garner, M. Baeriswyl, A. Lazaridis // 2018 IEEE Spoken Language Technology Workshop (SLT), Athens, Greece, 18–21 Dec. 2018. – Athens, 2018. – Р. 126–131.
12. Краснопрошин, Д. В. Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков / Д. В. Краснопрошин, М. И. Вашкевич // Доклады БГУИР. – 2024. – Т. 22, № 3. – С. 93–100.
13. Bahdanau, D. Neural machine translation by jointly learning to align and translate / D. Bahdanau, K. Cho, Y. Bengio // 3rd Intern. Conf. on Learning Representations, ICLR 2015, San Diego, CA, USA, 7–9 May 2015. – San Diego, 2015. – URL: https://arxiv.org/abs/1409.0473 (date of access: 13.11.2025).
14. Optuna: A next-generation hyperparameter optimization framework / T. Akiba, S. Sano, T. Yanase [et al.] // Proc. of the 25th ACM SIGKDD Intern. Conf. on Knowledge Discovery & Data Mining (KDD'19), Anchorage, AK, USA, 4–8 Aug. 2019. – Anchorage, 2019. – Р. 2623–2631.
15. Algorithms for hyper-parameter optimization / J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl // NIPS'11: Proc. of the 25th Intern. Conf. on Neural Information Processing Systems, Granada, Spain, 12–15 Dec. 2011. – Granada, 2011. – Р. 2546–2554.
16. Spectrogram based multi-task audio classification / Y. Zeng, H. Mao, D. Peng, Z. Yi // Multimedia Tools and Applications. – 2019. – Vol. 78, no. 3. – Р. 3705–3722.
17. A proposal for multimodal emotion recognition using aural transformers and action units on RAVDESS dataset / C. Luna-Jiménez, R. Kleinlein, D. Griol [et al.] // Applied Sciences. – 2022. – Vol. 12, no. 1. – P. 1–23.
Рецензия
Для цитирования:
Краснопрошин Д.В., Вашкевич М.И. Распознавание эмоций по речи на основе LSTM-сетей с мультивекторным механизмом внимания. Информатика. 2026;23(1):69-87. https://doi.org/10.37661/1816-0301-2026-23-1-69-87
For citation:
Krasnoproshin D.V., Vashkevich M.I. Speech emotion recognition based on LSTM networks with multi-vector attention. Informatics. 2026;23(1):69-87. (In Russ.) https://doi.org/10.37661/1816-0301-2026-23-1-69-87
JATS XML

















