Preview

Информатика

Расширенный поиск

Распознавание эмоций по речи на основе LSTM-сетей с мультивекторным механизмом внимания

https://doi.org/10.37661/1816-0301-2026-23-1-69-87

Аннотация

Цели. Целью исследования является повышение точности распознавания эмоций по речевому сигналу с помощью моделей на основе рекуррентных нейронных сетей (РНС) с долгой краткосрочной памятью.

Методы. В работе предложен мультивекторный механизм внимания для РНС на основе ячеек LSTM. Данный механизм представляет собой обобщение классического мягкого внимания и позволяет модели одновременно анализировать различные аспекты временны́ х зависимостей. Предложенные архитектуры РНС применены к задаче распознавания эмоций по речевому сигналу. В качестве входных данных использовались последовательности мел-частотных кепстральных коэффициентов, отражающих частотно-временную структуру речевого сигнала. Эксперименты проводились на общедоступном наборе данных RAVDESS. Для автоматизированного подбора оптимальных гиперпараметров моделей использовался метод байесовской оптимизации.

Результаты. Результаты экспериментов с LSTM-сетями, имеющими различную размерность скрытого состояния (64, 96, 128), показывают, что применение мультивекторного механизма внимания приводит к статистически значимому улучшению среднего значения точности на величину от 0,88 до 1,56 %.

Заключение. Полученные результаты подтверждают целесообразность использования предложенного механизма мультивекторного внимания в архитектурах LSTM-сетей для задачи классификации эмоций в речи.

Об авторах

Д. В. Краснопрошин
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Краснопрошин Даниил Вадимович, магистр технических наук, аспирант кафедры электронных вычислительных средств

ул. П. Бровки, 6, Минск, 220013



М. И. Вашкевич
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Вашкевич Максим Иосифович, доктор технических наук, доцент, профессор кафедры электронных вычислительных средств

ул. П. Бровки, 6, Минск, 220013



Список литературы

1. A review of affective computing: From unimodal analysis to multimodal fusion / S. Poria, E. Cambria, R. Bajpai, A. Hussain // Information Fusion. – 2017. – Vol. 37. – Р. 98–125.

2. Multimodal emotion recognition on RAVDESS dataset using transfer learning / C. Luna-Jiménez, D. Griol, Z. Callejas [et al.] // Sensors. – 2021. – Vol. 21. – P. 1–29.

3. Mirsamadi, S. Automatic speech emotion recognition using recurrent neural networks with local attention / S. Mirsamadi, E. Barsoum, C. Zhang // Proc. of IEEE Intern. Conf. on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, LA, USA, 05–09 Mar. 2017. – New Orleans, 2017. – P. 2227–2231.

4. Краснопрошин, Д. В. Отбор признаков на основе техники переноса обучения для классификации эмоций в речи с помощью полносвязной нейронной сети прямого распространения / Д. В. Краснопрошин, М. И. Вашкевич // Системный анализ и прикладная информатика. – 2025. – № 1. – С. 38–43.

5. Краснопрошин, Д. В. Анализ подходов к построению систем распознавания эмоций по речи с использованием методов глубокого обучения / Д. В. Краснопрошин, М. И. Вашкевич // Big Data and Advanced Analytics : сб. науч. ст. XI Междунар. науч.-практ. конф., Минск, 23–24 апр. 2025 г. – Мн., 2025. – С. 343–353.

6. Dal Rí, F. A. Speech emotion recognition and deep learning: an extensive validation using convolutional neural networks / F. A. Dal Rí, F. C. Ciardi, N. Conci // IEEE Access. – 2023. – Vol. 11. – Р. 116638–116649.

7. Waleed, G. T. Speech emotion recognition on MELD and RAVDESS datasets using CNN / G. T. Waleed, S. H. Shaker // Information. – 2025. – Vol. 16, no. 7. – Р. 518.

8. PANNs: Large-scale pretrained audio neural networks for audio pattern recognition / Q. Kong, Y. Cao, T. Iqbal [et al.] // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2020. – Vol. 28. – Р. 2880–2894.

9. Николенко, С. Глубокое обучение / С. Николенко, А. Кадурин, Е. Архангельская. – СПб. : Питер, 2019. – 480 с.

10. Hochreiter, S. Long short-term memory / S. Hochreiter, J. Schmidhuber // Neural Computation. – 1997. – Vol. 9, no. 8. – P. 1735–1780.

11. Context-aware attention mechanism for speech emotion recognition / G. Ramet, P. N. Garner, M. Baeriswyl, A. Lazaridis // 2018 IEEE Spoken Language Technology Workshop (SLT), Athens, Greece, 18–21 Dec. 2018. – Athens, 2018. – Р. 126–131.

12. Краснопрошин, Д. В. Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков / Д. В. Краснопрошин, М. И. Вашкевич // Доклады БГУИР. – 2024. – Т. 22, № 3. – С. 93–100.

13. Bahdanau, D. Neural machine translation by jointly learning to align and translate / D. Bahdanau, K. Cho, Y. Bengio // 3rd Intern. Conf. on Learning Representations, ICLR 2015, San Diego, CA, USA, 7–9 May 2015. – San Diego, 2015. – URL: https://arxiv.org/abs/1409.0473 (date of access: 13.11.2025).

14. Optuna: A next-generation hyperparameter optimization framework / T. Akiba, S. Sano, T. Yanase [et al.] // Proc. of the 25th ACM SIGKDD Intern. Conf. on Knowledge Discovery & Data Mining (KDD'19), Anchorage, AK, USA, 4–8 Aug. 2019. – Anchorage, 2019. – Р. 2623–2631.

15. Algorithms for hyper-parameter optimization / J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl // NIPS'11: Proc. of the 25th Intern. Conf. on Neural Information Processing Systems, Granada, Spain, 12–15 Dec. 2011. – Granada, 2011. – Р. 2546–2554.

16. Spectrogram based multi-task audio classification / Y. Zeng, H. Mao, D. Peng, Z. Yi // Multimedia Tools and Applications. – 2019. – Vol. 78, no. 3. – Р. 3705–3722.

17. A proposal for multimodal emotion recognition using aural transformers and action units on RAVDESS dataset / C. Luna-Jiménez, R. Kleinlein, D. Griol [et al.] // Applied Sciences. – 2022. – Vol. 12, no. 1. – P. 1–23.


Рецензия

Для цитирования:


Краснопрошин Д.В., Вашкевич М.И. Распознавание эмоций по речи на основе LSTM-сетей с мультивекторным механизмом внимания. Информатика. 2026;23(1):69-87. https://doi.org/10.37661/1816-0301-2026-23-1-69-87

For citation:


Krasnoproshin D.V., Vashkevich M.I. Speech emotion recognition based on LSTM networks with multi-vector attention. Informatics. 2026;23(1):69-87. (In Russ.) https://doi.org/10.37661/1816-0301-2026-23-1-69-87

Просмотров: 281

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)