Малоразмерные спектральные признаки для машинного обучения в задачах анализа и классификации голосового сигнала
https://doi.org/10.37661/1816-0301-2023-20-1-102-112
Аннотация
Цели. Решается задача разработки метода вычисления малоразмерных спектральных признаков, повышающего эффективность существующих систем машинного обучения для анализа и классификации голосовых сигналов.
Методы. Спектральные признаки извлекаются с помощью генеративного подхода, который предполагает вычисление дискретного спектра Фурье последовательности отчетов, сгенерированной с использованием авторегрессионной модели входного голосового сигнала. Сгенерированная последовательность, обрабатываемая дискретным преобразованием Фурье, учитывает периодичность преобразования, позволяя тем самым повысить точность спектральной оценки анализируемого сигнала.
Результаты. Предложен и описан генеративный метод вычисления спектральных признаков, предназначенных для применения в системах машинного обучения при анализе и классификации голосовых сигналов. Проведен экспериментальный анализ точности и стабильности представления спектра тестового сигнала с известным спектральным составом с использованием огибающих. Огибающие вычислялись с помощью предложенного генеративного метода и дискретного преобразования Фурье с различными окнами анализа (прямоугольным окном и окном Ханна). Проведенный анализ показал, что генеративный метод получения спектральных огибающих позволил добиться более точного представления спектра тестового сигнала по критерию минимума квадратичной ошибки. Проведено сравнение эффективности классификации голосового сигнала при использовании предложенных признаков и признаков на основе мел-частотных кепстральных коэффициентов. В качестве базовой тестовой системы для оценки эффективности предлагаемого подхода на практике использовалась система диагностики бокового амиотрофического склероза по голосу.
Заключение. Результаты экспериментов показали ощутимое повышение точности классификации при использовании предлагаемых признаков по сравнению с признаками на основе мел-частотных кепстральных коэффициентов.
Ключевые слова
Об авторах
Д. С. ЛихачёвБеларусь
Лихачёв Денис Сергеевич, кандидат технических наук, доцент кафедры электронных вычислительных средств
ул. П. Бровки, 6, Минск, 220013
М. И. Вашкевич
Беларусь
Вашкевич Максим Иосифович, доктор технических наук, доцент кафедры электронных вычислительных средств
ул. П. Бровки, 6, Минск, 220013
Н. А. Петровский
Беларусь
Петровский Николай Александрович, кандидат технических наук, доцент кафедры электронных вычислительных средств
ул. П. Бровки, 6, Минск, 220013
И. С. Азаров
Беларусь
Азаров Илья Сергеевич, доктор технических наук, доцент, заведующий кафедрой электронных вычислительных средств
ул. П. Бровки, 6, Минск, 220013
Список литературы
1. Towards robust voice pathology detection / P. Harar [et al.] // Neural Computing and Applications. – 2020. – Vol. 32, no. 20. – P. 15747–15757.
2. Benba, A. Discriminating between patients with Parkinson’s and neurological diseases using cepstral analysis / A. Benba, A. Jilbab, A. Hammouch // IEEE Transactions on Neural Systems and Rehabilitation Engineering. – 2016. – Vol. 24, no. 10. – P. 1100–1108.
3. Vashkevich, M. Classification of ALS patients based on acoustic analysis of sustained vowel phonations / M. Vashkevich, Y. Rushkevich // Biomedical Signal Processing and Control. – 2021. – Vol. 65. – P. 1–14.
4. Rabiner, L. R. Fundamentals of Speech Recognition / L. R. Rabiner, B. H. Juang. – Pearson Education, 1993. – 570 p.
5. Harris, F. J. On the use of windows for harmonic analysis with the discrete Fourier transform / F. J. Harris // Proc. of the IEEE. – Jan. 1978. – Vol. 66, no. 1. – P. 51–83.
6. Вашкевич, М. И. Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах / М. И. Вашкевич, Д. С. Лихачёв, И. С. Азаров // Доклады БГУИР. – 2022. – Т. 20, № 4. – С. 73–82. https://doi.org/10.35596/1729-7648-2022-20-1-73-82
7. Markel, J. D. Linear Prediction of Speech / J. D. Markel, A. H. Gray. – Berlin, N. Y. : Springer-Verlag, 1976. – 290 p.
8. Flach, P. Machine Learning: The Art and Science of Algorithms That Make Sense of Data / P. Flach. – Cambridge University Press, 2012. – 416 p.
9. An Introduction to Statistical Learning with Applications in R / G. James [et al.]. – Springer, 2013. – 440 p.
10. Vashkevich, M. Bulbar ALS detection based on analysis of voice perturbation and vibrato / M. Vashkevich, A. Petrovsky, Y. Rushkevich // IEEE Intern. Conf. on Signal Processing: Algorithms, Architectures, Arrangements, and Applications, Poznan, Poland, 18–20 Sept. 2019. – Poznan, 2019. – P. 267–272.
11. The necessity of leave one subject out (LOSO) cross validation for EEG disease diagnosis / S. Kunjan [et al.] // Brain Informatics. – Springer, 2021. – P. 558–567. https://doi.org/10.1007/978-3-030-86993-9_50
Рецензия
Для цитирования:
Лихачёв Д.С., Вашкевич М.И., Петровский Н.А., Азаров И.С. Малоразмерные спектральные признаки для машинного обучения в задачах анализа и классификации голосового сигнала. Информатика. 2023;20(1):102-112. https://doi.org/10.37661/1816-0301-2023-20-1-102-112
For citation:
Likhachov D.S., Vashkevich M.I., Petrovsky N.A., Azarov E.S. Small-size spectral features for machine learning in voice signal analysis and classification tasks. Informatics. 2023;20(1):102-112. (In Russ.) https://doi.org/10.37661/1816-0301-2023-20-1-102-112