Preview

Информатика

Расширенный поиск

Малоразмерные спектральные признаки для машинного обучения в задачах анализа и классификации голосового сигнала

https://doi.org/10.37661/1816-0301-2023-20-1-102-112

Аннотация

Цели. Решается задача разработки метода вычисления малоразмерных спектральных признаков, повышающего эффективность существующих систем машинного обучения для анализа и классификации голосовых сигналов.

Методы. Спектральные признаки извлекаются с помощью генеративного подхода, который предполагает вычисление дискретного спектра Фурье последовательности отчетов, сгенерированной с использованием авторегрессионной модели входного голосового сигнала. Сгенерированная последовательность, обрабатываемая дискретным преобразованием Фурье, учитывает периодичность преобразования, позволяя тем самым повысить точность спектральной оценки анализируемого сигнала.

Результаты. Предложен и описан генеративный метод вычисления спектральных признаков, предназначенных для применения в системах машинного обучения при анализе и классификации голосовых сигналов. Проведен экспериментальный анализ точности и стабильности представления спектра тестового сигнала с известным спектральным составом с использованием огибающих. Огибающие вычислялись с помощью предложенного генеративного метода и дискретного преобразования Фурье с различными окнами анализа (прямоугольным окном и окном Ханна). Проведенный анализ показал, что генеративный метод получения спектральных огибающих позволил добиться более точного представления спектра тестового сигнала по критерию минимума квадратичной ошибки. Проведено сравнение эффективности классификации голосового сигнала при использовании предложенных признаков и признаков на основе мел-частотных кепстральных коэффициентов. В качестве базовой тестовой системы для оценки эффективности предлагаемого подхода на практике использовалась система диагностики бокового амиотрофического склероза по голосу.

Заключение. Результаты экспериментов показали ощутимое повышение точности классификации при использовании предлагаемых признаков по сравнению с признаками на основе мел-частотных кепстральных коэффициентов.

Об авторах

Д. С. Лихачёв
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Лихачёв Денис Сергеевич, кандидат технических  наук, доцент кафедры электронных вычислительных средств

ул. П. Бровки, 6, Минск, 220013



М. И. Вашкевич
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Вашкевич Максим Иосифович, доктор технических наук, доцент кафедры электронных вычислительных средств

ул. П. Бровки, 6, Минск, 220013



Н. А. Петровский
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Петровский Николай Александрович, кандидат технических наук, доцент кафедры электронных вычислительных средств

ул. П. Бровки, 6, Минск, 220013



И. С. Азаров
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Азаров Илья Сергеевич, доктор технических наук, доцент, заведующий кафедрой электронных вычислительных средств

ул. П. Бровки, 6, Минск, 220013



Список литературы

1. Towards robust voice pathology detection / P. Harar [et al.] // Neural Computing and Applications. – 2020. – Vol. 32, no. 20. – P. 15747–15757.

2. Benba, A. Discriminating between patients with Parkinson’s and neurological diseases using cepstral analysis / A. Benba, A. Jilbab, A. Hammouch // IEEE Transactions on Neural Systems and Rehabilitation Engineering. – 2016. – Vol. 24, no. 10. – P. 1100–1108.

3. Vashkevich, M. Classification of ALS patients based on acoustic analysis of sustained vowel phonations / M. Vashkevich, Y. Rushkevich // Biomedical Signal Processing and Control. – 2021. – Vol. 65. – P. 1–14.

4. Rabiner, L. R. Fundamentals of Speech Recognition / L. R. Rabiner, B. H. Juang. – Pearson Education, 1993. – 570 p.

5. Harris, F. J. On the use of windows for harmonic analysis with the discrete Fourier transform / F. J. Harris // Proc. of the IEEE. – Jan. 1978. – Vol. 66, no. 1. – P. 51–83.

6. Вашкевич, М. И. Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах / М. И. Вашкевич, Д. С. Лихачёв, И. С. Азаров // Доклады БГУИР. – 2022. – Т. 20, № 4. – С. 73–82. https://doi.org/10.35596/1729-7648-2022-20-1-73-82

7. Markel, J. D. Linear Prediction of Speech / J. D. Markel, A. H. Gray. – Berlin, N. Y. : Springer-Verlag, 1976. – 290 p.

8. Flach, P. Machine Learning: The Art and Science of Algorithms That Make Sense of Data / P. Flach. – Cambridge University Press, 2012. – 416 p.

9. An Introduction to Statistical Learning with Applications in R / G. James [et al.]. – Springer, 2013. – 440 p.

10. Vashkevich, M. Bulbar ALS detection based on analysis of voice perturbation and vibrato / M. Vashkevich, A. Petrovsky, Y. Rushkevich // IEEE Intern. Conf. on Signal Processing: Algorithms, Architectures, Arrangements, and Applications, Poznan, Poland, 18–20 Sept. 2019. – Poznan, 2019. – P. 267–272.

11. The necessity of leave one subject out (LOSO) cross validation for EEG disease diagnosis / S. Kunjan [et al.] // Brain Informatics. – Springer, 2021. – P. 558–567. https://doi.org/10.1007/978-3-030-86993-9_50


Рецензия

Для цитирования:


Лихачёв Д.С., Вашкевич М.И., Петровский Н.А., Азаров И.С. Малоразмерные спектральные признаки для машинного обучения в задачах анализа и классификации голосового сигнала. Информатика. 2023;20(1):102-112. https://doi.org/10.37661/1816-0301-2023-20-1-102-112

For citation:


Likhachov D.S., Vashkevich M.I., Petrovsky N.A., Azarov E.S. Small-size spectral features for machine learning in voice signal analysis and classification tasks. Informatics. 2023;20(1):102-112. (In Russ.) https://doi.org/10.37661/1816-0301-2023-20-1-102-112

Просмотров: 318


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)