Цели

inform

Информатика

Informatics

1816-03012617-6963

UIIP NASB

10.37661/1816-0301-2023-20-1-102-112

inform-1234

Research Article

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

INFORMATION TECHNOLOGY

Малоразмерные спектральные признаки для машинного обучения в задачах анализа и классификации голосового сигнала

Small-size spectral features for machine learning in voice signal analysis and classification tasks

Лихачёв

Д. С.

Likhachov

D. S.

Лихачёв Денис Сергеевич, кандидат технических наук, доцент кафедры электронных вычислительных средств

ул. П. Бровки, 6, Минск, 220013

Denis S. Likhachov, Ph. D. (Eng.), Assoc. Prof. of Computer Engineering Department

st. P. Brovki, 6, Minsk, 220013

likhachov@bsuir.by

Вашкевич

М. И.

Vashkevich

M. I.

Вашкевич Максим Иосифович, доктор технических наук, доцент кафедры электронных вычислительных средств

ул. П. Бровки, 6, Минск, 220013

Maxim I. Vashkevich, D. Sc. (Eng.), Assoc. Prof. of Computer Engineering Department

st. P. Brovki, 6, Minsk, 220013

vashkevich@bsuir.by

Петровский

Н. А.

Petrovsky

N. A.

Петровский Николай Александрович, кандидат технических наук, доцент кафедры электронных вычислительных средств

ул. П. Бровки, 6, Минск, 220013

Nick A. Petrovsky, Ph. D. (Eng.), Assoc. Prof. of Computer Engineering Department

st. P. Brovki, 6, Minsk, 220013

nick.petrovsky@bsuir.by

Азаров

И. С.

Azarov

E. S.

Азаров Илья Сергеевич, доктор технических наук, доцент, заведующий кафедрой электронных вычислительных средств

ул. П. Бровки, 6, Минск, 220013

Elias S. Azarov, D. Sc. (Eng.), Assoc. Prof., Head of Computer Engineering Department

st. P. Brovki, 6, Minsk, 220013

azarov@bsuir.by

Белорусский государственный университет информатики и радиоэлектроникиBelarusian State University of Informatics and Radioelectronics

2023

29032023

201102112

2023

Лихачёв Д.С., Вашкевич М.И., Петровский Н.А., Азаров И.С.

Likhachov D.S., Vashkevich M.I., Petrovsky N.A., Azarov E.S.

Данная работа распространяется под лицензией Creative Commons Attribution 4.0.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://inf.grid.by/jour/article/view/1234

Цели

Цели. Решается задача разработки метода вычисления малоразмерных спектральных признаков, повышающего эффективность существующих систем машинного обучения для анализа и классификации голосовых сигналов.

Методы

Методы. Спектральные признаки извлекаются с помощью генеративного подхода, который предполагает вычисление дискретного спектра Фурье последовательности отчетов, сгенерированной с использованием авторегрессионной модели входного голосового сигнала. Сгенерированная последовательность, обрабатываемая дискретным преобразованием Фурье, учитывает периодичность преобразования, позволяя тем самым повысить точность спектральной оценки анализируемого сигнала.

Результаты

Результаты. Предложен и описан генеративный метод вычисления спектральных признаков, предназначенных для применения в системах машинного обучения при анализе и классификации голосовых сигналов. Проведен экспериментальный анализ точности и стабильности представления спектра тестового сигнала с известным спектральным составом с использованием огибающих. Огибающие вычислялись с помощью предложенного генеративного метода и дискретного преобразования Фурье с различными окнами анализа (прямоугольным окном и окном Ханна). Проведенный анализ показал, что генеративный метод получения спектральных огибающих позволил добиться более точного представления спектра тестового сигнала по критерию минимума квадратичной ошибки. Проведено сравнение эффективности классификации голосового сигнала при использовании предложенных признаков и признаков на основе мел-частотных кепстральных коэффициентов. В качестве базовой тестовой системы для оценки эффективности предлагаемого подхода на практике использовалась система диагностики бокового амиотрофического склероза по голосу.

Заключение

Заключение. Результаты экспериментов показали ощутимое повышение точности классификации при использовании предлагаемых признаков по сравнению с признаками на основе мел-частотных кепстральных коэффициентов.

Objectives

Objectives. The problem of developing a method for calculating small-sized spectral features that increases the efficiency of existing machine learning systems for analyzing and classifying voice signals is being solved.

Methods

Methods. Spectral features are extracted using a generative approach, which involves calculating a discrete Fourier spectrum for a sequence of samples generated using an autoregressive model of input voice signal. The generated sequence processed by the discrete Fourier transform considers the periodicity of the transform and thereby increase the accuracy of spectral estimation of analyzed signal.

Results

Results. A generative method for calculating spectral features intended for use in machine learning systems for the analysis and classification of voice signals is proposed and described. An experimental analysis of the accuracy and stability of the spectrum representation of a test signal with a known spectral composition has been carried out using the envelopes. The envelopes were calculated using proposed generative method and using discrete Fourier transform with different analysis windows (rectangular window and Hanna window). The analysis showed that spectral envelopes obtained using the proposed method more accurately represent the spectrum of test signal according to the criterion of minimum square error. A comparison of the effectiveness of voice signal classification with proposed features and the features based on the mel-frequency kepstral coefficients is carried out. A diagnostic system for amyotrophic lateral sclerosis was used as a basic test system to evaluate the effectiveness of proposed approach in practice.

Conclusion

Conclusion. The obtained experimental results showed a significant increase of classification accuracy when using proposed approach for calculating features compared with the features based on the mel-frequency kepstral coefficients.

анализ голосагенеративный методавторегрессиямашинное обучениеспектральные признакиклассификация

voice analysisgenerative methodautoregressionmachine learningspectral featuresclassification

References1

Towards robust voice pathology detection / P. Harar [et al.] // Neural Computing and Applications. – 2020. – Vol. 32, no. 20. – P. 15747–15757.

Harar P., Galaz Z., Alonso-Hernandez J. B., Mekyska J., Burget R., Smekal Z. Towards robust voice pathology detection. Neural Computing and Applications, 2020, vol. 32, no. 20, pp. 15747–15757.

Benba, A. Discriminating between patients with Parkinson’s and neurological diseases using cepstral analysis / A. Benba, A. Jilbab, A. Hammouch // IEEE Transactions on Neural Systems and Rehabilitation Engineering. – 2016. – Vol. 24, no. 10. – P. 1100–1108.

Benba A., Jilbab A., Hammouch A. Discriminating between patients with Parkinson’s and neurological diseases using cepstral analysis. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2016, vol. 24, no. 10, pp. 1100–1108.

Vashkevich, M. Classification of ALS patients based on acoustic analysis of sustained vowel phonations / M. Vashkevich, Y. Rushkevich // Biomedical Signal Processing and Control. – 2021. – Vol. 65. – P. 1–14.

Vashkevich M., Rushkevich Y. Classification of ALS patients based on acoustic analysis of sustained vowel phonations. Biomedical Signal Processing and Control, 2021, vol. 65, pp. 1–14.

Rabiner, L. R. Fundamentals of Speech Recognition / L. R. Rabiner, B. H. Juang. – Pearson Education, 1993. – 570 p.

Rabiner L. R., Juang B. H. Fundamentals of Speech Recognition. Pearson Education, 1993, 570 p.

Harris, F. J. On the use of windows for harmonic analysis with the discrete Fourier transform / F. J. Harris // Proc. of the IEEE. – Jan. 1978. – Vol. 66, no. 1. – P. 51–83.

Harris F. J. On the use of windows for harmonic analysis with the discrete Fourier transform. Proceedings of the IEEE, January 1978, vol. 66, no. 1, pp. 51–83. https://doi.org/10.1109/PROC.1978.10837

Вашкевич, М. И. Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах / М. И. Вашкевич, Д. С. Лихачёв, И. С. Азаров // Доклады БГУИР. – 2022. – Т. 20, № 4. – С. 73–82. https://doi.org/10.35596/1729-7648-2022-20-1-73-82

Vashkevich M. I., Likhachov D. S., Azarov E. S. Voice analysis and classification system based on perturbation parameters and cepstral presentation in psychoacoustic scales. Doklady Belorusskogo gosudarstvennogo universiteta informatiki i radioèlektroniki [Reports of the Belarusian State University of Informatics and Radioelectronics], 2022, vol. 20, no. 1, pp. 73–82 (In Russ.). https://doi.org/10.35596/17297648-2022-20-1-73-82

Markel, J. D. Linear Prediction of Speech / J. D. Markel, A. H. Gray. – Berlin, N. Y. : Springer-Verlag, 1976. – 290 p.

Markel J. D., Gray A. H. Linear Prediction of Speech. Berlin, New York, Springer-Verlag, 1976, 290 p.

Flach, P. Machine Learning: The Art and Science of Algorithms That Make Sense of Data / P. Flach. – Cambridge University Press, 2012. – 416 p.

Flach P. Machine Learning: The Art and Science of Algorithms That Make Sense of Data. Cambridge University Press, 2012, 416 p.

An Introduction to Statistical Learning with Applications in R / G. James [et al.]. – Springer, 2013. – 440 p.

James G., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning with Applications in R. Springer, 2013, 440 p.

Vashkevich, M. Bulbar ALS detection based on analysis of voice perturbation and vibrato / M. Vashkevich, A. Petrovsky, Y. Rushkevich // IEEE Intern. Conf. on Signal Processing: Algorithms, Architectures, Arrangements, and Applications, Poznan, Poland, 18–20 Sept. 2019. – Poznan, 2019. – P. 267–272.

Vashkevich, M., Petrovsky A., Rushkevich Y. Bulbar ALS detection based on analysis of voice perturbation and vibrato. IEEE International Conference on Signal Processing: Algorithms, Architectures, Arrangements, and Applications, Poznan, Poland, 18–20 September 2019. Poznan, 2019, pp. 267–272.

The necessity of leave one subject out (LOSO) cross validation for EEG disease diagnosis / S. Kunjan [et al.] // Brain Informatics. – Springer, 2021. – P. 558–567. https://doi.org/10.1007/978-3-030-86993-9_50

Kunjan S., Grummett T. S., Pope K. J., Powers D. M. W., Fitzgibbon S. P., …, Lewis T. W. The necessity of leave one subject out (LOSO) cross validation for EEG disease diagnosis. Brain Informatics, Springer, 2021, pp. 558–567. https://doi.org/10.1007/978-3-030-86993-9_50

The authors declare that there are no conflicts of interest present.