Выделение речевой активности на фоне шумов при помощи компактной сверточной нейронной сети
https://doi.org/10.37661/1816-0301-2020-17-2-36-43
Аннотация
Исследуется задача выделения речевой активности из зашумленного звукового сигнала. Предлагается компактная модель сверточной нейронной сети, которая имеет всего 385 параметров. Модель нетребовательна к вычислительным ресурсам, что позволяет использовать ее в рамках концепции Интернета вещей для портативных устройств с низким энергопотреблением. В то же время эта модель обеспечивает высокую точность определения речевой активности на уровне лучших современных аналогов. Указанные полезные свойства достигаются путем применения специального сверточного слоя, учитывающего гармоническую структуру вокализованной речи и устраняющего избыточность модели за счет инвариантности к изменениям частоты основного тона. В рамках экспериментов производительность модели оценивалась в различных шумовых условиях для разных соотношений сигнала и шума. Результаты экспериментов показали, что предложенная модель обеспечивает более высокую точность определения речевой активности по сравнению с моделью, представленной компанией Google в фреймворке WebRTC.
Для цитирования:
Вашкевич Г.С., Азаров И.С. Выделение речевой активности на фоне шумов при помощи компактной сверточной нейронной сети. Информатика. 2020;17(2):36-43. https://doi.org/10.37661/1816-0301-2020-17-2-36-43
For citation:
Vashkevich R.S., Azarov E.S. Voice activity detection in noisy conditions using tiny convolutional neural network. Informatics. 2020;17(2):36-43. (In Russ.) https://doi.org/10.37661/1816-0301-2020-17-2-36-43