References

inform

Информатика

Informatics

1816-03012617-6963

UIIP NASB

inform-502

Research Article

ОБРАБОТКА СИГНАЛОВ, ИЗОБРАЖЕНИЙ, РЕЧИ, ТЕКСТА И РАСПОЗНАВАНИЕ ОБРАЗОВ

SIGNAL, IMAGE, SPEECH, TEXT PROCESSING AND PATTERN RECOGNITION

ВЕКТОРНО-ПАРАМЕТРИЧЕСКОЕ НИЗКОСКОРОСТНОЕ СЖАТИЕ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ СУПЕРКАДРОВ С ПЕРЕМЕННОЙ СТРУКТУРОЙ

Борискевич

А. А.

Рак

А. О.

Белорусский государственный университет информатики и радиоэлектроникиBelarus

2009

16102018

12(22)5770

2018

Борискевич А.А., Рак А.О.

Данная работа распространяется под лицензией Creative Commons Attribution 4.0.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://inf.grid.by/jour/article/view/502

Разрабатывается алгоритм векторно-параметрического низкоскоростного сжатия речи, основанный на использовании параметрической модели синтеза речевого сигнала с линейным предсказанием, суперкадров с переменной структурой, векторного квантования параметров суперкадра (коэффицента усиления, периода основного тона и LSF(line spectrum frequency)-коэффициентов) и интерполяции LSF-кадров. Даются рекомендации по выбору структуры суперкадра в зависимости от типа передаваемых параметров модели речевого сигнала. Осуществляется программная реализация алгоритма низкоскоростного параметрического сжатия речи в среде моделирования Matlab. Показывается, что разборчивость речи сохраняется при битовых скоростях 300–800 бит/с. Устанавливается, что увеличение битовой скорости обычно не приводит к значительному улучшению качества звучания из-за ограничений, накладываемых выбранной моделью речеобразования.

References1

Максимов, М.И. Проектирование низкоскоростных речепреобразующих устройств для каналов с высоким процентом ошибок / М.И. Максимов, Н.А. Сидорова, О.В. Чернояров // Электросвязь. – 2008. – № 7. – С. 48–49.

MELP: The new federal standard at 2400 bits/s / L.M. Supplee [et al.] // IEEE International Conference on Acoustics, Speech, and Signal Processing. – Munich, 1997. – P. 1591–1594.

Compandent's MELPe-Enhanced Mixed-Excitation Linear Predictive Vocoder [Electronic resource]. – Mode of access : http://www.compandent.com/products_melpe.htm. – Date of access : 03.03.2009.

Chamberlain, M. A 600 bps MELP vocoder for use on HF channels / M. Chamberlain // IEEE Military Communications Conference, MILCOM-2001, Communications for Network-Centric Operations: Creating the Information Force. – USA, 2001. – Vol. 1. – P. 447–453.

New NATO STANAG narrow band voice coder at 600 bit/s / G. Guilmin [et al.] // IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP-2006. – France Toulouse, 2006. – Vol. 1. – P. 689–692.

Wang, T. A 1200/2400 bps coding suite based on MELP / T. Wang, K. Koishida, V. Cuper¬man // Proc. of IEEE Workshop on Speech Coding. – Tsukuba, Japan, 2002. – Vol. 1. – P. 122–126.

Padellini, M. Very low bit rate (VLBR) speech coding around 500 bit/sec / M. Padellini, F. Capman, G. Baudoin // 12th European Signal Processing Conference (EUSIPCO 2004). – Vienna, Austria, 2004. – P. 1669–1672.

DARPA ASE. Program [Electronic resource]. – Mode of access : http://www.darpa.mil/ ato/solicit/ASE/index.htm. – Date of access : 03.03.2009.

Kritzinger, C. Low Bit Rate Speech Coding [Electronic resource]. – Mode of access : etd.sun.ac.za/jspui/bitstream/10019/89/1/KritzC.pdf. – Date of access : 03.03.2009.

Попов, О.Б. Цифровая обработка сигналов в трактах звукового вещания / О.Б. Попов, С.Г. Рихтер. – М. : Горячая линия – Телеком, 2007. – 341 с.

Фант, Г. Акустистическая теория речеобразования / Г. Фант; пер. с англ. Л.А. Варшавского, В.И. Медведева ; под ред. В.С. Григорьева. – М. : Наука, 1964. – 284 с.

Маркел, Дж.Д. Линейное предсказание речи / Дж.Д. Маркел, А.Х. Грэй ; пер с англ. ; под ред. Ю.Н. Прохорова, В.С. Звездина. – М. : Связь, 1980. – 308 с.

Kabal, P. The computation of Line Spectral Frequencies Using Chebyshev Polynomials / P. Kabal, R.P. Ramachanandran // IEEE Trans. Acoustics, Speech, Signal Processing. – 1986. – Vol. 34, № 6. – P. 1419–1426.

Рабинер, Л.Р. Цифровая обработка речевых сигналов / Л.Р. Рабинер, Р.В. Шафер. – М. : Радио и связь, 1981. – 496 с.

Марпл-мл., С.Л. Цифровой спектральный анализ и его приложения / С.Л. Марпл-мл. ; пер. c англ. – М. : Мир, 1990. – 584 с.

Linde, Y. An Algorithm for Vector Quantizer Design / Y. Linde, A. Buzo, R. Gray // IEEE Transactions on Communications. – 1980. – Vol. 28, № 1. – P. 84–94.

Real time vector quantization of LSP parameters / B. Kovesi [et al.] // Speech communication. – 1999. – Vol. 29, № 1. – P. 39–47.

Paliwal, K.K. Quantization of LPC Parameters / K.K. Paliwal, B.S. Atal [Electronic re-source]. – Mode of access : maxwell.me.gu.edu.au/spl/publications/papers/book_sc_kkp.pdf. – Date of access : 03.03.2009.

Paliwal, K.K. Efficient vector quantization of LPC parameters at 24 bits/frame [Electronic resource]. – Mode of access : max-well.me.gu.edu.au/spl/publications/papers/icassp91_kkp_lpc.pdf. – Date of access : 03.03.2009.

Hansen, J.H.L. An effective quality evaluation protocol for speech enhancement algorithms / J.H.L. Hansen, B.L. Pellom [Electronic resource]. – Mode of access : http://citeseerx.ist.psu.edu/viewdoc/ summary?doi=10.1.1.44.9149. – Date of access : 03.03.2009.

Zwicker, E. Psychoacoustics, Facts and Models / E. Zwicker, H. Fast. – N.Y. : Springer-Verlag, 1990. – 354 p.

The authors declare that there are no conflicts of interest present.