References

inform

Информатика

Informatics

1816-03012617-6963

UIIP NASB

inform-673

Research Article

ОБРАБОТКА СИГНАЛОВ, ИЗОБРАЖЕНИЙ, РЕЧИ, ТЕКСТА И РАСПОЗНАВАНИЕ ОБРАЗОВ

SIGNAL, IMAGE, SPEECH, TEXT PROCESSING AND PATTERN RECOGNITION

АЛГОРИТМ СЕГМЕНТАЦИИ РЕЧИ НА ОСНОВЕ МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ

Давыдов

А. Г.

Объединенный институт проблем информатики НАН БеларусиBelarus

2006

06122018

01(9)4757

2018

Давыдов А.Г.

Данная работа распространяется под лицензией Creative Commons Attribution 4.0.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://inf.grid.by/jour/article/view/673

Рассматривается система автоматической сегментации речи на основе динамического программирования. В качестве вектора признаков предлагается использовать спектр и усредненные конечные разности спектра по времени. Определяются оптимальные параметры работы системы на тестовом множестве из 1128 элементов.

References1

Lobanov B.M, Karnevskaya E.B. Phonetics and its Applications. – Stuttgart: Franz Steiner Verlag, 2002. – P. 445–452.

Система экспресс-идентификации голоса личности методом клонирования акустических характеристик речи /А.Г. Давыдов, В.В. Киселев, Б.М. Лобанов, Л.И. Цирульник // Тез. докл. Междунар. конф. «Теория и практика речевой коммуникации». – М., 2004. – С. 23–28.

Malfrere F., Dutoit T. High quality speech synthesis for phonetic speech segmentation // Proc. of Eurospeech’97. – Rhodes, Greece, 1997. – Р. 2631–2634.

Система сегментации речевого сигнала методом анализа через синтез / А.Г. Давыдов, В.В. Киселев, Б.М. Лобанов, Л.И. Цирульник // Известия Белорусской инженерной академии. – № 1 (17)/1’. – 2004. – С. 112–115.

Sethy A., Narayanan S. Refined speech segmentation for concatenative speech synthesis // Proc. of ICSLP 2002 – INTERSPEECH 2002. – Denver, USA, 2002. – Р. 149–152.

Лобанов Б.М. Синтез речи по тексту // Четвертая Междунар. летняя школа-семинар по искусственному интеллекту: сб. науч. тр. – Мн.: Изд-во БГУ, 2000. – С. 57–76.

Development of an emotional speech synthesizer in Spamish / J.M. Montero, J. Guiterrez-Arriola, J. Colas et al. // Proc. of Eurospeech’99. – Budapest, Hungary, 1999. – P. 2099–2102.

Aravoice: An Arabic Text-to-Speech system / Z. Zemirli, R.A. Obrecht, A. Henni, M. Sellami // Proc. of SPECOM’2003. – Moskow, Russia, 2003. – P. 170–177.

Сорокин В.Н., Цыплухин А.И. Сегментация и распознавание гласных // Информационные процессы. – 2004. – Т. 4. – № 2. – С. 202–220.

Zwicker E., Flottorp G., Stevens S.S. Critical bandwidth in loudness summation // J. Acoust. Soc. Am. – № 29. – 1957. – Р. 548–557.

Hermansky H., Morgan N. RASTA processing of speech // IEEE Trans. on Speech and Audio Proc. – 1994. – Vol. 2. – № 4. – Р. 578–589.

A Low-Power, Fixed-Point, Front-End Feature Extraction for a Distributed Speech Recognition System / B. Delaney, N. Jayant, M. Hans et al. // IEEE International Conference on Acoustic Speech and Signal Processing, May 2002. – Orlando, Florida, 2002.

Bellman R.E. Dynamic Programming // Princeton University Press. – Princeton, NJ, USA, 1957.

Лобанов Б.М., Слуцкер Г.С., Тизик А.П. Автоматическое распознавание звукосочетаний в текущем речевом сигнале // Тр. НИИР. – Вып. 4. – М., 1969. – С. 67–75.

Itakura F. Minimum Prediction Residual Principle Applied to Speech Recognition // IEEE Transactions on Acoustics, Speech and Signal Processing. – Vol. ASSP-23. – 1975. – P. 52–72.

Sakoe H., Chiba S. Dynamic programming algorithm optimization for spoken word recognition // IEEE Transactions on Acoustics, Speech and Signal Processing. – Vol. 26. – 1978. – P. 43–49.

Вентцель Е.С. Исследование операций: задачи, принципы, методология. – М.: Наука, 1988. – 208 с.

Salvador S., Chan P. FastDTW: Toward Accurate Dynamic Time Warping in Linear Time and Space // KDD Workshop on Mining Temporal and Sequential Data, August 22, 2004. – Seattle, Washington, 2004.

The authors declare that there are no conflicts of interest present.