References

inform

Информатика

Informatics

1816-03012617-6963

UIIP NASB

inform-689

Research Article

ОБРАБОТКА СИГНАЛОВ, ИЗОБРАЖЕНИЙ, РЕЧИ, ТЕКСТА И РАСПОЗНАВАНИЕ ОБРАЗОВ

SIGNAL, IMAGE, SPEECH, TEXT PROCESSING AND PATTERN RECOGNITION

АВТОМАТИЗИРОВАННАЯ СИСТЕМА КЛОНИРОВАНИЯ ФОНЕТИКО-АКУСТИЧЕСКИХ ХАРАКТЕРИСТИК РЕЧИ

Цирульник

Л. И.

Объединенный институт проблем информатики НАН БеларусиBelarus

2006

13122018

02(10)4655

2018

Цирульник Л.И.

Данная работа распространяется под лицензией Creative Commons Attribution 4.0.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://inf.grid.by/jour/article/view/689

Описывается технология клонирования фонетико-акустических характеристик голоса и дикции в системе синтеза речи по тексту. Рассматривается процедура выбора базового набора элементов речи, формирования корпуса текстов и фонограмм записей естественной речи, создания индивидуализированных фонетико-акустических баз данных (БД). Приводится описание разработанной системы клонирования фонетико-акустических характеристик речи. Система осуществляет сегментацию и аллофонную разметку естественного речевого сигнала, выбор фонетико-акустических речевых единиц и их запись в формируемую БД. Дается MOS-оценка правдоподобия синтезированного речевого клона. Показываются области практического применения системы.

References1

Лобанов, Б. М. Компьютерное «клонирование» персонального голоса и речи / Б.М. Лобанов // Новости искусственного интеллекта. – 2002. – № 5(55). – С. 35–39.

The AT&T Next-Gen TTS System / M. Beutnagel [et al.] // Proc. of the Joint Meeting of ASA, EAA, and DAGA. – Berlin, Germany, 1999.– P. 41–44.

Lobanov, B.M. TTS-Synthesizer as a Computer Means for Personal Voice Cloning (On the example of Russian) / B.M. Lobanov, E.B. Karnevskaya // Phonetics and its Applications. – Stuttgart: Franz Steiner Verlag, 2002. – P. 445–452.

Лобанов, Б.М. Синтез речи по тексту / Б.М. Лобанов // Четвертая Междунар. летняя школа-семинар по искусственному интеллекту: сб. науч. тр. – Минск: Изд-во БГУ, 2000. – С. 57–76.

Skrelin, P. Allophone-Based Concatenative Speech Synthesis System for Russian / P. Skrelin // Proc. of International Conference TSD '99. – Berlin, 1999. – P. 156–159.

Beutnagel, M. Diphone synthesis using unit selection / M. Beutnagel, A. Conkie, A. Syrdal // Proc. of the 3rd International Workshop of Speech Synthesis. – Jenolan Caves, Australia, 1998. – P. 77–80.

Law, K. Cantonese Text-To-Speech Synthesis Using Sub-syllable Units / K. Law, T. Lee, W. Lau // Proc. of the International Conference «EuroSpeech’2001». – Aalborg, Denmark, 2001. – Vol. 2. – P. 991–994.

Breuer, S. Phoxsy: Multi-phone Segments for Unit Selection Speech Synthesis / S. Breuer, J. Abresch // Proc. of the International Conference «InterSpeech’2004». – Jeju Island, Korea, 2004. – Vol. 2. – P. 983–986.

База речевых фрагментов русского языка «ISABASE» / Д.С. Богданов [и др.] // Интеллектуальные технологии ввода и вывода информации. – М., 1998. – C. 20–23.

Lobanov, B.M. Phonetic-Acoustical Problems of Personal Voice Cloning by TTS / B.M Lobanov, L.I. Tsirulnik // Proc. of the International Conference «Speech and Computer» – SPECOM’2004. – St.-Petersburg, 2004. – P. 17–21.

Система сегментации речевого сигнала методом анализа через синтез / Б.М. Лобанов [и др.] // Известия Белорусской инженерной академии. – 2004. – № 1(17)/1. – C. 112–114.

Thorpe, L. Performance of current perceptual objective speech quality measures / L. Thorpe, W. Yang // Proc. of IEEE Workshop on speech coding. – Berlin, Germany, 1999. – P. 144–146

Chen, J.-D. Objective distance measures for Assessing Concatenative Speech Synthesis / J.-D. Chen, N. Campbell // Proc. of the International Conference «EuroSpeech’1999». – Budapest, Hungary, 1999. – Vol. 2. – P. 611–614.

Chu, M. An objective measure for estimating MOS of synthesized speech / M. Chu, H. Peng // Proc. the International Conference «EuroSpeech’2001». – Stockholm, Sweden, 2001. – P. 2087–2090.

Wouters, J. Perseptual evaluation of Distance Measures for Concatenative Speech Synthesis / J. Wouters, M. A. Magon // Proc. of the International Conference ICSPL’98. – Helsinki, Finland, 1998. – P. 2747–2750.

A method for subjective performance assessment of the quality of speech voice output devices. ITU-T Recommendation P. 85. ITU-T, 1994.

Лобанов, Б.М. Персональные особенности синтагматического членения речи телеведущего Ю.Сенкевича / Б.М. Лобанов, Л.И. Цирульник // Компьютерная лингвистика и интеллектуальные технологии: тр. Междунар. конф. «Диалог’2004». – М.: Наука, 2004. – C. 419–423.

Система экспресс-идентификации голоса личности методом клонирования акустических характеристик речи / Б.М. Лобанов [и др.] // Тез. докл. Междунар. конф. «Теория и практика речевой коммуникации». – М., 2004. – C. 23–28.

The authors declare that there are no conflicts of interest present.