АВТОМАТИЗИРОВАННАЯ СИСТЕМА КЛОНИРОВАНИЯ ФОНЕТИКО-АКУСТИЧЕСКИХ ХАРАКТЕРИСТИК РЕЧИ
Аннотация
Описывается технология клонирования фонетико-акустических характеристик голоса и дикции в системе синтеза речи по тексту. Рассматривается процедура выбора базового набора элементов речи, формирования корпуса текстов и фонограмм записей естественной речи, создания индивидуализированных фонетико-акустических баз данных (БД). Приводится описание разработанной системы клонирования фонетико-акустических характеристик речи. Система осуществляет сегментацию и аллофонную разметку естественного речевого сигнала, выбор фонетико-акустических речевых единиц и их запись в формируемую БД. Дается MOS-оценка правдоподобия синтезированного речевого клона. Показываются области практического применения системы.
Список литературы
1. Лобанов, Б. М. Компьютерное «клонирование» персонального голоса и речи / Б.М. Лобанов // Новости искусственного интеллекта. – 2002. – № 5(55). – С. 35–39.
2. The AT&T Next-Gen TTS System / M. Beutnagel [et al.] // Proc. of the Joint Meeting of ASA, EAA, and DAGA. – Berlin, Germany, 1999.– P. 41–44.
3. Lobanov, B.M. TTS-Synthesizer as a Computer Means for Personal Voice Cloning (On the example of Russian) / B.M. Lobanov, E.B. Karnevskaya // Phonetics and its Applications. – Stuttgart: Franz Steiner Verlag, 2002. – P. 445–452.
4. Лобанов, Б.М. Синтез речи по тексту / Б.М. Лобанов // Четвертая Междунар. летняя школа-семинар по искусственному интеллекту: сб. науч. тр. – Минск: Изд-во БГУ, 2000. – С. 57–76.
5. Skrelin, P. Allophone-Based Concatenative Speech Synthesis System for Russian / P. Skrelin // Proc. of International Conference TSD '99. – Berlin, 1999. – P. 156–159.
6. Beutnagel, M. Diphone synthesis using unit selection / M. Beutnagel, A. Conkie, A. Syrdal // Proc. of the 3rd International Workshop of Speech Synthesis. – Jenolan Caves, Australia, 1998. – P. 77–80.
7. Law, K. Cantonese Text-To-Speech Synthesis Using Sub-syllable Units / K. Law, T. Lee, W. Lau // Proc. of the International Conference «EuroSpeech’2001». – Aalborg, Denmark, 2001. – Vol. 2. – P. 991–994.
8. Breuer, S. Phoxsy: Multi-phone Segments for Unit Selection Speech Synthesis / S. Breuer, J. Abresch // Proc. of the International Conference «InterSpeech’2004». – Jeju Island, Korea, 2004. – Vol. 2. – P. 983–986.
9. База речевых фрагментов русского языка «ISABASE» / Д.С. Богданов [и др.] // Интеллектуальные технологии ввода и вывода информации. – М., 1998. – C. 20–23.
10. Lobanov, B.M. Phonetic-Acoustical Problems of Personal Voice Cloning by TTS / B.M Lobanov, L.I. Tsirulnik // Proc. of the International Conference «Speech and Computer» – SPECOM’2004. – St.-Petersburg, 2004. – P. 17–21.
11. Система сегментации речевого сигнала методом анализа через синтез / Б.М. Лобанов [и др.] // Известия Белорусской инженерной академии. – 2004. – № 1(17)/1. – C. 112–114.
12. Thorpe, L. Performance of current perceptual objective speech quality measures / L. Thorpe, W. Yang // Proc. of IEEE Workshop on speech coding. – Berlin, Germany, 1999. – P. 144–146
13. Chen, J.-D. Objective distance measures for Assessing Concatenative Speech Synthesis / J.-D. Chen, N. Campbell // Proc. of the International Conference «EuroSpeech’1999». – Budapest, Hungary, 1999. – Vol. 2. – P. 611–614.
14. Chu, M. An objective measure for estimating MOS of synthesized speech / M. Chu, H. Peng // Proc. the International Conference «EuroSpeech’2001». – Stockholm, Sweden, 2001. – P. 2087–2090.
15. Wouters, J. Perseptual evaluation of Distance Measures for Concatenative Speech Synthesis / J. Wouters, M. A. Magon // Proc. of the International Conference ICSPL’98. – Helsinki, Finland, 1998. – P. 2747–2750.
16. A method for subjective performance assessment of the quality of speech voice output devices. ITU-T Recommendation P. 85. ITU-T, 1994.
17. Лобанов, Б.М. Персональные особенности синтагматического членения речи телеведущего Ю.Сенкевича / Б.М. Лобанов, Л.И. Цирульник // Компьютерная лингвистика и интеллектуальные технологии: тр. Междунар. конф. «Диалог’2004». – М.: Наука, 2004. – C. 419–423.
18. Система экспресс-идентификации голоса личности методом клонирования акустических характеристик речи / Б.М. Лобанов [и др.] // Тез. докл. Междунар. конф. «Теория и практика речевой коммуникации». – М., 2004. – C. 23–28.
Рецензия
Для цитирования:
Цирульник Л.И. АВТОМАТИЗИРОВАННАЯ СИСТЕМА КЛОНИРОВАНИЯ ФОНЕТИКО-АКУСТИЧЕСКИХ ХАРАКТЕРИСТИК РЕЧИ. Информатика. 2006;(2(10)):46-55.