Preview

Информатика

Расширенный поиск

Фанетычная мінімізацыя корпуса тэкстаў на беларускай мове для навучання сістэмы сінтэзу маўлення

Аннотация

Большасць сучасных сістэм сінтэзу маўлення базіруюць сваю працу на корпусным метадзе. Корпусны метад, у адрозненні ад папулярнага раней кампіляцыйнага, выкарыстоўвае базу дадзеных натуральнага маўлення, якая складаецца не з асобных спецыяльна выбраных элементаў кампіляцыі, а ўяўляе сабой корпус фанаграм натуральнага маўлення. Для дасягнення высокай якасці сінтэзаванага маўлення пры такім падыходзе патрабуюцца вялікія аб’ѐмы тэкставай і адпаведнай гукавой інфармацыі, што з’яўляецца істотнай праблемай для так званых нерэсурсных моў, да якіх адносіцца і беларуская. У такім выпадку, як правіла, прымяняецца фанетычная мінімізацыя – адмысловы адбор тэкстаў, у выніку якога аб’ѐм тэкставага корпуса максімальна змяншаецца, але пры гэтым захоўваецца фанетычная паўната. У артыкуле разглядаюцца звесткі пра сутнасць і спосаб працы корпуснага метаду генерацыі гукавога сігналу ў сістэмах сінтэзу маўлення, прыводзіцца падрабязны агляд падыходаў да фарміравання тэкставых і маўленчых карпусоў, неабходных для генерацыі маўлення корпусным метадам. Другая палова працы прысвечана апісанню распрацаванага алгарытму фанетычнай мінімізацыі корпуса тэкстаў на беларускай мове, а таксама тэхнічных і лінгвістычных рэсурсаў, выкарыстаных для яго рэалізацыі. Прыводзяцца апісанні распрацаванага праграмнага прататыпа і шэрагу праведзеных аўтарам эксперыментаў па фанетычнай мінімізацыі.

Для цитирования:


Лысы С.I. Фанетычная мінімізацыя корпуса тэкстаў на беларускай мове для навучання сістэмы сінтэзу маўлення. Информатика. 2019;16(1):75-85.

For citation:


Lysy S.I. Phonetic minimization of the text corpus in Belarusian for the speech synthesis system training. Informatics. 2019;16(1):75-85. (In Russ.)

Просмотров: 761


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)