Система транскрибации речи и перевода с русского языка на китайский
https://doi.org/10.37661/1816-0301-2025-22-3-25-34
Аннотация
Ц е л и. Целью проведенной работы является разработка архитектуры информационной системы для транскрибации и перевода речи, реализация ее блоков и тестирование их работы.
М е т о д ы. Рассмотрены существующие способы распознавания речи, проведен сравнительный анализ моделей распознавания речи и перевода текста. Процесс транскрибации речи включает в себя несколько последовательных этапов: сбор и предварительную обработку аудиосигнала, извлечение акустических признаков, непосредственное распознавание речи, постобработку и коррекцию текста, вывод результата. На этапе предобработки аудиосигнала используется комбинация специализированных библиотек, обеспечивающих подготовку данных для последующего анализа. Для нормализации параметров записи применяется библиотека librosa, позволяющая выполнять передискретизацию сигнала до стандартной частоты 16 кГц и преобразование его в монофонический формат. Для подавления фоновых шумов и выделения речевого компонента задействуется нейросетевая модель Demucs. Алгоритм спектральной субтракции дополнительно корректирует остаточные шумы. Сегментация речевой активности выполняется с использованием энергетического детектора из WebRTC, автоматически выделяя речевые фрагменты и удаляя паузы. Для реализации системы распознавания речи выбрана модель whisper-turbo (OpenAI) ввиду большей скорости обработки данных, позволяющей реализовывать потоковый режим работы системы, и меньших требований к вычислительной мощности машины. Модуль перевода разработанной интеллектуальной системы построен на модели T5-large-1024 (Text-to-Text Transfer Transformer), адаптированной для многоязычных задач.
Р е з у л ь т а т ы. Предложен способ создания интеллектуальной системы распознавания речи – модульная архитектура системы распознавания и перевода речи, реализован прототип и замерены метрики. Система показала следующие результаты: для русско-английского перевода Cosine Similarity 0,6951, WER 0,529, BLEU Score 0,239; для каскадного русско-китайского перевода через английский язык Cosine Similarity 0,557, WER 0,748, BLEU Score 0,095. Исследования доказали, что применение каскадного перевода через английский язык повышает качество итогового текста на 32 % по метрике Cosine Similarity и на 25 % по BLEU Score по сравнению с прямым переводом. Результаты работы реализованного прототипа оказались удовлетворительными.
З а к л ю ч е н и е. Предложенная реализация системы распознавания речи может решать поставленную задачу с удовлетворительным для описанной проблемы качеством без рисков несанкционированного доступа к данным, поскольку работает без подключения к сети интернет. При использовании каскадного перевода через английский язык качество русско-китайского перевода улучшается на 32 % по метрике Cosine Similarity (с 0,423 до 0,557) и на 25 % по метрике BLEU Score (с 0,076 до 0,095). Предложенная информационная система может быть внедрена в образовательный процесс вне зависимости от учебной дисциплины, а также применена на выставках, конференциях, международных форумах. Возможен параллельный перевод на различные языки, что позволит всем участникам международных форумов активно участвовать в мероприятиях.
Ключевые слова
Об авторах
Л. П. КузьменковБеларусь
Кузьменков Леонид Павлович – студент.
пр. Независимости, 4, Минск, 220030
В. А. Чуйко
Беларусь
Чуйко Владислав Александрович - магистр физико-математических наук, старший преподаватель.
пр. Независимости, 4, Минск, 220030
Е. И. Козлова
Беларусь
Козлова Елена Ивановна - кандидат физико-математических наук, доцент.
пр. Независимости, 4, Минск, 220030
Список литературы
1. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., …, Polosukhin I. Attention Is All You Need, 2017. Available at: https://arxiv.org/abs/1706.03762 (accessed 12.05.2025).
2. Papineni K., Roukos S., Ward T., Zhu W.-J. BLEU: a method for automatic evaluation of machine translation. 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, Jule 2002, pp. 311–318.
3. Tzoukermann E., Miller C. Evaluating automatic speech recognition in translation. Proceedings of the 13th Conference of the Association for Machine Translation in the Americas, Boston, MA, March 2018, vol. 2: MT Users' Track, рр. 294–302.
4. Sperber M., Setiawan H., Gollan C., Nallasamy U., Paulik M. Consistent transcription and translation of speech. Transactions of the Association for Computational Linguistics (TACL), 2020, vol. 8, pp. 695–709.
5. Etchegoyhen T., Arzelus H., Gete H., Alvarez A., Torre I. G., …, Fernandez E. B. Cascade or direct speech translation? A case study. Applied Sciences, 2022, vol. 12, iss. 3, рр. 1097.
6. Radford А., Kim J. W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust Speech Recognition via Large-Scale Weak Supervision, 2022. Available at: https://arxiv.org/abs/2212.04356 (accessed 12.05.2025).
7. Kumar L. A., Renuka D. K., Chakravarthi B. R., Mandl T. Automatic Speech Recognition and Translation for Low Resource Languages. Wiley-Scrivener, 2024, 496 р.
Рецензия
Для цитирования:
Кузьменков Л.П., Чуйко В.А., Козлова Е.И. Система транскрибации речи и перевода с русского языка на китайский. Информатика. 2025;22(3):25-34. https://doi.org/10.37661/1816-0301-2025-22-3-25-34
For citation:
Kuzmenkov L.P., Chuyko V.A., Kazlova A.I. Speech transcription and translation system from Russian to Chinese. Informatics. 2025;22(3):25-34. (In Russ.) https://doi.org/10.37661/1816-0301-2025-22-3-25-34



















