Ц е л и

inform

Информатика

Informatics

1816-03012617-6963

UIIP NASB

10.37661/1816-0301-2025-22-3-25-34

inform-1361

Research Article

ОБРАБОТКА СИГНАЛОВ, ИЗОБРАЖЕНИЙ, РЕЧИ, ТЕКСТА И РАСПОЗНАВАНИЕ ОБРАЗОВ

SIGNAL, IMAGE, SPEECH, TEXT PROCESSING AND PATTERN RECOGNITION

Система транскрибации речи и перевода с русского языка на китайский

Speech transcription and translation system from Russian to Chinese

Кузьменков

Л. П.

Kuzmenkov

L. P.

Кузьменков Леонид Павлович – студент.

пр. Независимости, 4, Минск, 220030

Leonid P. Kuzmenkov - Student, Belarusian State University.

Nezavisimosti av., 4, Minsk, 220030

salamandradrags@yandex.ru

https://orcid.org/0000-0002-6998-9035

Чуйко

В. А.

Chuyko

V. A.

Чуйко Владислав Александрович - магистр физико-математических наук, старший преподаватель.

пр. Независимости, 4, Минск, 220030

Vladislav A. Chuyko - M. Sc. (Phys.-Math.), Senior Lecturer, Belarusian State University.

Nezavisimosti av., 4, Minsk, 220030

Vchuyko@bsu.by

https://orcid.org/0000-0003-0317-7429

Козлова

Е. И.

Kazlova

A. I.

Козлова Елена Ивановна - кандидат физико-математических наук, доцент.

пр. Независимости, 4, Минск, 220030

Alena I. Kazlova - Ph. D. (Phys.-Math.), Assoc. Prof., Belarusian State University.

Nezavisimosti av., 4, Minsk, 220030

kozlova@bsu.by

Белорусский государственный университетBelarusian State University

2025

10102025

2232534

2025

Кузьменков Л.П., Чуйко В.А., Козлова Е.И.

Kuzmenkov L.P., Chuyko V.A., Kazlova A.I.

Данная работа распространяется под лицензией Creative Commons Attribution 4.0.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://inf.grid.by/jour/article/view/1361

Ц е л и

Ц е л и. Целью проведенной работы является разработка архитектуры информационной системы для транскрибации и перевода речи, реализация ее блоков и тестирование их работы.

М е т о д ы

М е т о д ы. Рассмотрены существующие способы распознавания речи, проведен сравнительный анализ моделей распознавания речи и перевода текста. Процесс транскрибации речи включает в себя несколько последовательных этапов: сбор и предварительную обработку аудиосигнала, извлечение акустических признаков, непосредственное распознавание речи, постобработку и коррекцию текста, вывод результата. На этапе предобработки аудиосигнала используется комбинация специализированных библиотек, обеспечивающих подготовку данных для последующего анализа. Для нормализации параметров записи применяется библиотека librosa, позволяющая выполнять передискретизацию сигнала до стандартной частоты 16 кГц и преобразование его в монофонический формат. Для подавления фоновых шумов и выделения речевого компонента задействуется нейросетевая модель Demucs. Алгоритм спектральной субтракции дополнительно корректирует остаточные шумы. Сегментация речевой активности выполняется с использованием энергетического детектора из WebRTC, автоматически выделяя речевые фрагменты и удаляя паузы. Для реализации системы распознавания речи выбрана модель whisper-turbo (OpenAI) ввиду большей скорости обработки данных, позволяющей реализовывать потоковый режим работы системы, и меньших требований к вычислительной мощности машины. Модуль перевода разработанной интеллектуальной системы построен на модели T5-large-1024 (Text-to-Text Transfer Transformer), адаптированной для многоязычных задач.

Р е з у л ь т а т ы

Р е з у л ь т а т ы. Предложен способ создания интеллектуальной системы распознавания речи – модульная архитектура системы распознавания и перевода речи, реализован прототип и замерены метрики. Система показала следующие результаты: для русско-английского перевода Cosine Similarity 0,6951, WER 0,529, BLEU Score 0,239; для каскадного русско-китайского перевода через английский язык Cosine Similarity 0,557, WER 0,748, BLEU Score 0,095. Исследования доказали, что применение каскадного перевода через английский язык повышает качество итогового текста на 32 % по метрике Cosine Similarity и на 25 % по BLEU Score по сравнению с прямым переводом. Результаты работы реализованного прототипа оказались удовлетворительными.

З а к л ю ч е н и е

З а к л ю ч е н и е. Предложенная реализация системы распознавания речи может решать поставленную задачу с удовлетворительным для описанной проблемы качеством без рисков несанкционированного доступа к данным, поскольку работает без подключения к сети интернет. При использовании каскадного перевода через английский язык качество русско-китайского перевода улучшается на 32 % по метрике Cosine Similarity (с 0,423 до 0,557) и на 25 % по метрике BLEU Score (с 0,076 до 0,095). Предложенная информационная система может быть внедрена в образовательный процесс вне зависимости от учебной дисциплины, а также применена на выставках, конференциях, международных форумах. Возможен параллельный перевод на различные языки, что позволит всем участникам международных форумов активно участвовать в мероприятиях.

O b j e c t i v e s

O b j e c t i v e s. The aim of the work is to develop the architecture of an information system for transcription and translation of speech, implement its blocks and test their operation.

M e t h o d s

M e t h o d s. The existing methods of speech recognition are considered; a comparative analysis of speech recognition and text translation models is carried out. The speech transcription process includes several successive stages: collection and preliminary processing of the audio signal, extraction of acoustic features, direct speech recognition, post-processing and text correction, and output of the result. At the stage of audio signal pre-processing, a combination of specialized libraries is used to prepare data for subsequent analysis. To normalize the recording parameters, the Librosa library is used, which allows resampling the signal to a standard frequency of 16 kHz and converting it to a monophonic format. To suppress background noise and highlight the speech component, the Demucs neural network model is used. The spectral subtraction algorithm additionally corrects residual noise. Speech activity segmentation (VAD) is performed using an energy detector from WebRTC, automatically highlighting speech fragments and removing pauses. The whisper-turbo (OpenAI) model was chosen to implement the speech recognition system due to the higher data processing speed, which allows implementing the streaming mode of the system, and lower requirements for the computing power of the machine. The translation module of the developed intelligent system is built on the T5-large-1024 (Text-to-Text Transfer Transformer) model, adapted for multilingual tasks.

R e s u l t s

R e s u l t s. A method for creating an intelligent speech recognition system is proposed - a modular architecture of the speech recognition and translation system, a prototype is implemented and metrics are measured. The system showed the following results: for Russian-English translation Cosine Similarity 0.6951, WER 0.529, BLEU Score 0.239; for cascade Russian-Chinese translation through English Cosine Similarity 0.557, WER 0.748, BLEU Score 0.095. Research has shown that the use of cascade translation through English improves the quality of the final text by 32% according to the Cosine Similarity metric and by 25% according to BLEU Score compared to direct translation. The results of the implemented prototype were satisfactory.

C o n c l u s i o n

C o n c l u s i o n. The proposed implementation of the speech recognition system can solve the task with quality satisfactory for the described problem without risks of unauthorized access to data, since it works without an Internet connection. When using cascade translation through English, the quality of Russian-Chinese translation improves by 32% according to the Cosine Similarity metric (from 0.423 to 0.557) and by 25% according to BLEU Score (from 0.076 to 0.095). The proposed information system can be implemented in the educational process regardless of the academic discipline, and also used at exhibitions, conferences, and international forums. Parallel translation into different languages is possible, which will allow all participants of international forums to actively participate in its events.

информационная системаагентдекодерэнкодертрансформерсверточные нейронные сетитранскрибация и перевод речи

information systemagentdecoderencodertransformerconvolutional neural networksspeech transcribing and translation

References1

Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., …, Polosukhin I. Attention Is All You Need, 2017. Available at: https://arxiv.org/abs/1706.03762 (accessed 12.05.2025).

Papineni K., Roukos S., Ward T., Zhu W.-J. BLEU: a method for automatic evaluation of machine translation. 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, Jule 2002, pp. 311–318.

Tzoukermann E., Miller C. Evaluating automatic speech recognition in translation. Proceedings of the 13th Conference of the Association for Machine Translation in the Americas, Boston, MA, March 2018, vol. 2: MT Users' Track, рр. 294–302.

Sperber M., Setiawan H., Gollan C., Nallasamy U., Paulik M. Consistent transcription and translation of speech. Transactions of the Association for Computational Linguistics (TACL), 2020, vol. 8, pp. 695–709.

Etchegoyhen T., Arzelus H., Gete H., Alvarez A., Torre I. G., …, Fernandez E. B. Cascade or direct speech translation? A case study. Applied Sciences, 2022, vol. 12, iss. 3, рр. 1097.

Radford А., Kim J. W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust Speech Recognition via Large-Scale Weak Supervision, 2022. Available at: https://arxiv.org/abs/2212.04356 (accessed 12.05.2025).

Kumar L. A., Renuka D. K., Chakravarthi B. R., Mandl T. Automatic Speech Recognition and Translation for Low Resource Languages. Wiley-Scrivener, 2024, 496 р.

The authors declare that there are no conflicts of interest present.