<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">inform</journal-id><journal-title-group><journal-title xml:lang="ru">Информатика</journal-title><trans-title-group xml:lang="en"><trans-title>Informatics</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">1816-0301</issn><issn pub-type="epub">2617-6963</issn><publisher><publisher-name>UIIP NASB</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.37661/1816-0301-2025-22-3-25-34</article-id><article-id custom-type="elpub" pub-id-type="custom">inform-1361</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>ОБРАБОТКА СИГНАЛОВ, ИЗОБРАЖЕНИЙ, РЕЧИ, ТЕКСТА И РАСПОЗНАВАНИЕ ОБРАЗОВ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>SIGNAL, IMAGE, SPEECH, TEXT PROCESSING AND PATTERN RECOGNITION</subject></subj-group></article-categories><title-group><article-title>Система транскрибации речи и перевода с русского языка на китайский</article-title><trans-title-group xml:lang="en"><trans-title>Speech transcription and translation system from Russian to Chinese</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Кузьменков</surname><given-names>Л. П.</given-names></name><name name-style="western" xml:lang="en"><surname>Kuzmenkov</surname><given-names>L. P.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Кузьменков Леонид Павлович – студент.</p><p>пр. Независимости, 4, Минск, 220030</p></bio><bio xml:lang="en"><p>Leonid P. Kuzmenkov - Student, Belarusian State University.</p><p>Nezavisimosti av., 4, Minsk, 220030</p></bio><email xlink:type="simple">salamandradrags@yandex.ru</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-6998-9035</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Чуйко</surname><given-names>В. А.</given-names></name><name name-style="western" xml:lang="en"><surname>Chuyko</surname><given-names>V. A.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Чуйко Владислав Александрович - магистр физико-математических наук, старший преподаватель.</p><p>пр. Независимости, 4, Минск, 220030</p></bio><bio xml:lang="en"><p>Vladislav A. Chuyko - M. Sc. (Phys.-Math.), Senior Lecturer, Belarusian State University.</p><p>Nezavisimosti av., 4, Minsk, 220030</p></bio><email xlink:type="simple">Vchuyko@bsu.by</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0003-0317-7429</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Козлова</surname><given-names>Е. И.</given-names></name><name name-style="western" xml:lang="en"><surname>Kazlova</surname><given-names>A. I.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Козлова Елена Ивановна - кандидат физико-математических наук, доцент.</p><p>пр. Независимости, 4, Минск, 220030</p></bio><bio xml:lang="en"><p>Alena I. Kazlova - Ph. D. (Phys.-Math.), Assoc. Prof., Belarusian State University.</p><p>Nezavisimosti av., 4, Minsk, 220030</p></bio><email xlink:type="simple">kozlova@bsu.by</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru"><institution>Белорусский государственный университет</institution></aff><aff xml:lang="en"><institution>Belarusian State University</institution></aff></aff-alternatives><pub-date pub-type="collection"><year>2025</year></pub-date><pub-date pub-type="epub"><day>10</day><month>10</month><year>2025</year></pub-date><volume>22</volume><issue>3</issue><fpage>25</fpage><lpage>34</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Кузьменков Л.П., Чуйко В.А., Козлова Е.И., 2025</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="ru">Кузьменков Л.П., Чуйко В.А., Козлова Е.И.</copyright-holder><copyright-holder xml:lang="en">Kuzmenkov L.P., Chuyko V.A., Kazlova A.I.</copyright-holder><license xml:lang="ru" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>Данная работа распространяется под лицензией Creative Commons Attribution 4.0.</license-p></license><license xml:lang="en" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://inf.grid.by/jour/article/view/1361">https://inf.grid.by/jour/article/view/1361</self-uri><abstract><sec><title>Ц е л и</title><p>Ц е л и. Целью проведенной работы является разработка архитектуры информационной системы для транскрибации и перевода речи, реализация ее блоков и тестирование их работы.</p></sec><sec><title>М е т о д ы</title><p>М е т о д ы. Рассмотрены существующие способы распознавания речи, проведен сравнительный анализ моделей распознавания речи и перевода текста. Процесс транскрибации речи включает в себя несколько последовательных этапов: сбор и предварительную обработку аудиосигнала, извлечение акустических признаков, непосредственное распознавание речи, постобработку и коррекцию текста, вывод результата. На этапе предобработки аудиосигнала используется комбинация специализированных библиотек, обеспечивающих подготовку данных для последующего анализа. Для нормализации параметров записи применяется библиотека librosa, позволяющая выполнять передискретизацию сигнала до стандартной частоты 16 кГц и преобразование его в монофонический формат. Для подавления фоновых шумов и выделения речевого компонента задействуется нейросетевая модель Demucs. Алгоритм спектральной субтракции дополнительно корректирует остаточные шумы. Сегментация речевой активности выполняется с использованием энергетического детектора из WebRTC, автоматически выделяя речевые фрагменты и удаляя паузы. Для реализации системы распознавания речи выбрана модель whisper-turbo (OpenAI) ввиду большей скорости обработки данных, позволяющей реализовывать потоковый режим работы системы, и меньших требований к вычислительной мощности машины. Модуль перевода разработанной интеллектуальной системы построен на модели T5-large-1024 (Text-to-Text Transfer Transformer), адаптированной для многоязычных задач.</p></sec><sec><title>Р е з у л ь т а т ы</title><p>Р е з у л ь т а т ы. Предложен способ создания интеллектуальной системы распознавания речи – модульная архитектура системы распознавания и перевода речи, реализован прототип и замерены метрики. Система показала следующие результаты: для русско-английского перевода Cosine Similarity 0,6951, WER 0,529, BLEU Score 0,239; для каскадного русско-китайского перевода через английский язык Cosine Similarity 0,557, WER 0,748, BLEU Score 0,095. Исследования доказали, что применение каскадного перевода через английский язык повышает качество итогового текста на 32 % по метрике Cosine Similarity и на 25 % по BLEU Score по сравнению с прямым переводом. Результаты работы реализованного прототипа оказались удовлетворительными.</p></sec><sec><title>З а к л ю ч е н и е</title><p>З а к л ю ч е н и е. Предложенная реализация системы распознавания речи может решать поставленную задачу с удовлетворительным для описанной проблемы качеством без рисков несанкционированного доступа к данным, поскольку работает без подключения к сети интернет. При использовании каскадного перевода через английский язык качество русско-китайского перевода улучшается на 32 % по метрике Cosine Similarity (с 0,423 до 0,557) и на 25 % по метрике BLEU Score (с 0,076 до 0,095). Предложенная информационная система может быть внедрена в образовательный процесс вне зависимости от учебной дисциплины, а также применена на выставках, конференциях, международных форумах. Возможен параллельный перевод на различные языки, что позволит всем участникам международных форумов активно участвовать в мероприятиях.</p></sec></abstract><trans-abstract xml:lang="en"><sec><title>O b j e c t i v e s</title><p>O b j e c t i v e s. The aim of the work is to develop the architecture of an information system for transcription and translation of speech, implement its blocks and test their operation.</p></sec><sec><title>M e t h o d s</title><p>M e t h o d s. The existing methods of speech recognition are considered; a comparative analysis of speech recognition and text translation models is carried out. The speech transcription process includes several successive stages: collection and preliminary processing of the audio signal, extraction of acoustic features, direct speech recognition, post-processing and text correction, and output of the result. At the stage of audio signal pre-processing, a combination of specialized libraries is used to prepare data for subsequent analysis. To normalize the recording parameters, the Librosa library is used, which allows resampling the signal to a standard frequency of 16 kHz and converting it to a monophonic format. To suppress background noise and highlight the speech component, the Demucs neural network model is used. The spectral subtraction algorithm additionally corrects residual noise. Speech activity segmentation (VAD) is performed using an energy detector from WebRTC, automatically highlighting speech fragments and removing pauses. The whisper-turbo (OpenAI) model was chosen to implement the speech recognition system due to the higher data processing speed, which allows implementing the streaming mode of the system, and lower requirements for the computing power of the machine. The translation module of the developed intelligent system is built on the T5-large-1024 (Text-to-Text Transfer Transformer) model, adapted for multilingual tasks.</p></sec><sec><title>R e s u l t s</title><p>R e s u l t s. A method for creating an intelligent speech recognition system is proposed - a modular architecture of the speech recognition and translation system, a prototype is implemented and metrics are measured. The system showed the following results: for Russian-English translation Cosine Similarity 0.6951, WER 0.529, BLEU Score 0.239; for cascade Russian-Chinese translation through English Cosine Similarity 0.557, WER 0.748, BLEU Score 0.095. Research has shown that the use of cascade translation through English improves the quality of the final text by 32% according to the Cosine Similarity metric and by 25% according to BLEU Score compared to direct translation. The results of the implemented prototype were satisfactory.</p></sec><sec><title>C o n c l u s i o n</title><p>C o n c l u s i o n. The proposed implementation of the speech recognition system can solve the task with quality satisfactory for the described problem without risks of unauthorized access to data, since it works without an Internet connection. When using cascade translation through English, the quality of Russian-Chinese translation improves by 32% according to the Cosine Similarity metric (from 0.423 to 0.557) and by 25% according to BLEU Score (from 0.076 to 0.095). The proposed information system can be implemented in the educational process regardless of the academic discipline, and also used at exhibitions, conferences, and international forums. Parallel translation into different languages is possible, which will allow all participants of international forums to actively participate in its events.</p></sec></trans-abstract><kwd-group xml:lang="ru"><kwd>информационная система</kwd><kwd>агент</kwd><kwd>декодер</kwd><kwd>энкодер</kwd><kwd>трансформер</kwd><kwd>сверточные нейронные сети</kwd><kwd>транскрибация и перевод речи</kwd></kwd-group><kwd-group xml:lang="en"><kwd>information system</kwd><kwd>agent</kwd><kwd>decoder</kwd><kwd>encoder</kwd><kwd>transformer</kwd><kwd>convolutional neural networks</kwd><kwd>speech transcribing and translation</kwd></kwd-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., …, Polosukhin I. Attention Is All You Need, 2017. Available at: https://arxiv.org/abs/1706.03762 (accessed 12.05.2025).</mixed-citation><mixed-citation xml:lang="en">Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., …, Polosukhin I. Attention Is All You Need, 2017. Available at: https://arxiv.org/abs/1706.03762 (accessed 12.05.2025).</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Papineni K., Roukos S., Ward T., Zhu W.-J. BLEU: a method for automatic evaluation of machine translation. 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, Jule 2002, pp. 311–318.</mixed-citation><mixed-citation xml:lang="en">Papineni K., Roukos S., Ward T., Zhu W.-J. BLEU: a method for automatic evaluation of machine translation. 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, Jule 2002, pp. 311–318.</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Tzoukermann E., Miller C. Evaluating automatic speech recognition in translation. Proceedings of the 13th Conference of the Association for Machine Translation in the Americas, Boston, MA, March 2018, vol. 2: MT Users' Track, рр. 294–302.</mixed-citation><mixed-citation xml:lang="en">Tzoukermann E., Miller C. Evaluating automatic speech recognition in translation. Proceedings of the 13th Conference of the Association for Machine Translation in the Americas, Boston, MA, March 2018, vol. 2: MT Users' Track, рр. 294–302.</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Sperber M., Setiawan H., Gollan C., Nallasamy U., Paulik M. Consistent transcription and translation of speech. Transactions of the Association for Computational Linguistics (TACL), 2020, vol. 8, pp. 695–709.</mixed-citation><mixed-citation xml:lang="en">Sperber M., Setiawan H., Gollan C., Nallasamy U., Paulik M. Consistent transcription and translation of speech. Transactions of the Association for Computational Linguistics (TACL), 2020, vol. 8, pp. 695–709.</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Etchegoyhen T., Arzelus H., Gete H., Alvarez A., Torre I. G., …, Fernandez E. B. Cascade or direct speech translation? A case study. Applied Sciences, 2022, vol. 12, iss. 3, рр. 1097.</mixed-citation><mixed-citation xml:lang="en">Etchegoyhen T., Arzelus H., Gete H., Alvarez A., Torre I. G., …, Fernandez E. B. Cascade or direct speech translation? A case study. Applied Sciences, 2022, vol. 12, iss. 3, рр. 1097.</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Radford А., Kim J. W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust Speech Recognition via Large-Scale Weak Supervision, 2022. Available at: https://arxiv.org/abs/2212.04356 (accessed 12.05.2025).</mixed-citation><mixed-citation xml:lang="en">Radford А., Kim J. W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust Speech Recognition via Large-Scale Weak Supervision, 2022. Available at: https://arxiv.org/abs/2212.04356 (accessed 12.05.2025).</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Kumar L. A., Renuka D. K., Chakravarthi B. R., Mandl T. Automatic Speech Recognition and Translation for Low Resource Languages. Wiley-Scrivener, 2024, 496 р.</mixed-citation><mixed-citation xml:lang="en">Kumar L. A., Renuka D. K., Chakravarthi B. R., Mandl T. Automatic Speech Recognition and Translation for Low Resource Languages. Wiley-Scrivener, 2024, 496 р.</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
