<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">inform</journal-id><journal-title-group><journal-title xml:lang="ru">Информатика</journal-title><trans-title-group xml:lang="en"><trans-title>Informatics</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">1816-0301</issn><issn pub-type="epub">2617-6963</issn><publisher><publisher-name>UIIP NASB</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.37661/1816-0301-2026-23-2-7-20</article-id><article-id custom-type="elpub" pub-id-type="custom">inform-1396</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>ОБРАБОТКА СИГНАЛОВ, ИЗОБРАЖЕНИЙ, РЕЧИ, ТЕКСТА И РАСПОЗНАВАНИЕ ОБРАЗОВ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>SIGNAL, IMAGE, SPEECH, TEXT PROCESSING AND PATTERN RECOGNITION</subject></subj-group></article-categories><title-group><article-title>Исследование эффективности применения ансамблевых методов многоаспектного анализа текста в задачах категоризации</article-title><trans-title-group xml:lang="en"><trans-title>Research on the effectiveness of using ensemble methods of multidimensional text analysis in categorization tasks</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-9935-1825</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Труханович</surname><given-names>И. А.</given-names></name><name name-style="western" xml:lang="en"><surname>Trukhanovich</surname><given-names>I. A.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Труханович Илья Александрович, соискатель</p><p>ул. П. Бровки, 6, Минск, 220013</p></bio><bio xml:lang="en"><p>Ilya А. Trukhanovich, Applicant</p><p>st. P. Brovki, 6, Minsk, 220013</p></bio><email xlink:type="simple">ilya.trukhanovich@gmail.com</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0001-6616-2481</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Парамонов</surname><given-names>А. И.</given-names></name><name name-style="western" xml:lang="en"><surname>Paramonov</surname><given-names>A. I.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Парамонов Антон Иванович, кандидат технических наук, доцент, заведующий кафедрой информационных систем и технологий Института информационных технологий</p><p>ул. П. Бровки, 6, Минск, 220013</p></bio><bio xml:lang="en"><p>Anton I. Paramonov, Cand. Sci. (Eng.), Assoc. Prof., Head of the Department of Information Systems and Technologies of the Institute of Information Technologies</p><p>st. P. Brovki, 6, Minsk, 220013</p></bio><email xlink:type="simple">a.paramonov@bsuir.by</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru"><institution>Белорусский государственный университет информатики и радиоэлектроники</institution></aff><aff xml:lang="en"><institution>Belarusian State University of Informatics and Radioelectronics</institution></aff></aff-alternatives><pub-date pub-type="collection"><year>2026</year></pub-date><pub-date pub-type="epub"><day>28</day><month>06</month><year>2026</year></pub-date><volume>23</volume><issue>2</issue><fpage>7</fpage><lpage>20</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Труханович И.А., Парамонов А.И., 2026</copyright-statement><copyright-year>2026</copyright-year><copyright-holder xml:lang="ru">Труханович И.А., Парамонов А.И.</copyright-holder><copyright-holder xml:lang="en">Trukhanovich I.A., Paramonov A.I.</copyright-holder><license xml:lang="ru" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>Данная работа распространяется под лицензией Creative Commons Attribution 4.0.</license-p></license><license xml:lang="en" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://inf.grid.by/jour/article/view/1396">https://inf.grid.by/jour/article/view/1396</self-uri><abstract><sec><title>Цели</title><p>Цели. Цель представленной работы – экспериментальное исследование эффективности применения ансамблевых методов для многоаспектного анализа текстов в задачах категоризации документов на примере идентификации авторства. Особое внимание уделяется сравнению классических алгоритмов машинного обучения, их ансамблей и разработанной гибридной квантово-классической модели.</p></sec><sec><title>Методы</title><p>Методы. В исследовании использованы метод опорных векторов, логистическая регрессия и случайный лес, а также ансамбль этих методов и гибридная модель авторской архитектуры. Предложенный гибридный подход сочетает синтаксический анализ на основе метода опорных векторов, семантический анализ с использованием трансформерной модели BERT и квантовый вариационный модуль. Эксперименты проводились на разных корпусах текстов на английском языке с варьированием по количеству авторов. Качество оценивалось по метрикам точности, полноты и F1-меры.</p></sec><sec><title>Результаты</title><p>Результаты. В серии экспериментов с небольшим числом авторов все модели показали высокую точность, при этом гибридная модель достигла наилучших результатов (F1-мера до 82,5 %). В экспериментах с большим числом авторов наблюдалось закономерное снижение качества, однако гибридная модель продемонстрировала лучшую устойчивость, превосходя классические ансамбли на всех корпусах. Наиболее значимый прирост точности зафиксирован на сложном корпусе коротких текстов (блогов) с большим числом авторов.</p></sec><sec><title>Заключение</title><p>Заключение. Разработанная авторами гибридная квантово-классическая модель подтвердила свою эффективность для задач авторской атрибуции и может быть масштабирована для более широкого круга задач категоризации документов, особенно в условиях высокой размерности признаков и большого количества классов. Применение квантового модуля позволило выявить сложные нелинейные зависимости в данных, недоступные традиционным подходам. Полученные результаты открывают перспективы для практического использования предложенного подхода в системах анализа текстов, включая обработку коротких сообщений и обширные базы авторов. Дальнейшее развитие исследования связано с расширением набора признаков, оптимизацией архитектуры квантовых схем и адаптацией модели для работы в различных прикладных областях.</p></sec></abstract><trans-abstract xml:lang="en"><sec><title>Objectives</title><p>Objectives. The aim of the work is to experimentally investigate the effectiveness of ensemble methods for multidimensional text analysis in document categorization tasks using the example of authorship identification. Particular attention is paid to comparing classical machine learning algorithms, their ensembles, and the developed hybrid quantum-classical model.</p></sec><sec><title>Methods</title><p>Methods. The study uses support vector machines, logistic regression, and random forests, as well as an ensemble of these models and a hybrid model of the author's architecture. The proposed hybrid approach combines syntactic analysis based on the support vector method, semantic analysis using the BERT transformer model, and a quantum variational module. Experiments were conducted on different corpora of English texts with varying number of authors. Quality was assessed using accuracy, completeness, and F1-score metrics.</p></sec><sec><title>Results</title><p>Results. In a series of experiments with a small number of authors, all models showed high accuracy, with the hybrid model achieving the best results (F1 score up to 82.5%). In experiments with a large number of authors, a regular decrease in quality was observed, but the hybrid model demonstrated better stability, outperforming classical ensembles on all corpora. The most significant increase in accuracy was recorded on a complex corpus of short texts (blogs) with a large number of authors.</p></sec><sec><title>Conclusion</title><p>Conclusion. The hybrid quantum-classical model developed by the authors has proven its effectiveness for author attribution tasks and can be scaled for a wider range of document categorization tasks, especially in conditions of high feature dimensionality and a large number of classes. The use of the quantum module made it possible to identify complex nonlinear dependencies in the data that are inaccessible to traditional approaches. The results obtained open up prospects for the practical use of the proposed approach in text analysis systems, including the processing of short messages and extensive author databases. Further development of the research is related to expanding the set of features, optimizing the architecture of quantum circuits, and adapting the model for use in various application areas.</p></sec></trans-abstract><kwd-group xml:lang="ru"><kwd>ансамблевые архитектуры</kwd><kwd>категоризация документов</kwd><kwd>идентификация авторства</kwd><kwd>стилометрия</kwd><kwd>квантовые компоненты</kwd><kwd>многоаспектный анализ</kwd><kwd>обработка текста</kwd></kwd-group><kwd-group xml:lang="en"><kwd>ensemble constructions</kwd><kwd>document categorization</kwd><kwd>authorship identification</kwd><kwd>stylometry</kwd><kwd>quantum components</kwd><kwd>multidimensional analysis</kwd><kwd>text processing</kwd></kwd-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Парамонов, А. И. Методы идентификации авторства в определении студенческого плагиата / А. И. Парамонов, И. А. Труханович // Системный анализ и прикладная информатика. – 2023. – № 3. – С. 56–59. – https://doi.org/10.21122/2309-4923-2023-3-56-59.</mixed-citation><mixed-citation xml:lang="en">Paramonov A. I., Trukhanovich I. A. Authorship identification methods in student plagiarism detection. Sistemnyj analiz i prikladnaja informatika [System Analysis and Applied Information Science], 2023, no. 3, pp. 56–59 (In Russ.). https://doi.org/10.21122/2309-4923-2023-3-56-59.</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Variational quantum algorithms / M. Cerezo, A. Arrasmith, R. Babbush [et al.] // Nature Reviews Physics. – 2021. – Vol. 3, no. 9. – P. 625–644. – https://doi.org/10.1038/s42254-021-00348-9.</mixed-citation><mixed-citation xml:lang="en">Cerezo M., Arrasmith A., Babbush R., Benjamin S. C., Endo S., …, Coles P. J. Variational quantum algorithms. Nature Reviews Physics, 2021, vol. 3, no. 9, pp. 625–644. https://doi.org/10.1038/s42254-021-00348-9.</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Trukhanovich, I. Intelligent analysis in text authorship identification / I. Trukhanovich, A. Paramonov // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS) : сб. науч. тр. / Бел. гос. ун-т информатики и радиоэлектроники ; редкол.: В. В. Голенков [и др.]. – Мн., 2024. – Вып. 8. – С. 327–332.</mixed-citation><mixed-citation xml:lang="en">Trukhanovich I., Paramonov A. Intelligent analysis in text authorship identification. Otkrytye semanticheskie tehnologii proektirovanija intellektual'nyh sistem: sbornik nauchnyh trudov [Open Semantic Technologies for Intelligent Systems (OSTIS): Collection of Scientific Papers]. Ed. board: V. V. Golenkov, I. S. Azarov, V. A. Golovko, A. N. Gordey, N. A. Guliakina, …, D. V. Shunkevich. Minsk, Belorusskij gosudarstvennyj universitet informatiki i radiojelektroniki, 2024, vol. 8, pp. 327–332.</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Парамонов, А. И. Ансамблевые методы многоаспектного анализа текстов в задачах категоризации документов / А. И. Парамонов, И. А. Труханович // Информационные системы и технологии = Information Systems and Technologies : материалы XI Междунар. науч. конгр. по информатике (CSIST- 2025), Минск, 29–31 окт. 2025 г. : в 2 ч. / Бел. гос. ун-т ; редкол.: С. В. Абламейко (гл. ред.) [и др.]. – Мн., 2025. – Ч. 2. – С. 204–211.</mixed-citation><mixed-citation xml:lang="en">Paramonov A. I., Trukhanovich I. A. Ensemble methods of multi-aspect texts analysis in document categorization tasks. Informacionnye sistemy i tehnologii: materialy XI Mezhdunarodnogo nauchnogo kongressa po informatike (CSIST-2025), Minsk, 29–31 oktjabrja 2025 goda : v 2 chastjah [Information Systems and Technologies: Proceedings of the 2025 International Scientific Congress on Informatics (CSIST-2025), Minsk, 29–31 October 2025: in 2 parts]. Ed. board: S. V. Ablamejko, V. V. Kazachenok, A. N. Kurbackij, V. V. Krasnoproshin. Minsk, Belorusskij gosudarstvennyj universitet, 2025, pt. 2, pp. 204–211 (In Russ.).</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Манахова, А. М. Анализ влияния стилометрических характеристик разного уровня на верификацию авторов художественных произведений / А. М. Манахова, К. В. Лагутина // Теория данных и моделирование информационных систем. – 2021. – Т. 28, № 3. – С. 260–279. – https://doi.org/10.18255/1818-1015-2021-3-260-279.</mixed-citation><mixed-citation xml:lang="en">Manakhova A. M., Lagutina N. S. Analysis of the impact of the stylometric characteristics of different levels for the verification of authors of the prose. Teorija dannyh i modelirovanie informacionnyh sistem [Modeling and Analysis of Information Systems], 2021, no. 28, no. 3, pp. 260–279 (In Russ.). https://doi.org/ 10.18255/1818-1015-2021-3-260-279.</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Веретенников, И. С. Оценка качества классификации текстовых материалов с использованием алгоритма машинного обучения «Случайный лес» / И. С. Веретенников, Е. А. Карташев, А. Л. Царегородцев // Известия Алтайского государственного университета. – 2017. – № 4(96). – URL: https://cyberleninka.ru/article/n/otsenka-kachestva-klassifikatsii-tekstovyh-materialov-s-ispolzovaniem-algoritmamashinnogo-obucheniya-sluchaynyy-les (дата обращения: 20.01.2026).</mixed-citation><mixed-citation xml:lang="en">Veretennikov I. S., Kartashev E. A., Tsaregorodtsev A. L. Assessment of the quality of text classification using the machine learning algorithm "Random forest". Izvestija Altajskogo gosudarstvennogo universiteta [Izvestiya of Altai State University], 2017, no. 4(96) (In Russ.). Available at: https://cyberleninka.ru/ article/n/otsenka-kachestva-klassifikatsii-tekstovyh-materialov-s-ispolzovaniem-algoritma-mashinnogo-obucheniyasluchaynyy- les (accessed 20.01.2026).</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Tatur, M. Open semantic technology as the foundation for new generation intelligent systems / M. Tatur, A. Paramonov // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS) : сб. науч. тр. / Бел. гос. ун-т информатики и радиоэлектроники ; редкол.: В. В. Голенков [и др.]. – Мн., 2023. – Вып. 7. – С. 61–66.</mixed-citation><mixed-citation xml:lang="en">Tatur M., Paramonov A. Open semantic technology as the foundation for new generation intelligent systems: sbornik nauchnyh trudov [Open Semantic Technologies for Intelligent Systems (OSTIS): Collection of Scientific Papers]. Ed. board: V. V. Golenkov, I. S. Azarov, V. A. Golovko, A. N. Gordey, N. A. Guliakina, …, D. V. Shunkevich. Minsk, Belorusskij gosudarstvennyj universitet informatiki i radiojelektroniki, 2023, vol. 7, pp. 61–66.</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
