Исследование эффективности применения ансамблевых методов многоаспектного анализа текста в задачах категоризации
https://doi.org/10.37661/1816-0301-2026-23-2-7-20
Аннотация
Цели. Цель представленной работы – экспериментальное исследование эффективности применения ансамблевых методов для многоаспектного анализа текстов в задачах категоризации документов на примере идентификации авторства. Особое внимание уделяется сравнению классических алгоритмов машинного обучения, их ансамблей и разработанной гибридной квантово-классической модели.
Методы. В исследовании использованы метод опорных векторов, логистическая регрессия и случайный лес, а также ансамбль этих методов и гибридная модель авторской архитектуры. Предложенный гибридный подход сочетает синтаксический анализ на основе метода опорных векторов, семантический анализ с использованием трансформерной модели BERT и квантовый вариационный модуль. Эксперименты проводились на разных корпусах текстов на английском языке с варьированием по количеству авторов. Качество оценивалось по метрикам точности, полноты и F1-меры.
Результаты. В серии экспериментов с небольшим числом авторов все модели показали высокую точность, при этом гибридная модель достигла наилучших результатов (F1-мера до 82,5 %). В экспериментах с большим числом авторов наблюдалось закономерное снижение качества, однако гибридная модель продемонстрировала лучшую устойчивость, превосходя классические ансамбли на всех корпусах. Наиболее значимый прирост точности зафиксирован на сложном корпусе коротких текстов (блогов) с большим числом авторов.
Заключение. Разработанная авторами гибридная квантово-классическая модель подтвердила свою эффективность для задач авторской атрибуции и может быть масштабирована для более широкого круга задач категоризации документов, особенно в условиях высокой размерности признаков и большого количества классов. Применение квантового модуля позволило выявить сложные нелинейные зависимости в данных, недоступные традиционным подходам. Полученные результаты открывают перспективы для практического использования предложенного подхода в системах анализа текстов, включая обработку коротких сообщений и обширные базы авторов. Дальнейшее развитие исследования связано с расширением набора признаков, оптимизацией архитектуры квантовых схем и адаптацией модели для работы в различных прикладных областях.
Об авторах
И. А. ТрухановичБеларусь
Труханович Илья Александрович, соискатель
ул. П. Бровки, 6, Минск, 220013
А. И. Парамонов
Беларусь
Парамонов Антон Иванович, кандидат технических наук, доцент, заведующий кафедрой информационных систем и технологий Института информационных технологий
ул. П. Бровки, 6, Минск, 220013
Список литературы
1. Парамонов, А. И. Методы идентификации авторства в определении студенческого плагиата / А. И. Парамонов, И. А. Труханович // Системный анализ и прикладная информатика. – 2023. – № 3. – С. 56–59. – https://doi.org/10.21122/2309-4923-2023-3-56-59.
2. Variational quantum algorithms / M. Cerezo, A. Arrasmith, R. Babbush [et al.] // Nature Reviews Physics. – 2021. – Vol. 3, no. 9. – P. 625–644. – https://doi.org/10.1038/s42254-021-00348-9.
3. Trukhanovich, I. Intelligent analysis in text authorship identification / I. Trukhanovich, A. Paramonov // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS) : сб. науч. тр. / Бел. гос. ун-т информатики и радиоэлектроники ; редкол.: В. В. Голенков [и др.]. – Мн., 2024. – Вып. 8. – С. 327–332.
4. Парамонов, А. И. Ансамблевые методы многоаспектного анализа текстов в задачах категоризации документов / А. И. Парамонов, И. А. Труханович // Информационные системы и технологии = Information Systems and Technologies : материалы XI Междунар. науч. конгр. по информатике (CSIST- 2025), Минск, 29–31 окт. 2025 г. : в 2 ч. / Бел. гос. ун-т ; редкол.: С. В. Абламейко (гл. ред.) [и др.]. – Мн., 2025. – Ч. 2. – С. 204–211.
5. Манахова, А. М. Анализ влияния стилометрических характеристик разного уровня на верификацию авторов художественных произведений / А. М. Манахова, К. В. Лагутина // Теория данных и моделирование информационных систем. – 2021. – Т. 28, № 3. – С. 260–279. – https://doi.org/10.18255/1818-1015-2021-3-260-279.
6. Веретенников, И. С. Оценка качества классификации текстовых материалов с использованием алгоритма машинного обучения «Случайный лес» / И. С. Веретенников, Е. А. Карташев, А. Л. Царегородцев // Известия Алтайского государственного университета. – 2017. – № 4(96). – URL: https://cyberleninka.ru/article/n/otsenka-kachestva-klassifikatsii-tekstovyh-materialov-s-ispolzovaniem-algoritmamashinnogo-obucheniya-sluchaynyy-les (дата обращения: 20.01.2026).
7. Tatur, M. Open semantic technology as the foundation for new generation intelligent systems / M. Tatur, A. Paramonov // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS) : сб. науч. тр. / Бел. гос. ун-т информатики и радиоэлектроники ; редкол.: В. В. Голенков [и др.]. – Мн., 2023. – Вып. 7. – С. 61–66.
Рецензия
Для цитирования:
Труханович И.А., Парамонов А.И. Исследование эффективности применения ансамблевых методов многоаспектного анализа текста в задачах категоризации. Информатика. 2026;23(2):7-20. https://doi.org/10.37661/1816-0301-2026-23-2-7-20
For citation:
Trukhanovich I.A., Paramonov A.I. Research on the effectiveness of using ensemble methods of multidimensional text analysis in categorization tasks. Informatics. 2026;23(2):7-20. (In Russ.) https://doi.org/10.37661/1816-0301-2026-23-2-7-20
JATS XML


















