Preview

Информатика

Расширенный поиск

Исследование эффективности применения ансамблевых методов многоаспектного анализа текста в задачах категоризации

https://doi.org/10.37661/1816-0301-2026-23-2-7-20

Аннотация

Цели. Цель представленной работы – экспериментальное исследование эффективности применения ансамблевых методов для многоаспектного анализа текстов в задачах категоризации документов на примере идентификации авторства. Особое внимание уделяется сравнению классических алгоритмов машинного обучения, их ансамблей и разработанной гибридной квантово-классической модели.

Методы. В исследовании использованы метод опорных векторов, логистическая регрессия и случайный лес, а также ансамбль этих методов и гибридная модель авторской архитектуры. Предложенный гибридный подход сочетает синтаксический анализ на основе метода опорных векторов, семантический анализ с использованием трансформерной модели BERT и квантовый вариационный модуль. Эксперименты проводились на разных корпусах текстов на английском языке с варьированием по количеству авторов. Качество оценивалось по метрикам точности, полноты и F1-меры.

Результаты. В серии экспериментов с небольшим числом авторов все модели показали высокую точность, при этом гибридная модель достигла наилучших результатов (F1-мера до 82,5 %). В экспериментах с большим числом авторов наблюдалось закономерное снижение качества, однако гибридная модель продемонстрировала лучшую устойчивость, превосходя классические ансамбли на всех корпусах. Наиболее значимый прирост точности зафиксирован на сложном корпусе коротких текстов (блогов) с большим числом авторов.

Заключение. Разработанная авторами гибридная квантово-классическая модель подтвердила свою эффективность для задач авторской атрибуции и может быть масштабирована для более широкого круга задач категоризации документов, особенно в условиях высокой размерности признаков и большого количества классов. Применение квантового модуля позволило выявить сложные нелинейные зависимости в данных, недоступные традиционным подходам. Полученные результаты открывают перспективы для практического использования предложенного подхода в системах анализа текстов, включая обработку коротких сообщений и обширные базы авторов. Дальнейшее развитие исследования связано с расширением набора признаков, оптимизацией архитектуры квантовых схем и адаптацией модели для работы в различных прикладных областях.

Об авторах

И. А. Труханович
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Труханович Илья Александрович, соискатель

ул. П. Бровки, 6, Минск, 220013



А. И. Парамонов
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Парамонов Антон Иванович, кандидат технических наук, доцент, заведующий кафедрой информационных систем и технологий Института информационных технологий

ул. П. Бровки, 6, Минск, 220013



Список литературы

1. Парамонов, А. И. Методы идентификации авторства в определении студенческого плагиата / А. И. Парамонов, И. А. Труханович // Системный анализ и прикладная информатика. – 2023. – № 3. – С. 56–59. – https://doi.org/10.21122/2309-4923-2023-3-56-59.

2. Variational quantum algorithms / M. Cerezo, A. Arrasmith, R. Babbush [et al.] // Nature Reviews Physics. – 2021. – Vol. 3, no. 9. – P. 625–644. – https://doi.org/10.1038/s42254-021-00348-9.

3. Trukhanovich, I. Intelligent analysis in text authorship identification / I. Trukhanovich, A. Paramonov // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS) : сб. науч. тр. / Бел. гос. ун-т информатики и радиоэлектроники ; редкол.: В. В. Голенков [и др.]. – Мн., 2024. – Вып. 8. – С. 327–332.

4. Парамонов, А. И. Ансамблевые методы многоаспектного анализа текстов в задачах категоризации документов / А. И. Парамонов, И. А. Труханович // Информационные системы и технологии = Information Systems and Technologies : материалы XI Междунар. науч. конгр. по информатике (CSIST- 2025), Минск, 29–31 окт. 2025 г. : в 2 ч. / Бел. гос. ун-т ; редкол.: С. В. Абламейко (гл. ред.) [и др.]. – Мн., 2025. – Ч. 2. – С. 204–211.

5. Манахова, А. М. Анализ влияния стилометрических характеристик разного уровня на верификацию авторов художественных произведений / А. М. Манахова, К. В. Лагутина // Теория данных и моделирование информационных систем. – 2021. – Т. 28, № 3. – С. 260–279. – https://doi.org/10.18255/1818-1015-2021-3-260-279.

6. Веретенников, И. С. Оценка качества классификации текстовых материалов с использованием алгоритма машинного обучения «Случайный лес» / И. С. Веретенников, Е. А. Карташев, А. Л. Царегородцев // Известия Алтайского государственного университета. – 2017. – № 4(96). – URL: https://cyberleninka.ru/article/n/otsenka-kachestva-klassifikatsii-tekstovyh-materialov-s-ispolzovaniem-algoritmamashinnogo-obucheniya-sluchaynyy-les (дата обращения: 20.01.2026).

7. Tatur, M. Open semantic technology as the foundation for new generation intelligent systems / M. Tatur, A. Paramonov // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS) : сб. науч. тр. / Бел. гос. ун-т информатики и радиоэлектроники ; редкол.: В. В. Голенков [и др.]. – Мн., 2023. – Вып. 7. – С. 61–66.


Рецензия

Для цитирования:


Труханович И.А., Парамонов А.И. Исследование эффективности применения ансамблевых методов многоаспектного анализа текста в задачах категоризации. Информатика. 2026;23(2):7-20. https://doi.org/10.37661/1816-0301-2026-23-2-7-20

For citation:


Trukhanovich I.A., Paramonov A.I. Research on the effectiveness of using ensemble methods of multidimensional text analysis in categorization tasks. Informatics. 2026;23(2):7-20. (In Russ.) https://doi.org/10.37661/1816-0301-2026-23-2-7-20

Просмотров: 30

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)