Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения

С. Н. Петров; А. О. Мяделец; Е. В. Кундас

doi:10.37661/1816-0301-2025-22-3-83-94

Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения

С. Н. Петров, А. О. Мяделец, Е. В. Кундас

https://doi.org/10.37661/1816-0301-2025-22-3-83-94

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Ц е л и. Целью исследования является разработка программного модуля для автоматического выявления фишинговых веб-сайтов с использованием алгоритмов машинного обучения для классификации сайтов.

М е т о д ы. Для достижения поставленной цели проведен анализ существующих датасетов, содержащих URL-адреса фишинговых сайтов, а также изучены датасеты для обработки естественного языка. Это позволило определить ключевые признаки, характерные для мошеннических ресурсов. Были созданы два набора данных (размерами 18,9 Мб и 1,08 Гб), включающих признаки URL и текстовое наполнение веб-страниц, с использованием разработанного парсера. Для классификации веб-ресурсов применялись алгоритмы машинного обучения, такие как SVM, Random Forest, Logistic Regression и Multilayer Perceptron (MLP). Также изучены возможности использования языковой модели TinyBERT для анализа текстового содержимого.

Р е з у л ь т а т ы. По результатам проведенных исследований для работы с URL использована модель MLP (F1-score 99,3 %), а для анализа текстовой части веб-ресурса – модель TinyBERT (F1-score 95 %). Разработан программный модуль для выявления мошеннических веб-сайтов, состоящий из серверной части и браузерного расширения. Расширение собирает данные с веб-ресурса, передает их на сервер, где они анализируются обученными моделями машинного обучения. На сервере рассчитывается вероятность фишинговой активности, а результаты отображаются пользователю через интерфейс расширения. Реализация выполнена с использованием стека технологий Python 3.12, Flask, Pickle, Langdetect, Re и NLTK, а также JavaScript и Google Chrome API.

З а к л ю ч е н и е. Разработанный программный модуль был протестирован и продемонстрировал высокую эффективность в задачах классификации фишинговых сайтов. Теоретическая значимость работы заключается в применении современных алгоритмов машинного обучения для анализа текстового контента и URL. Практическая значимость заключается в создании готового решения для выявления фишинговых сайтов в реальном времени.

Ключевые слова

фишинговые сайты, мошенничество, машинное обучение, классификация, обработка естественного языка, датасеты

Об авторах

С. Н. Петров

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Петров Сергей Николаевич - кандидат технических наук, доцент, доцент кафедры защиты информации, факультет инфокоммуникаций.

ул. П. Бровки, 6, Минск, 220013

https://www.elibrary.ru/author_profile.asp?authorid=1088896

А. О. Мяделец

Национальный детский технопарк
Беларусь

Мяделец Артем Олегович – учащийся.

ул. Франциска Скорины, 25/3, Минск, 220076

Е. В. Кундас

Национальный детский технопарк
Беларусь

Кундас Елизавета Владимировна – учащийся.

ул. Франциска Скорины, 25/3, Минск, 220076

Список литературы

1. Завьялов, А. Н. Интернет-мошенничество (фишинг): проблемы противодействия и предупреждения / А. Н. Завьялов // Baikal Research Journal. – 2022. – Т. 13, № 2. – С. 36.

2. Machine learning techniques for detecting phishing URL attacks / D. T. Mosa, M. Y. Shams, A. A. Abohany [et al.] // Computers, Materials & Continua. – 2023. – Vol. 75, no. 1. – Р. 1271–1290. – DOI: 10.32604/cmc.2023.036422.

3. A phishing-attack-detection model using natural language processing and deep learning / E. Benavides-Astudillo, W. Fuertes, S. Sanchez-Gordon [et al.] // Applied Sciences. – 2023. – Vol. 13, iss. 9. – Р. 5275.

4. Петров, С. Н. Датасеты для обучения моделей обнаружению мошеннических веб-ресурсов / С. Н. Петров, А. О. Мяделец, Е. В. Кундас // Лучшие студенческие исследования 2025 : сб. ст. IV Междунар. науч.-исслед. конкурса. – Пенза : МЦНС «Наука и Просвещение». – 2025. – С. 27–32.

5. Жерон, О. Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники для создания интеллектуальных систем / О. Жерон ; пер. с англ. – СПб. : ООО «Альфа-книга», 2018. – 688 с.

6. Шакла, Н. Машинное обучение и TeпsorFlow / Н. Шакла ; пер. с англ. – СПб. : Питер, 2019. – 336 с.

7. Koroteev, M. V. BERT: A Review of Applications in Natural Language Processing and Understanding / M. V. Koroteev. – URL: https://arxiv.org/pdf/2103.11943 (date of access: 17.03.2025).

8. Worth, P. J. Word embeddings and semantic spaces in natural language processing / P. J. Worth // International Journal of Intelligence Science. – 2023. – Vol. 13, no. 1. – P. 1–21. – DOI: 10.4236/ijis.2023.131001.

9. TinyBERT: Distilling BERT for Natural Language Understanding / X. Jiao, Y. Yin, L. Shang [et al.]. – URL: https://arxiv.org/pdf/1909.10351v5 (date of access: 17.03.2025). – DOI: 10.48550/arXiv.1909.10351.

Рецензия

Для цитирования:

Петров С.Н., Мяделец А.О., Кундас Е.В. Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения. Информатика. 2025;22(3):83-94. https://doi.org/10.37661/1816-0301-2025-22-3-83-94

For citation:

Petrov S.N., Myadelets A.O., Kundas E.V. Software module for detecting fraudulent websites using classification based on machine learning methods. Informatics. 2025;22(3):83-94. (In Russ.) https://doi.org/10.37661/1816-0301-2025-22-3-83-94

JATS XML

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Информатика

Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов