<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">inform</journal-id><journal-title-group><journal-title xml:lang="ru">Информатика</journal-title><trans-title-group xml:lang="en"><trans-title>Informatics</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">1816-0301</issn><issn pub-type="epub">2617-6963</issn><publisher><publisher-name>UIIP NASB</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.37661/1816-0301-2025-22-3-83-94</article-id><article-id custom-type="elpub" pub-id-type="custom">inform-1357</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>ЗАЩИТА ИНФОРМАЦИИ И НАДЕЖНОСТЬ СИСТЕМ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>INFORMATION PROTECTION AND SYSTEM RELIABILITY</subject></subj-group></article-categories><title-group><article-title>Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения</article-title><trans-title-group xml:lang="en"><trans-title>Software module for detecting fraudulent websites using classification based on machine learning methods</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Петров</surname><given-names>С. Н.</given-names></name><name name-style="western" xml:lang="en"><surname>Petrov</surname><given-names>S. N.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Петров Сергей Николаевич - кандидат технических наук, доцент, доцент кафедры защиты информации, факультет инфокоммуникаций.</p><p>ул. П. Бровки, 6, Минск, 220013</p><p>https://www.elibrary.ru/author_profile.asp?authorid=1088896</p></bio><bio xml:lang="en"><p>Sergei N. Petrov - Ph. D. (Eng.), Assoc. Prof., Assoc. Prof. of the Information Security Department, Faculty of Infocommunications, Belarusian State University of Informatics and Radioelectronics.</p><p>Р. Brovki st., 6, Minsk, 220013</p><p>https://www.elibrary.ru/author_profile.asp?authorid=1088896</p></bio><email xlink:type="simple">sergpetrov@inbox.ru</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Мяделец</surname><given-names>А. О.</given-names></name><name name-style="western" xml:lang="en"><surname>Myadelets</surname><given-names>A. O.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Мяделец Артем Олегович – учащийся.</p><p>ул. Франциска Скорины, 25/3, Минск, 220076</p></bio><bio xml:lang="en"><p>Artyom O. Myadelets - Student, National Children’s Technopark.</p><p>Francis Skorina st., 25/3, Minsk, 220076</p></bio><email xlink:type="simple">artemmuadzelets@gmail.com</email><xref ref-type="aff" rid="aff-2"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Кундас</surname><given-names>Е. В.</given-names></name><name name-style="western" xml:lang="en"><surname>Kundas</surname><given-names>E. V.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Кундас Елизавета Владимировна – учащийся.</p><p>ул. Франциска Скорины, 25/3, Минск, 220076</p></bio><bio xml:lang="en"><p>Elizaveta V. Kundas - Student, National Children’s Technopark.</p><p>Francis Skorina st., 25/3, Minsk, 220076</p></bio><email xlink:type="simple">kundaselizaveta@gmail.com</email><xref ref-type="aff" rid="aff-2"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru"><institution>Белорусский государственный университет информатики и радиоэлектроники</institution></aff><aff xml:lang="en"><institution>Belarusian State University of Informatics and Radioelectronics</institution></aff></aff-alternatives><aff-alternatives id="aff-2"><aff xml:lang="ru"><institution>Национальный детский технопарк</institution></aff><aff xml:lang="en"><institution>National Children’s Technopark</institution></aff></aff-alternatives><pub-date pub-type="collection"><year>2025</year></pub-date><pub-date pub-type="epub"><day>10</day><month>10</month><year>2025</year></pub-date><volume>22</volume><issue>3</issue><fpage>83</fpage><lpage>94</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Петров С.Н., Мяделец А.О., Кундас Е.В., 2025</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="ru">Петров С.Н., Мяделец А.О., Кундас Е.В.</copyright-holder><copyright-holder xml:lang="en">Petrov S.N., Myadelets A.O., Kundas E.V.</copyright-holder><license xml:lang="ru" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>Данная работа распространяется под лицензией Creative Commons Attribution 4.0.</license-p></license><license xml:lang="en" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://inf.grid.by/jour/article/view/1357">https://inf.grid.by/jour/article/view/1357</self-uri><abstract><sec><title>Ц е л и</title><p>Ц е л и. Целью исследования является разработка программного модуля для автоматического выявления фишинговых веб-сайтов с использованием алгоритмов машинного обучения для классификации сайтов.</p></sec><sec><title>М е т о д ы</title><p>М е т о д ы. Для достижения поставленной цели проведен анализ существующих датасетов, содержащих URL-адреса фишинговых сайтов, а также изучены датасеты для обработки естественного языка. Это позволило определить ключевые признаки, характерные для мошеннических ресурсов. Были созданы два набора данных (размерами 18,9 Мб и 1,08 Гб), включающих признаки URL и текстовое наполнение веб-страниц, с использованием разработанного парсера. Для классификации веб-ресурсов применялись алгоритмы машинного обучения, такие как SVM, Random Forest, Logistic Regression и Multilayer Perceptron (MLP). Также изучены возможности использования языковой модели TinyBERT для анализа текстового содержимого.</p></sec><sec><title>Р е з у л ь т а т ы</title><p>Р е з у л ь т а т ы. По результатам проведенных исследований для работы с URL использована модель MLP (F1-score 99,3 %), а для анализа текстовой части веб-ресурса – модель TinyBERT (F1-score 95 %). Разработан программный модуль для выявления мошеннических веб-сайтов, состоящий из серверной части и браузерного расширения. Расширение собирает данные с веб-ресурса, передает их на сервер, где они анализируются обученными моделями машинного обучения. На сервере рассчитывается вероятность фишинговой активности, а результаты отображаются пользователю через интерфейс расширения. Реализация выполнена с использованием стека технологий Python 3.12, Flask, Pickle, Langdetect, Re и NLTK, а также JavaScript и Google Chrome API.</p></sec><sec><title>З а к л ю ч е н и е</title><p>З а к л ю ч е н и е. Разработанный программный модуль был протестирован и продемонстрировал высокую эффективность в задачах классификации фишинговых сайтов. Теоретическая значимость работы заключается в применении современных алгоритмов машинного обучения для анализа текстового контента и URL. Практическая значимость заключается в создании готового решения для выявления фишинговых сайтов в реальном времени.</p></sec></abstract><trans-abstract xml:lang="en"><sec><title>O b j e c t i v e s</title><p>O b j e c t i v e s. Phishing web resources are among the most common tools of online fraud aimed at obtaining users' confidential information. The goal of this research was to develop a software module for the automatic detection of phishing websites using machine learning methods.</p></sec><sec><title>M e t h o d s</title><p>M e t h o d s. To achieve this goal, an analysis of existing datasets containing phishing website URLs was conducted, along with the study of datasets for natural language processing (NLP). This enabled the identification of key features characteristic of fraudulent resources. Two datasets were created (sizes: 18.9 MB and 1.08 GB), incorporating URL attributes and web page content, using a custom-developed parser. Machine learning algorithms such as SVM, Random Forest, Logistic Regression, and Multilayer Perceptron (MLP) were applied for website classification. The potential of the TinyBERT language model for analyzing textual content was also explored.</p></sec><sec><title>R e s u l t s</title><p>R e s u l t s. The analysis revealed that the MLP model demonstrated the best performance for URL classification, while the TinyBERT model excelled in analyzing textual content. A software module was developed, consisting of a server-side application and a browser extension. The extension collects data from web resources, transmits them to the server, where trained machine learning models analyze the information. The server calculates the likelihood of phishing activity, and the results are displayed to the user via the extension's interface. The implementation utilized a technology stack including Python 3.12, Flask, Pickle, Langdetect, Re, NLTK, JavaScript, and the Google Chrome API.</p></sec><sec><title>Co n c l u s i o n</title><p>Co n c l u s i o n. The developed software module was tested and demonstrated high efficiency in phishing website classification tasks. The theoretical significance of the work lies in applying modern machine learning algorithms for analyzing textual content and URLs. The practical significance is reflected in the creation of a ready-to-use solution for real-time phishing site detection.</p></sec></trans-abstract><kwd-group xml:lang="ru"><kwd>фишинговые сайты</kwd><kwd>мошенничество</kwd><kwd>машинное обучение</kwd><kwd>классификация</kwd><kwd>обработка естественного языка</kwd><kwd>датасеты</kwd></kwd-group><kwd-group xml:lang="en"><kwd>phishing websites</kwd><kwd>fraud</kwd><kwd>machine learning</kwd><kwd>classification</kwd><kwd>natural language processing</kwd><kwd>datasets</kwd></kwd-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Завьялов, А. Н. Интернет-мошенничество (фишинг): проблемы противодействия и предупреждения / А. Н. Завьялов // Baikal Research Journal. – 2022. – Т. 13, № 2. – С. 36.</mixed-citation><mixed-citation xml:lang="en">Zavyalov A. N. Internet fraud (phishing): problems of counteraction and prevention. Baikal Research Journal, 2022, vol. 13, no. 2, p. 36 (In Russ.).</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Machine learning techniques for detecting phishing URL attacks / D. T. Mosa, M. Y. Shams, A. A. Abohany [et al.] // Computers, Materials &amp; Continua. – 2023. – Vol. 75, no. 1. – Р. 1271–1290. – DOI: 10.32604/cmc.2023.036422.</mixed-citation><mixed-citation xml:lang="en">Mosa D. T., Shams M. Y., Abohany A. A., El-kenawy E.-S. M., Thabet M. Machine learning techniques for detecting phishing URL attacks. Computers, Materials &amp; Continua, 2023, vol. 75, no. 1, рр. 1271–1290. DOI: 10.32604/cmc.2023.036422.</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">A phishing-attack-detection model using natural language processing and deep learning / E. Benavides-Astudillo, W. Fuertes, S. Sanchez-Gordon [et al.] // Applied Sciences. – 2023. – Vol. 13, iss. 9. – Р. 5275.</mixed-citation><mixed-citation xml:lang="en">Benavides-Astudillo E., Fuertes W., Sanchez-Gordon S., Nuñez-Agurto D., Rodríguez-Galán G. A phishing-attack-detection model using natural language processing and deep learning. Applied Sciences, 2023, vol. 13, iss. 9, р. 5275.</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Петров, С. Н. Датасеты для обучения моделей обнаружению мошеннических веб-ресурсов / С. Н. Петров, А. О. Мяделец, Е. В. Кундас // Лучшие студенческие исследования 2025 : сб. ст. IV Междунар. науч.-исслед. конкурса. – Пенза : МЦНС «Наука и Просвещение». – 2025. – С. 27–32.</mixed-citation><mixed-citation xml:lang="en">Petrov S. N., Myadelets A. O., Kundas E. V. Datasets for training models to detect fraudulent web resources. Luchshie studencheskie issledovanija 2025 : sbornik statej IV Mezhdunarodnogo nauchno-issledovatel'skogo konkursa [Best Student Research 2025: Collection of Articles of the IV International Research Competition]. Penza, Nauka i Prosveshchenie, 2025, pp. 27–32 (In Russ.).</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Жерон, О. Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники для создания интеллектуальных систем / О. Жерон ; пер. с англ. – СПб. : ООО «Альфа-книга», 2018. – 688 с.</mixed-citation><mixed-citation xml:lang="en">Géron A. Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media, 2017, 572 р.</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Шакла, Н. Машинное обучение и TeпsorFlow / Н. Шакла ; пер. с англ. – СПб. : Питер, 2019. – 336 с.</mixed-citation><mixed-citation xml:lang="en">Shukla N. Machine Learning with TensorFlow. Manning, 2018, 272 р.</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Koroteev, M. V. BERT: A Review of Applications in Natural Language Processing and Understanding / M. V. Koroteev. – URL: https://arxiv.org/pdf/2103.11943 (date of access: 17.03.2025).</mixed-citation><mixed-citation xml:lang="en">Koroteev M. V. BERT: A Review of Applications in Natural Language Processing and Understanding. Available at: https://arxiv.org/pdf/2103.11943 (accessed 17.03.2025).</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Worth, P. J. Word embeddings and semantic spaces in natural language processing / P. J. Worth // International Journal of Intelligence Science. – 2023. – Vol. 13, no. 1. – P. 1–21. – DOI: 10.4236/ijis.2023.131001.</mixed-citation><mixed-citation xml:lang="en">Worth P. J. Word embeddings and semantic spaces in natural language processing. International Journal of Intelligence Science, 2023, vol. 13, no. 1, рр. 1–21. DOI: 10.4236/ijis.2023.131001.</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">TinyBERT: Distilling BERT for Natural Language Understanding / X. Jiao, Y. Yin, L. Shang [et al.]. – URL: https://arxiv.org/pdf/1909.10351v5 (date of access: 17.03.2025). – DOI: 10.48550/arXiv.1909.10351.</mixed-citation><mixed-citation xml:lang="en">Jiao X., Yin Y., Shang L., Jiang X., Chen X., …, Liu Q. TinyBERT: Distilling BERT for Natural Language Understanding. Available at: https://arxiv.org/pdf/1909.10351v5 (accessed 17.03.2025). DOI: 10.48550/arXiv.1909.10351.</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
