Preview

Информатика

Расширенный поиск
Том 22, № 3 (2025)
Скачать выпуск PDF

ОБРАБОТКА СИГНАЛОВ, ИЗОБРАЖЕНИЙ, РЕЧИ, ТЕКСТА И РАСПОЗНАВАНИЕ ОБРАЗОВ

7-24 243
Аннотация

Ц е л и. Осуществляется автоматическое обнаружение поражений легких: полостей, инфильтратов и узелков – на рентгеновских снимках грудной клетки. Также исследуется возможность пространственной локализации этих поражений на изображении.

М е то д ы. Используются бинарная классификация при помощи глубоких сверточных нейронных сетей и метод Grad-CAM.

Р е з у л ь т а т ы. Для модели Xception точность бинарной классификации на тестовом наборе данных составляет: 73,1 % для полостей, 71,9 % для инфильтратов и 72,8 % для узелков. Тепловые карты с истинно положительными результатами для полостей и узелков в основном понятны радиологам.

Чтобы получить понятные экспертам тепловые карты для инфильтратов, необходимо провести дополнительные исследования.

З а к л ю ч е н и е. Средняя точность классификации модели Xception для трех типов поражений (полости, инфильтраты и узелки) равна 72,6 %. Были построены тепловые карты, связанные с патологическими процессами в легких и локализацией поражений. Полученные результаты являются хорошими, но не отличными. Таким образом, необходимо провести дальнейшие исследования для повышения точности классификации и качества тепловых карт.

25-34 240
Аннотация

Ц е л и. Целью проведенной работы является разработка архитектуры информационной системы для транскрибации и перевода речи, реализация ее блоков и тестирование их работы.

М е т о д ы. Рассмотрены существующие способы распознавания речи, проведен сравнительный анализ моделей распознавания речи и перевода текста. Процесс транскрибации речи включает в себя несколько последовательных этапов: сбор и предварительную обработку аудиосигнала, извлечение акустических признаков, непосредственное распознавание речи, постобработку и коррекцию текста, вывод результата. На этапе предобработки аудиосигнала используется комбинация специализированных библиотек, обеспечивающих подготовку данных для последующего анализа. Для нормализации параметров записи применяется библиотека librosa, позволяющая выполнять передискретизацию сигнала до стандартной частоты 16 кГц и преобразование его в монофонический формат. Для подавления фоновых шумов и выделения речевого компонента задействуется нейросетевая модель Demucs. Алгоритм спектральной субтракции дополнительно корректирует остаточные шумы. Сегментация речевой активности выполняется с использованием энергетического детектора из WebRTC, автоматически выделяя речевые фрагменты и удаляя паузы. Для реализации системы распознавания речи выбрана модель whisper-turbo (OpenAI) ввиду большей скорости обработки данных, позволяющей реализовывать потоковый режим работы системы, и меньших требований к вычислительной мощности машины. Модуль перевода разработанной интеллектуальной системы построен на модели T5-large-1024 (Text-to-Text Transfer Transformer), адаптированной для многоязычных задач.

Р е з у л ь т а т ы. Предложен способ создания интеллектуальной системы распознавания речи – модульная архитектура системы распознавания и перевода речи, реализован прототип и замерены метрики. Система показала следующие результаты: для русско-английского перевода Cosine Similarity 0,6951, WER 0,529, BLEU Score 0,239; для каскадного русско-китайского перевода через английский язык Cosine Similarity 0,557, WER 0,748, BLEU Score 0,095. Исследования доказали, что применение каскадного перевода через английский язык повышает качество итогового текста на 32 % по метрике Cosine Similarity и на 25 % по BLEU Score по сравнению с прямым переводом. Результаты работы реализованного прототипа оказались удовлетворительными.

З а к л ю ч е н и е. Предложенная реализация системы распознавания речи может решать поставленную задачу с удовлетворительным для описанной проблемы качеством без рисков несанкционированного доступа к данным, поскольку работает без подключения к сети интернет. При использовании каскадного перевода через английский язык качество русско-китайского перевода улучшается на 32 % по метрике Cosine Similarity (с 0,423 до 0,557) и на 25 % по метрике BLEU Score (с 0,076 до 0,095). Предложенная информационная система может быть внедрена в образовательный процесс вне зависимости от учебной дисциплины, а также применена на выставках, конференциях, международных форумах. Возможен параллельный перевод на различные языки, что позволит всем участникам международных форумов активно участвовать в мероприятиях.

35-44 224
Аннотация

Ц е л и. Целями исследования являются сбор данных, разработка алгоритма автоматического извлечения микровыражений из видеозаписей, а также формирование правил комбинаций двигательных единиц, на основе которых определяются базовые эмоции человека.

М е т о д ы. Микровыражения лица человека – это короткая непроизвольная реакция, которая может появляться при попытке человека скрыть его истинные эмоции. При решении задачи распознавания лжи микровыражения играют ключевую роль и служат важным индикатором сокрытия правдивой информации. В статье для анализа мимики из системы кодирования лицевых движений (Facial Action Coding System, FACS) использовались двигательные единицы (Action Units, AUs), полученные с помощью библиотеки py-feat.

Р е з у л ь т а т ы. Собран набор данных, состоящий из видеозаписей группы конкретных людей. Разработаны правила на основе комбинаций двигательных единиц и их интенсивностей для определения базовых эмоций, а также сформулирован алгоритм определения и извлечения микровыражений из видеозаписей. Результат исследования алгоритма показал отрицательную корреляцию эмоции радости с фактом проявления лжи.

З а к л ю ч е н и е. Полученные результаты позволяют расширить информационный базис при нейросетевом распознавании лжи по видеоряду с изображениями лица за счет детектирования и анализа на них микровыражений.

БИОИНФОРМАТИКА

45-58 189
Аннотация

Ц е л и. Целью исследования является разработка алгоритма выбора референсных микроРНК с учетом их взаимосвязи с тем, чтобы классифицировать группы образцов при изучении различных биологических процессов.

М е т о д ы. Использовались методы линейной алгебры, анализа главных компонент, статистических моделей бинарной регрессии, оценки производительности моделей.

Р е з у л ь т а т ы. Разработан новый алгоритм MDSeek, который предлагает выбор референсных микроРНК для нормализации данных количественной полимеразной цепной реакции с целью последующего использования нормализованных данных для задач классификации. Оценка результатов работы алгоритма для задачи классификации свидетельствует о его более высокой эффективности по сравнению с известными подходами к нормализации результатов полимеразной цепной реакции.

З а к л ю ч е н и е. В настоящей работе предложен оригинальный алгоритм MDSeek, предназначенный для выбора референсных микроРНК с целью нормализации результатов полимеразной цепной реакции и позволяющий изучать изменения экспрессии микроРНК при сравнении различных биологических процессов. После применения MDSeek на опытном наборе образцов нормализованные данные использовались для задач классификации, метрики производительности были лучше по сравнению с другими алгоритмами.

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

59-71 176
Аннотация

Ц е л и. Целями работы являются построение аналитического решения задачи экранирования низкочастотного магнитного поля двумя тонкими непересекающимися сферическими экранами, расположенными на поверхности сферы, и вычисление коэффициента экранирования исходного магнитного поля сферическими экранами.

М е т о д ы. Для решения поставленной граничной задачи используются метод теорем сложения и метод тройных сумматорных уравнений. Потенциал исходного магнитного поля представляется в виде сферических гармонических функций. Вторичные потенциалы магнитного поля представляются в виде суперпозиции сферических гармонических функций в локальной системе координат в трехмерном пространстве.

Р е з у л ь т а т ы. Решение поставленной граничной задачи сведено к решению системы интегральных уравнений Фредгольма второго рода относительно специальным образом введенных функций. Численно исследовано влияние геометрических параметров задачи на значение коэффициента экранирования. Результаты вычислений представлены в виде графиков.

З а к л ю ч е н и е. Предложенные методика и разработанное программное обеспечение могут найти практическое применение при конструировании экранов в различных областях техники.

ЗАЩИТА ИНФОРМАЦИИ И НАДЕЖНОСТЬ СИСТЕМ

72-82 188
Аннотация

Ц е л и. Рассматриваются особенности применения двухслойных искусственных нейронных сетей в задачах аппроксимации двоичных функций многих двоичных переменных. Изучаются вопросы выбора начальных значений весов модели и количества нейронов на скрытом слое.

М е т о д ы. Задача аппроксимации двоичной функции с помощью искусственной нейронной сети сводится к геометрической задаче разделения вершин многомерного куба гиперплоскостями. Комбинаторными методами доказываются леммы о способах разбиения гиперкуба гиперплоскостью и строится оценка снизу количества двоичных функций, для аппроксимации которых достаточен один нейрон на скрытом слое.

Р е з у л ь т а т ы. Рассмотрены особенности задания начальных значений весов искусственной нейронной сети. Построена оценка снизу числа двоичных функций, для аппроксимации которых достаточно искусственной нейронной сети с одним нейроном на скрытом слое. Найдена алгоритмическая сложность вычисления такой оценки. Представлены численные результаты применения двухслойных искусственных нейронных сетей для аппроксимации двоичных функций в задачах защиты информации.

З а к л ю ч е н и е. Результаты статьи позволяют выбирать параметры искусственной нейронной сети для повышения точности аппроксимации двоичных функций многих переменных.

83-94 205
Аннотация

Ц е л и. Целью исследования является разработка программного модуля для автоматического выявления фишинговых веб-сайтов с использованием алгоритмов машинного обучения для классификации сайтов.

М е т о д ы. Для достижения поставленной цели проведен анализ существующих датасетов, содержащих URL-адреса фишинговых сайтов, а также изучены датасеты для обработки естественного языка. Это позволило определить ключевые признаки, характерные для мошеннических ресурсов. Были созданы два набора данных (размерами 18,9 Мб и 1,08 Гб), включающих признаки URL и текстовое наполнение веб-страниц, с использованием разработанного парсера. Для классификации веб-ресурсов применялись алгоритмы машинного обучения, такие как SVM, Random Forest, Logistic Regression и Multilayer Perceptron (MLP). Также изучены возможности использования языковой модели TinyBERT для анализа текстового содержимого.

Р е з у л ь т а т ы. По результатам проведенных исследований для работы с URL использована модель MLP (F1-score 99,3 %), а для анализа текстовой части веб-ресурса – модель TinyBERT (F1-score 95 %). Разработан программный модуль для выявления мошеннических веб-сайтов, состоящий из серверной части и браузерного расширения. Расширение собирает данные с веб-ресурса, передает их на сервер, где они анализируются обученными моделями машинного обучения. На сервере рассчитывается вероятность фишинговой активности, а результаты отображаются пользователю через интерфейс расширения. Реализация выполнена с использованием стека технологий Python 3.12, Flask, Pickle, Langdetect, Re и NLTK, а также JavaScript и Google Chrome API.

З а к л ю ч е н и е. Разработанный программный модуль был протестирован и продемонстрировал высокую эффективность в задачах классификации фишинговых сайтов. Теоретическая значимость работы заключается в применении современных алгоритмов машинного обучения для анализа текстового контента и URL. Практическая значимость заключается в создании готового решения для выявления фишинговых сайтов в реальном времени.

УЧЕНЫЕ БЕЛАРУСИ

ИНФОРМАЦИЯ



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)