References

inform

Информатика

Informatics

1816-03012617-6963

UIIP NASB

10.37661/1816-0301-2022-19-3-74-85

inform-1207

Research Article

ОБРАБОТКА СИГНАЛОВ, ИЗОБРАЖЕНИЙ, РЕЧИ, ТЕКСТА И РАСПОЗНАВАНИЕ ОБРАЗОВ

SIGNAL, IMAGE, SPEECH, TEXT PROCESSING AND PATTERN RECOGNITION

Распознавание изображений товаров электронной коммерции с использованием модели внимания и нейронной сети YOLACT

E-commerce image recognition using attention model and YOLACT neural network

https://orcid.org/0000-0002-2128-1943

Сорокина

В. В.

Sorokina

V. V.

Сорокина Виктория Вадимовна, аспирант кафедры веб-технологий и компьютерного моделирования механико-математического факультета

пр. Независимости, 4, Минск, 220050

Viktoria V. Sorokina, Postgraduate Student of WebTechnologies and Computer Modeling Department of Mechanics and Mathematics Faculty

av. Nezavisimosti, 4, Minsk, 220050

viktoria.sorokina.96@gmail.com

https://orcid.org/0000-0001-9404-1206

Абламейко

С. В.

Ablameyko

S. V.

Абламейко Сергей Владимирович, академик НАН Беларуси, доктор технических наук, профессор, лауреат Государственной премии Республики Беларусь, заслуженный деятель науки Республики Беларусь

пр. Независимости, 4, Минск, 220050

ул. Сурганова, 6, Минск, 220012

Sergey V. Ablameyko, Academician of the National Academy of Sciences of Belarus, D. Sc. (Eng.), Professor, Laureate of the State Prize of the Republic of Belarus, Honored Scientist of the Republic of Belarus

av. Nezavisimosti, 4, Minsk, 220050

st. Surganova, 6, Minsk, 220012

ablameyko@bsu.by

Белорусский государственный университетBelarusian State University

Белорусский государственный университет; Объединенный институт проблем информатики Национальной академии наук БеларусиBelarusian State University; The United Institute of Informatics Problems of the National Academy of Sciences of Belarus

2022

22082022

1937485

2022

Сорокина В.В., Абламейко С.В.

Sorokina V.V., Ablameyko S.V.

Данная работа распространяется под лицензией Creative Commons Attribution 4.0.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://inf.grid.by/jour/article/view/1207

Цели. Предлагается алгоритм распознавания изображений товаров электронной коммерции с использованием модели внимания и нейронной сети YOLACT. Целью работы является улучшение взаимодействия между перекрестными признаками изображения с помощью модульной архитектуры, в которой применяется модель внимания к разным веткам сети.Методы. Основными методами распознавания изображений товаров электронной коммерции являются создание и аннотация набора данных для обучения нейронной сети, выбор архитектуры и встраивание модели внимания, валидация и проведение тестов, а также интерпретация результатов.Результаты. Сверточная нейронная сеть YOLACT модифицировалась моделью внимания для решения задачи распознавания объектов электронной коммерции, что позволило получить более качественные результаты, чем у классической сети YOLACT.Заключение. В ходе эксперимента был подготовлен набор данных товаров электронной коммерции, произведена его аннотация, построены две нейронные сети для сравнения результатов. Результаты исследования показали, что использование модели внимания положительно влияет как на качество обученной сети, так и на скорость сходимости. Это отражается в улучшенных метриках для распознавания и сегментации объектов.

Objectives. We propose the algorithm for e-commerce image recognition using attention model and neural network YOLACT. A modular architecture is used that applies an attention model to different branches of the network in order to improve the interaction between image cross-features.Methods. The main methods to recognize e-commerce products are the creation and annotation of a dataset for the neural network training, the choice of architecture and embedding an attention model, the validation and testing, and interpretation of the results.Results. Convolutional neural network YOLACT has been modified by the attention model to solve image recognition task that allowed to obtain results superior in quality to the results showed by classic YOLACT.Conclusion. In the course of the experiment, a data set of e-commerce products was prepared, annotated, and two neural networks were built to compare the results. The results of the study showed that the use of the attention model has a positive effect on both the quality of the trained network and on the rate of convergence, which is reflected in improved metrics for object recognition and segmentation.

распознавание объектовсверточная нейронная сетьмодель вниманиясеть YOLACTэлектронная коммерция

object recognitionconvolutional neural networkattention modelnetwork YOLACTe-commerce

References1

Bolya D., Zhou C., Xiao F., Lee Y. J. YOLACT: Real-time instance segmentation. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 27 October – 2 November 2019, pp. 9157–9166.

Bahdanau D., Cho K., Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate. 3rd International Conference on Learning Representations, San Diego, CA, USA, 7–9 May 2015. Available at: https://arxiv.org/abs/1409.0473?context=stat (accessed 01.02.2021).

Chaudhuri A., Messina P., Kokkula S., Subramanian A., Krishnan A., …, Kandaswamy V. A smart system for selection of optimal product images in e-commerce. IEEE International Conference on Big Data (Big Data), Seattle, WA, USA, 10–13 December 2018, pp. 1728–1736.

Zhang X. Content-based e-commerce image classification research. IEEE Access, 2020, vol. 8, pp. 160213–160220.

Bossard L., Dantone M., Leistner C., Wengert C., Quack T., Van Gool L. Apparel classification with style. Asian Conference on Computer Vision, Berlin, 2012, vol. 7727, рр. 321–335.

Lao B., Jagadeesh K. Convolutional neural networks for fashion classification and object detection. CCCV 2015 Computer Vision, рр. 120–129.

Dai J., He K., Li Y., Ren S., Sun J. Instance-sensitive fully convolutional networks. 14th European Conference on Computer Vision, Amsterdam, 11–14 October 2016, vol. 9910, рр. 534–549.

He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016, 2016, рр. 770–778.

Green B. Canny Edge Detecor. Available at: https://docs.opencv.org/master/da/d22/tutorial_py_canny.html (accessed 01.02.2021).

Pech-Pacheco J. L., Cristobal G., Chamorro-Martinez J., Fernandez-Valdivia J. Diatom Autofocusing in Brightfield Microscopy: A Comparative Study. Available at: http://optica.csic.es/papers/icpr2k.pdf (accessed 01.02.2021).

He K. Mask R-CNN. IEEE International Conference on Computer Vision (ICCV), Venice, 22–29 October 2017, рр. 2980–2988.

Qi H., Dai J., Ji X., Wei Y. Fully convolutional instance-aware semantic segmentation. IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21–26 July 2017, рр. 4438–4446.

Sorokina V., Ablameyko S. Neural network training acceleration by weight standardization in segmentation of electronic commerce images. Studies in Computational Intelligence, 2020, vol. 976, рр. 237–244.

The authors declare that there are no conflicts of interest present.