Preview

Информатика

Расширенный поиск

Об оценке результатов классификации несбалансированных данных по матрице ошибок1

https://doi.org/10.37661/10.37661/1816-0301-2021-18-1-61-71

Полный текст:

Аннотация

При применении классификаторов в реальных приложениях часто число элементов одного класса больше числа элементов другого, т. е. имеет место дисбаланс данных. В статье исследуются оценки результатов классификации данных такого типа. Рассматривается, какой из переводов термина confusion matrix более точен, как предпочтительнее представлять данные в такой матрице и какими функциями лучше оценивать результаты классификации по ней.

На реальных данных демонстрируется, что с помощью популярной функции точности accuracy не всегда корректно оцениваются ошибки классификации несбалансированных данных. Нельзя также сравнивать значения функции accuracy, вычисленные по матрицам с абсолютными количественными и нормализованными по классам результатами классификации. При дисбалансе данных точность, вычисленная по матрице ошибок с нормализованными значениями, как правило, будет иметь меньшие значения, поскольку она определяется по иной формуле. Такой же вывод сделан относительно большинства функций, используемых в литературе для нахождения оценок результатов классификации. Показывается, что для представления матриц ошибок лучше использовать абсолютные значения распределения объектов по классам вместо относительных, так как они описывают количество протестированных данных каждого класса и их дисбаланс.

При построении классификаторов рекомендуется оценивать ошибки функциями, не зависящими от дисбаланса данных, что позволяет надеяться на получение более корректных результатов классификации реальных данных.

Об авторах

В. В. Старовойтов
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Старовойтов Валерий Васильевич, доктор технических наук, профессор, главный научный сотрудник

ул. Сурганова, 6, Минск, 220012



Ю. И. Голуб
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Голуб Юлия Игоревна, кандидат технических наук, доцент, старший научный сотрудник

ул. Сурганова, 6, Минск, 220012



Список литературы

1. A review on ensembles for the class imbalance problem: bagging-, boosting-, and hybrid-based approaches / M. Galar [et. al.] // IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews). – 2012. – Vol. 42, no. 4. – P. 463–484. https://doi.org/10.1109/tsmcc.2011.2161285

2. Miller, G. A. An analysis of perceptual confusions among some English consonants / G. A. Miller, P. E. Nicely // The J. of the Acoustical Society of America. – 1955. – Vol. 27, no. 2. – P. 338–352. https://doi.org/10.1121/1.1907526

3. The balanced accuracy and its posterior distribution / K. H. Brodersen [et. al.] // Intern. Conf. on Pattern Recognition. – Istanbul, 2010. – P. 3121–3124.

4. Starovoitov, V. New function for estimating imbalanced data classification results / V. Starovoitov, Yu. Golub // Pattern Recognition and Image Analysis. – 2020. – Vol. 30, no. 3. – P. 295–302.

5. Hand, J. D. A simple generalisation of the area under the ROC curve for multiple class classification problems / J. D. Hand, J. R. Till // Machine Learning. – 2001. – Vol. 45, no. 2. – P. 171–186. https://doi.org/10.1023/A:1010920819831

6. Fawcett, T. Using rule sets to maximize ROC performance / T. Fawcett // Proc. IEEE Intern. Conf. on Data Mining. – 2001. – P. 131–138. https://doi.org/10.1109/ICDM.2001.989510

7. Ballabio, D. Multivariate comparison of classification performance measures / D. Ballabio, F. Grisoni, R. Todeschini // Chemometrics and Intelligent Laboratory Systems. – 2018. – Vol. 174. – P. 33–44. https://doi.org/10.1016/j.chemolab.2017.12.004.

8. Классификация повреждений кожи по данным дерматоскопии с использованием методов глубокого обучения / Е. Ю. Щетинин [и др.] // Математическая биология и биоинформатика. – 2020. – Т. 15, № 2. – С. 180–194.

9. Buscema, P. M. Artificial Adaptive Systems to predict the magnitude of earthquakes / P. M. Buscema, G. Massini, G. Maurelli // Bollettino di Geofisica Teorica ed Applicata. – 2015. – Vol. 56, no. 2. – P. 227–256.

10. Valverde-Albacete, F.J. 100 % classification accuracy considered harmful: The normalized information transfer factor explains the accuracy paradox / F. J. Valverde-Albacete, C. Pelaez-Moreno // PloS One. – 2014. – Vol. 9, no. 1. – Р. e84217. https://doi.org/10.1371/journal.pone.0084217


Для цитирования:


Старовойтов В.В., Голуб Ю.И. Об оценке результатов классификации несбалансированных данных по матрице ошибок1. Информатика. 2021;18(1):61-71. https://doi.org/10.37661/10.37661/1816-0301-2021-18-1-61-71

For citation:


Starovoitov V.V., Golub Yu.I. About the confusion-matrix-based assessment of the results of imbalanced data classification. Informatics. 2021;18(1):61-71. (In Russ.) https://doi.org/10.37661/10.37661/1816-0301-2021-18-1-61-71

Просмотров: 24


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)