Об оценке результатов классификации несбалансированных данных по матрице ошибок1
https://doi.org/10.37661/10.37661/1816-0301-2021-18-1-61-71
Аннотация
При применении классификаторов в реальных приложениях часто число элементов одного класса больше числа элементов другого, т. е. имеет место дисбаланс данных. В статье исследуются оценки результатов классификации данных такого типа. Рассматривается, какой из переводов термина confusion matrix более точен, как предпочтительнее представлять данные в такой матрице и какими функциями лучше оценивать результаты классификации по ней.
На реальных данных демонстрируется, что с помощью популярной функции точности accuracy не всегда корректно оцениваются ошибки классификации несбалансированных данных. Нельзя также сравнивать значения функции accuracy, вычисленные по матрицам с абсолютными количественными и нормализованными по классам результатами классификации. При дисбалансе данных точность, вычисленная по матрице ошибок с нормализованными значениями, как правило, будет иметь меньшие значения, поскольку она определяется по иной формуле. Такой же вывод сделан относительно большинства функций, используемых в литературе для нахождения оценок результатов классификации. Показывается, что для представления матриц ошибок лучше использовать абсолютные значения распределения объектов по классам вместо относительных, так как они описывают количество протестированных данных каждого класса и их дисбаланс.
При построении классификаторов рекомендуется оценивать ошибки функциями, не зависящими от дисбаланса данных, что позволяет надеяться на получение более корректных результатов классификации реальных данных.
Ключевые слова
Для цитирования:
Старовойтов В.В., Голуб Ю.И. Об оценке результатов классификации несбалансированных данных по матрице ошибок1. Информатика. 2021;18(1):61-71. https://doi.org/10.37661/10.37661/1816-0301-2021-18-1-61-71
For citation:
Starovoitov V.V., Golub Yu.I. About the confusion-matrix-based assessment of the results of imbalanced data classification. Informatics. 2021;18(1):61-71. (In Russ.) https://doi.org/10.37661/10.37661/1816-0301-2021-18-1-61-71