Preview

Информатика

Расширенный поиск

Сравнительный анализ оценок качества бинарной классификации

https://doi.org/10.37661/1816-0301-2020-17-1-87-101

Аннотация

Приведены данные аналитического и экспериментального анализов 17 функций, используемых для оценки результатов бинарной классификации произвольных данных. Результаты классификации представлены матрицами ошибок размером 2×2. Исследованы поведение и свойства основных функций, вычисляемых по элементам этих матриц. Анализируются варианты классификации со сбалансированными и несбалансированными классами данных. Показано, что между отдельными функциями существуют линейные зависимости. Многие функции инвариантны к транспонированию матриц ошибок, что позволяет вычислять оценки, не уточняя порядок записи данных в эти матрицы.

Доказано, что все классические функции (Sensitivity, Specificity, Precision, Accuracy, F1, F2, GM, индекс Жаккара) чувствительны к дисбалансу классифицируемых данных и искажают оценки при ошибках классификации объектов меньшего класса. Чувствительность к дисбалансу имеется у коэффициента корреляции Мэтьюса и каппы Коэна. Экспериментально показано, что такие функции, как энтропия ошибки (confusion entropy), степень разделимости (discriminatory power) и диагностическое отношение шансов (diagnostic odds ratio), не стоит использовать для анализа результатов бинарной классификации несбалансированных классов. Две последние функции инвариантны к дисбалансу классифицируемых данных, но плохо оценивают результаты с примерно равным суммарным процентом ошибок классификации. Доказано, что площадь под ROC-кривой (AUC) и индекс Юдена, вычисляемые по матрице ошибок бинарной классификации, линейно зависимы и являются наиболее подходящими оценочными функциями для сравнения результатов бинарной классификации как сбалансированных, так и несбалансированных данных.

Для цитирования:


Старовойтов В.В., Голуб Ю.И. Сравнительный анализ оценок качества бинарной классификации. Информатика. 2020;17(1):87-101. https://doi.org/10.37661/1816-0301-2020-17-1-87-101

For citation:


Starovoitov V.V., Golub Yu.I. Comparative study of quality estimation of binary classification. Informatics. 2020;17(1):87-101. (In Russ.) https://doi.org/10.37661/1816-0301-2020-17-1-87-101

Просмотров: 1384


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)