Нормализация данных в машинном обучении
https://doi.org/10.37661/1816-0301-2021-18-3-83-96
Аннотация
В задачах машинного обучения исходные данные часто заданы в разных единицах измерения и типах шкал. Такие данные следует преобразовывать в единое представление путем их нормализации или стандартизации. В работе показана разница между этими операциями. Систематизированы основные типы шкал, операции над данными, представленными в этих шкалах, и основные варианты нормализации функций. Предложена новая шкала частей и приведены примеры использования нормализации данных для их более корректного анализа.
На сегодняшний день универсального метода нормализации данных, превосходящего другие методы, не существует, но нормализация исходных данных позволяет повысить точность их классификации. Кластеризацию данных методами, использующими функции расстояния, лучше выполнять после преобразования всех признаков в единую шкалу.
Результаты классификации и кластеризации разными методами можно сравнивать различными оценочными функциями, которые зачастую имеют разные диапазоны значений. Для выбора наиболее точной функции можно выполнить нормализацию нескольких из них и сравнить оценки в единой шкале.
Правила разделения признаков древовидных классификаторов инвариантны к шкалам количественных признаков. Они используют только операцию сравнения. Возможно, благодаря этому свойству классификатор типа «случайный лес» в результате многочисленных экспериментов признан одним из лучших при анализе данных разной природы.
Ключевые слова
Об авторах
В. В. СтаровойтовБеларусь
Старовойтов Валерий Васильевич - доктоp технических наук, пpофессоp, главный научный сотpудник.
Ул. Сурганова, 6, Минск, 220012
Ю. И. Голуб
Беларусь
Голуб Юлия Игоревна - кандидат технических наук, доцент, стаpший научный сотpудник.
Ул. Сурганова, 6, Минск, 220012
Список литературы
1. Aksoy, S. Feature normalization and likelihood-based similarity measures for image retrieval / S. Aksoy, R. M. Haralick // Pattern Recognition Letters. - 2001. - Vol. 22, no. 5. - P. 563-582.
2. Singh, В. Investigating the impact of data normalization on classification performance / B. Singh // Applied Soft Computing J. - 2020. - Vol. 97. - P. 105524.
3. Nayak, S. C. Impact of data normalization on stock index forecasting / S. C. Nayak, B. B. Misra, H. S. Behera // Intern. J. of Computer Information Systems and Industrial Management Applications. - 2014. -Vol. 6. - P. 257-269.
4. Naeini, A. A. Assessment of normalization techniques on the accuracy of hyperspectral data clustering / A. A. Naeini, M. Babadi, S. Homayouni // Intern. Archives of the Photogrammetry, Remote Sensing & Spatial Information Sciences. - 2017. - Vol. 42. - P. 27-30.
5. Stevens, S. S. On the theory of scales of measurement / S. S. Stevens // Science. New Series. - 1946. -Vol. 103, no. 2684. - P. 677-680.
6. Орлов, А. И. Теория измерений как часть методов анализа данных / А. И. Орлов // Социология: методология, методы, математическое моделирование. - 2012. - № 35. - C. 155-174.
7. Velleman, P. F. Nominal, ordinal, interval, and ratio typologies are misleading / P. F. Velleman, L. Wilkinson // The American Statistician. - 1993. - Vol. 47, no. 1. - P. 65-72.
8. Tukey, J. W. Exploratory Data Analysis / J. W. Tukey. - Massachusetts : Addison-Wesley, 1977. -P. 39-49.
9. Bruffaerts, C. A generalized boxplot for skewed and heavy-tailed distributions / C. Bruffaerts, V. Verardi, C. Vermandele // Statistics & Probability Letters. - 2014. - Vol. 95. - P. 110-117.
10. Kimber, A. C. Exploratory data analysis for possibly censored data from skewed distributions / A. C. Kimber // Applied Statistics. - 1990. - Vol. 39. - P. 21-30.
11. Carling, K. Resistant outlier rules and the non-Gaussian case / K. Carling // Computational Statistics & Data Analysis. - 2000. - Vol. 33, no. 3. - P. 249-258.
12. Hubert, M. An adjusted boxplot for skewed distributions / M. Hubert, E. Vandervieren // Computational Statistics & Data Analysis. - 2008. - Vol. 52, no. 12. - P. 5186-5201.
13. Brys, G. A robust measure of skewness / G. Brys, M. Hubert, A. Struyf // J. of Computational and Graphical Statistics. - 2004. - Vol. 13. - P. 996-1017.
14. Kyurkchiev, N. Sigmoid Functions: Some Approximation and Modelling Aspects / N. Kyurkchiev, S. Markov. - Saarbrucken : LAP Lambert Academic Publishing, 2015. - 120 p.
15. Флах, П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / П. Флах. - М. : ДМК Пресс, 2015. - 402 с.
16. Bicego, M. Properties of the Box-Cox transformation for pattern classification / M. Bicego, S. Baldo // Neurocomputing. - 2016. - Vol. 218. - P. 390-400.
17. Zhang, Q. Weighted data normalization based on eigenvalues for artificial neural network classification / Q. Zhang, S. Sun // Proc. of Intern. Conf. Neural Information Processing. - 2009. - Vol. 5863. - P. 349-356. https://doi.org/10.1007/978-3-642-10677-4_39
18. Zadeh, L. A. Fuzzy sets / L. A. Zadeh // Information and Control. - 1965. - Vol. 8, no. 3. - P. 338-353.
19. Więckowski, J. How the normalization of the decision matrix influences the results in the VIKOR method? / J. Więckowski, W. Salabun // Procedia Computer Science. - 2020. - Vol. 176. - P. 2222-2231.
20. Ioffe, S. Batch normalization: accelerating deep network training by reducing internal covariate shift / S. Ioffe, C. Szegedy // 32nd Intern. Conf. on Machine Learning, Lille, France, 7-9 July 2015. - Lille, 2015. -Vol. 37. - P. 448-456.
21. Do we need hundreds of classifiers to solve real world classification problems? / M. Fernandez-Delgado [et. al.] // The J. of Machine Learning Research. - 2014. - Vol. 15, no. 1. - P. 3133-3181.
22. Lemons, K. Comparison between Naive Bayes and random forest to predict breast cancer / K. A. Lemons // Intern. J. of Undergraduate Research & Creative Activities. - 2020. - Vol. 12, art. 12. - Р. 1-5. http://doi.org/10.7710/2168-0620.0287
23. Chicco, D. The benefits of the Matthews correlation coefficient (MCC) over the diagnostic odds ratio (DOR) in binary classification assessment / D. Chicco, V. Starovoitov, G. Jurman // IEEE Access. - 2021. -Vol. 9. - P. 47112-47124. https://doi.org/10.1109/ACCESS.2021.3068614
24. Новиков, Д. А. Статистические методы в педагогических исследованиях (типовые случаи) / Д. А. Новиков. - М. : МЗ-Пресс, 2004. - 67 с.
25. Cheddad, A. On box-cox transformation for image normality and pattern classification // IEEE Access. -2020. - Vol. 8. - P. 154975-154983. https://doi.org/10.1109/ACCESS.2020.3018874
26. Han, J. The influence of the sigmoid function parameters on the speed of backpropagation learning / J. Han, C. Moraga // Intern. Workshop on Artificial Neural Networks, Malaga-Torremolinos, Spain, 7-9 June 1995. - Malaga-Torremolinos, 1995. - P. 195-201.
27. Jain, A. Score normalization in multimodal biometric systems / A. Jain, K. Nandakumar, A. Ross // Pattern Recognition. - 2005. - Vol. 38, no. 12. - P. 2270-2285.
Дополнительные файлы
Рецензия
Для цитирования:
Старовойтов В.В., Голуб Ю.И. Нормализация данных в машинном обучении. Информатика. 2021;18(3):83-96. https://doi.org/10.37661/1816-0301-2021-18-3-83-96
For citation:
Starovoitov V.V., Golub Yu.I. Data normalization in machine learning. Informatics. 2021;18(3):83-96. (In Russ.) https://doi.org/10.37661/1816-0301-2021-18-3-83-96