Preview

Информатика

Расширенный поиск

Нормализация данных в машинном обучении

https://doi.org/10.37661/1816-0301-2021-18-3-83-96

Аннотация

В задачах машинного обучения исходные данные часто заданы в разных единицах измерения и типах шкал. Такие данные следует преобразовывать в единое представление путем их нормализации или стандартизации. В работе показана разница между этими операциями. Систематизированы основные типы шкал, операции над данными, представленными в этих шкалах, и основные варианты нормализации функций. Предложена новая шкала частей и приведены примеры использования нормализации данных для их более корректного анализа.

На сегодняшний день универсального метода нормализации данных, превосходящего другие методы, не существует, но нормализация исходных данных позволяет повысить точность их классификации. Кластеризацию данных методами, использующими функции расстояния, лучше выполнять после преобразования всех признаков в единую шкалу.

Результаты классификации и кластеризации разными методами можно сравнивать различными оценочными функциями, которые зачастую имеют разные диапазоны значений. Для выбора наиболее точной функции можно выполнить нормализацию нескольких из них и сравнить оценки в единой шкале.

Правила разделения признаков древовидных классификаторов инвариантны к шкалам количественных признаков. Они используют только операцию сравнения. Возможно, благодаря этому свойству классификатор типа «случайный лес» в результате многочисленных экспериментов признан одним из лучших при анализе данных разной природы.

Для цитирования:


Старовойтов В.В., Голуб Ю.И. Нормализация данных в машинном обучении. Информатика. 2021;18(3):83-96. https://doi.org/10.37661/1816-0301-2021-18-3-83-96

For citation:


Starovoitov V.V., Golub Yu.I. Data normalization in machine learning. Informatics. 2021;18(3):83-96. (In Russ.) https://doi.org/10.37661/1816-0301-2021-18-3-83-96

Просмотров: 2945


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)