Нормализация данных в машинном обучении

В. В. Старовойтов; Ю. И. Голуб

doi:10.37661/1816-0301-2021-18-3-83-96

Нормализация данных в машинном обучении

В. В. Старовойтов, Ю. И. Голуб

https://doi.org/10.37661/1816-0301-2021-18-3-83-96

Полный текст:

PDF (Rus) |

сгенерировать QR код

Аннотация

В задачах машинного обучения исходные данные часто заданы в разных единицах измерения и типах шкал. Такие данные следует преобразовывать в единое представление путем их нормализации или стандартизации. В работе показана разница между этими операциями. Систематизированы основные типы шкал, операции над данными, представленными в этих шкалах, и основные варианты нормализации функций. Предложена новая шкала частей и приведены примеры использования нормализации данных для их более корректного анализа.

На сегодняшний день универсального метода нормализации данных, превосходящего другие методы, не существует, но нормализация исходных данных позволяет повысить точность их классификации. Кластеризацию данных методами, использующими функции расстояния, лучше выполнять после преобразования всех признаков в единую шкалу.

Результаты классификации и кластеризации разными методами можно сравнивать различными оценочными функциями, которые зачастую имеют разные диапазоны значений. Для выбора наиболее точной функции можно выполнить нормализацию нескольких из них и сравнить оценки в единой шкале.

Правила разделения признаков древовидных классификаторов инвариантны к шкалам количественных признаков. Они используют только операцию сравнения. Возможно, благодаря этому свойству классификатор типа «случайный лес» в результате многочисленных экспериментов признан одним из лучших при анализе данных разной природы.

Ключевые слова

классификация объектов, кластеризация, нормализация данных, нормализация функций, сигмоида, гиперболический тангенс, случайный лес

Для цитирования:

Старовойтов В.В., Голуб Ю.И. Нормализация данных в машинном обучении. Информатика. 2021;18(3):83-96. https://doi.org/10.37661/1816-0301-2021-18-3-83-96

For citation:

Starovoitov V.V., Golub Yu.I. Data normalization in machine learning. Informatics. 2021;18(3):83-96. (In Russ.) https://doi.org/10.37661/1816-0301-2021-18-3-83-96

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)

Информатика

Нормализация данных в машинном обучении

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Дополнительные файлы

Рецензия

Для цитирования:

For citation:

Логин
Пароль
	Запомнить меня

Войти

Информатика

Нормализация данных в машинном обучении

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Дополнительные файлы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов