首页 > 知识大全 >

什么叫数据标准化？在Python中如何进行数据标准化？「必学」

152次浏览发布时间：2023-08-09 12:55:29

主要内容：

什么是数据标准化？在Python中如何进行数据标准化？

一、Z标准化：实现中心化和正态分布；
二、Min-Max：归一化；
三、MaxAbs：最大绝对值标准化；
四、RobustScaler。

Python实例

z-score；
Min-Max；
MaxAbs；
RobustScaler。

数据标准化是数据预处理中非常重要的一步。在实际应用过程中，我们经常会遇到含有多种特征的数据集，这些特征常常有着不同的分布形态和区间，有着不同的量级（量纲），这很容易对我们的模型训练产生影响。而数据标准化，就是为了消除规模、特征和分布差异对模型的影响而存在。

另外，将各特征标准化之后，我们可以对其进行加权组合，从而生成新的指标，而原始数据往往不支持我们直接进行加权计算。

那么今天我们就来看一下，有哪些数据标准化的方法，以及它们分别如何在Python中实现。

一、Z标准化：实现中心化和正态分布

Z-Score标准化是基于原始数据的均值和标准差进行的标准化，其转化公式为：

其中，z是转化后的数据，x为转化前的数据，μ是整组数据的均值，σ是整组数据的标准差。

这种方法适合大多数类型的数据，其应用非常广泛。从公式里我们就可以看出来，转化之后其均值将变为0，而方差和标准差将变为1（考虑方差的公式），这部分如果不明白那就不妨在本子上推理一下哦。

二、Min-Max：归一化

Min-Max标准化方法会对原始数据进行线性变换，它的转换公式为：

很明显，当x为最大值时，会被转换为1；当x为最小值时，对应的新值为0；整组数据会分布在从0到1的区间内，而数据的分布形态并不会发生变化。

三、MaxAbs：最大绝对值标准化

在数据科学中，我们经常需要应对稀疏数据，MaxAbs方法对于稀疏数据有着良好的支持。MaxAbs标准化方法与Min-Max方法有些相似，其公式为：

即用每一个值除以整组数据中的绝对值的最大值，这样保留了原有数据的正负属性，且使数据落在了[-1,1]闭区间内。需要注意的是，先进行绝对值操作，然后选最大值，而不是先选择最大值，再求绝对值。我已经看到过很多文章把这里弄错了。举个例子，有一组数据[-0.01, -1, -2]，如果我们先求最大值再求绝对值，别说归一化了，数据简直要钻到地缝里去了。

四、RobustScaler

有些时候，数据中会存在离群点（异常值）。这时如果我们使用z-score标准化就会导致数据很容易失去离群特征。这时我们就可以使用RobustScaler方法，它对于数据中心化和数据的缩放健壮性有着更强的参数调节能力。

Python实例

多说无益，放码过来，我们先导入必要的库、iris数据集，并进行一些必要的设置。

import numpy as np
import pandas as pd
from sklearn import preprocessing
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
from seaborn import load_dataset
sns.set()
mpl.rcParams['font.family'] = 'sans-serif'
mpl.rcParams['font.sans-serif'] = 'SimHei'
iris = load_dataset('iris').drop('species', axis=1)
iris.head()

我们先观察下前两列数据的原始分布情况：

sns.jointplot(data=iris, color='m',
 x='sepal_length', 
 y='sepal_width');

Z-score

我们先来演示z标准化。

z_scaler = preprocessing.StandardScaler()
iris_z = z_scaler.fit_transform(iris)
iris_z = pd.DataFrame(iris_z)
sns.jointplot(data=iris_z, color='m', x=0, y=1);

可以看到，数据分布形态变化不大，但是数据收敛到了0轴周围。

我们看一下转换后数据的均值和标准差：

可以看到，虽然有一点点小误差（量级非常小），但是数据基本上是符合均值为0、标准差为1的。

Min-Max标准化

然后是Min-Max归一化方法：

mm_scaler = preprocessing.MinMaxScaler()
iris_mm = mm_scaler.fit_transform(iris)
iris_mm = pd.DataFrame(iris_mm)
sns.jointplot(data=iris_mm, color='m', x=0, y=1);

这次我们在保持原有数据分布特性的同时，将数据收敛到了0到1之间。

MaxAbs标准化

ma_scaler = preprocessing.MaxAbsScaler()
iris_ma = ma_scaler.fit_transform(iris)
iris_ma = pd.DataFrame(iris_ma)
sns.jointplot(data=iris_ma, color='m', x=0, y=1);

由于iris数据集里没有负值，所以这里不能体现出[-1,1]的数据范围。我们为数据增加一些负值来看看：

iris_ma = pd.concat([iris_ma, iris_ma.applymap(lambda x: -x)])
sns.jointplot(data=iris_ma, color='m', x=0, y=1);

果然是[-1,1]呢，不过我们这里的操作只是为了演示，没有额外的意义。

RobustScaler

r_scaler = preprocessing.RobustScaler()
iris_r = ma_scaler.fit_transform(iris)
iris_r = pd.DataFrame(iris_r)
sns.jointplot(data=iris_r, color='m', x=0, y=1);

嗯……看起来跟MaxAbs没什么区别，这是因为这里不存在什么异常值。这个就留给你们自己来练习一下了！

本文分类：知识大全
本文标签：无
浏览次数：152 次浏览
发布日期：2023-08-09 12:55:29
本文链接：https://www.shuomingshu.cn/changshi/238706.html

上一篇 > 朋友圈里的这三种人，会带来“精神污染”，你遇到过吗？
下一篇 > 无证驾驶有什么危害

什么叫数据标准化？在Python中如何进行数据标准化？「必学」

相关文章

最新文章

热门推荐

什么叫数据标准化 ？在Python中如何进行数据标准化？「必学」

相关文章

最新文章

热门推荐

什么叫数据标准化？在Python中如何进行数据标准化？「必学」