学习资源

思科

网络工程

华为

网络工程

红帽

系统运维

RHCSA

RHCE

RHCA

OpenStack

RHCVA

RHCSS

甲骨文

数据库

OCA

OCP

OCM

MySQL

微软

系统运维

MTA

MCSA

MCSE

软件开发

编程设计

Java

Android

HTML5

其他

Python

学习文章

当前位置：首页 > >学习文章 > >

数据归一化方法

发布时间： 2019-10-26 10:21:26

数据归一化方法

数据标准化的介绍

标准化是将训练集中的某一列 (特征) 缩放成均值为0，方差为1的状态。

数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

标准化的特点

标准化后使得不同度量的数据特征具有可比性，同时不改变数据的原始分布状态。

标准化对数据进行规范化处理，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权

标准化的方法

min-max标准化（Min-Max Normalization）

离差标准化，是对原始数据的线性变换，使结果值映射到[0 , 1]之间。转换函数如下：

其中max为样本数据的较大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

import numpy as np

arr = np.asarray([0, 10, 50, 80, 100])

for x in arr:

x = float(x - np.min(arr))/(np.max(arr)- np.min(arr))

print x

# output

# 0.0

# 0.1

# 0.5

# 0.8

# 1.0

使用这种方法的目的包括：1、对于方差非常小的属性可以增强其稳定性；

2、维持稀疏矩阵中为0的条目。

下面将数据缩至0-1之间，采用MinMaxScaler函数

from sklearn import preprocessing

import numpy as np

X = np.array([[ 1., -1., 2.],

[ 2., 0., 0.],

[ 0., 1., -1.]])

min_max_scaler = preprocessing.MinMaxScaler()

X_minMax = min_max_scaler.fit_transform(X)

结果是

array([[ 0.5 , 0. , 1. ],

[ 1. , 0.5 , 0.33333333],

[ 0. , 1. , 0. ]])

Z-score标准化方法

也称为均值归一化(mean normaliztion)，给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1。转化函数为：

其中 μμ 为所有样本数据的均值，σσ为所有样本数据的标准差。

import numpy as np

arr = np.asarray([0, 10, 50, 80, 100])

for x in arr:

x = float(x - arr.mean())/arr.std()

print x

# output

# -1.24101045599

# -0.982466610991

# 0.0517087689995

# 0.827340303992

# 1.34442799399

QQ空间新浪微博腾讯微博人人网微信更多

上一篇：平均值，方差，标准差

下一篇： {HTML5}事件对象-冒泡和默认行为

十八年老品牌

微信咨询：gz_togogo 咨询电话：18922156670 咨询网站客服：在线客服

网络技术

系统运维

数据库

云计算

安全

大数据

人工智能

项目管理

软件开发

其他

优选课程

高校合作

企业定制

考试中心

学习资源

关于我们

学习文章

数据归一化方法

数据归一化方法

关于我们

联系我们

最新文章

客服热线

全国校区

友情链接

关注我们