博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据标准化总结(数据预处理)
阅读量:5159 次
发布时间:2019-06-13

本文共 755 字,大约阅读时间需要 2 分钟。

[转载请注明出处]

数据标准化总的来说分为两种。

其一:

一种为对分布的标准化,即对一维随机变量的标准化。比如说我们有好几个随机变量,X~N(u1, d1), Y~N(u2, d2), Z~N(u3, d3)。均值和方差的不同通常是由于个人对样本赋值,样本量岗,样本来源等因素导致的。    当我们需要把这几个变量放在同一个样本里时,比如需要把X,Y,Z均作为标签变量用于模型训练时,就需要进行标准化。该情况下的标准化通常有,极大极小标准化,Z-Score标准化等,具体参见百度百科[数据标准化]

其二:

第二种是对样本空间的特征维度进行标准化。比如一个N×d维的样本空间(N个样本,d维特征),我们需要针对该样本空间,对各个特征进行Normalize. 具体参见scikit-learn preprocessing 模块。

其实第二种是第一种的推广,但侧重点又有所不同。

对比softmax函数:

x=Softmax(x) softmax函数是将向量各个分量压缩至[0,1]区间,其分量和等于1。 乍一看很像标准化,其实两者完全不同。数据标准化是对分布的一次再调整,是针对样本量的“纵向”的再调整。

而softmax函数是对向量各个分量的一次“横向"的再调整,此处的分量具有明确意义。通常情况下的意义为各分量代表类别的概率分布。还有一种情况是针对样本情况下:假设x是一个样本有d维,那么我们可以这样理解:w=softmax(x),即softmax(x)可以得到各个特征的权重值。
关于这一点,Attention机制是其最好的说明。具体请参阅论文:Attention is all you need.

转载于:https://www.cnblogs.com/zhangze007/p/10475988.html

你可能感兴趣的文章
不要轻易相信用户
查看>>
javascript
查看>>
python3 aes加解密
查看>>
JSON
查看>>
【LOJ】#2173. 「FJOI2016」建筑师
查看>>
【LOJ】#2549. 「JSOI2018」战争
查看>>
MYSQL逆向工程generatorConfig
查看>>
Microsoft Visual Studio 2010(vs10)安装与使用
查看>>
sitecore系列教程之Sitecore个性化-体验概况概述
查看>>
【洛谷】P1876 开灯
查看>>
本周总结
查看>>
关于“/”应用程序中的服务器错误 之解决方案
查看>>
php编译安装参数说明
查看>>
wcf系列5天速成——第二天 binding的使用(2)
查看>>
Windows推包脚本
查看>>
CSS盒子模型
查看>>
PYthon帮助
查看>>
学习Javascript闭包(Closure)
查看>>
神经网络加速器应用实例:图像分类
查看>>
AtCoder Regular Contest 081
查看>>