Yihui Xie

小结数据标准化的性质及用处

谢益辉 / 2005-08-30


数据标准化是统计里面常用的手段,这种处理对数据有什么影响呢?这次只是看看减均值除方差的那种标准化方式;最后均值为0方差为1就不用说了;说两点别的性质吧。

  1. 不改变秩。
  2. 不改变变量之间的相关系数——无论是Pearson相关系数还是SpearmanKendall相关系数还是偏相关系数都不会改变。(结论推导很简单也比较有意思,先简单地推出Pearson,由1可推出Spearman和Kendall,由Pearson又可以推出偏相关系数)

由于数据标准化的性质,以下场合使用比较频繁:

  1. 回归分析中常用这种手段去除截距项。
  2. 在一些需要加权平均的综合指标排名中,为了消除量纲影响(其实这几乎是标准化的本质用途),也常用标准化数据的方式。
  3. 为了在图中更清楚地看出若干个变量的相关关系,可以使用标准化的方法(仍然类似于消除量纲影响),让数据处于相近的数量级水平,这样作图会比较直观。

如何进行数据的标准化?

答曰:若使用SPSS,在Descriptives(描述统计)分析中,有一个”Save standardized values as variables”选项,我每次都偷懒,用这种方法计算的;若正儿八经地算,那么就用Compute,套着公式做吧;用Excel输入公式计算当然也可以,用两个函数Average和Stdev,在一个单元格中写好了,bia~ji~往下一拖,就完事了。

今天之所以想起这么个事儿,是因为帮一位博士做论文中的统计分析时,发现了上面的第2条性质,接着用标准化后的数据做了个图。