Yihui Xie

正态分布与统计教条主义

谢益辉 / 2009-02-25


从论坛上最近的几个帖子来看,貌似相当一部分人的脑子已经被正态分布严重“毒化”了。例如,有人问,若总体不是正态分布能否求均值和标准差(作为描述统计量)?还有人问,新闻标题的字符长度服从什么分布(有意用正态分布),下面回复中也几乎都是正态分布的天下。为什么我们如此教条地对待正态分布?

我猜想,一个致命的原因就是数理统计的理论发展有相当大一部分都是建立在正态分布的根基上,这与实际应用中的统计需求存在明显的矛盾。统计分析并不同于找对象(在心里想好了要相亲的对象的性格、外貌、喜不喜欢猫、是否爱吃辣等“理论框架”之后再赴约),而是带有探索的意味。以我愚见,这可能是John Tukey在”The Future of Data Analysis”一文中强调的重点之一,不幸的是,我们至今仍然把数理统计高高供奉在统计学的神坛上,甘愿成为“正态教”的信徒。

作为实例,下面是数理统计版中100个帖子标题的字符长度,感兴趣的客官不妨琢磨琢磨它的分布:

20 20 13 15  2 11 31 10 12  20  13  56   7  13  19  46  16  19  14   9
20 10 22 13  2 43 11 15 20  14  26  10  19  33  15  15  65   7  16  18
10 32 14 17 14 24 19 60 13  17  27   7  12   7  11  70  50   8  13   8
15  2 20 27 39  7  7 26 21  19  22   8  26  42   8  17  37  17   5  14
21  8 28 18 69 12 23 12 17  14  17   8  20  31  36  25  20   6   6  11