485 字

统计分布的检验

根据数据检验总体的分布在我看来几乎没有什么用处,不过历史上已经出现了无数种关于分布的检验,例如Chi-square检验、KS检验、Shapiro正态性检验等等。我觉得检验没有实际用处的原因有二:

一、若拒绝零假设,即数据不服从某种分布,那么往往会使得下面要做的工作的前提假设不成立——这显然会很惨;

二、若不拒绝零假设——这几乎是无用的结论,因为不拒绝这个零假设,不代表能拒绝其它零假设,因此你仍然不知道数据是什么分布——这显然更惨;

所以我们要把自己的眼睛捂上,假装看不见,像数理统计学家那样,我们假定X服从帕累托分布,然后咋地咋地。

附1:本文是回答Renxiang Yan同志的邮件,因为我写了好半天,然后点“Reply”,发现从163返回了错误信息,说收件人拒绝收信,真是气人。我也不知道是Yan同学自己邮箱设置有问题,还是163有时候会拒绝Gmail的邮件。估计后者可能性大一些。

附2:还要补充说明一点,关于分布的假设检验中,零假设往往是确定的分布,而不是带有未知参数的笼统的分布,即分布的参数都是确定的值。只有少数几个关于正态分布的检验除外,因为它们有渐近性质。因此,提问时最好不要抽象地问怎么检验样本是否是广义极值分布。