造个假数都不会造

新华网关于学生冬季长跑的调查结果让人着实跌眼镜，一共调查了100人，报告中的结果都是xx.xx%形式的，例如“92.79%的学生认为强健了自己的身体”。这0.79个人是怎么来的？

咱们学统计的，应该对数字有一定的敏感性，比如当你看到小数位中含有667这样的数字（e.g. 0.291667）时就应该警觉：对方是否给出了样本量？如果没给的话，你就应该怀疑这个数字本来是0.29166666……如果你不知道这个比例是怎么来的，那么就拿一些整数去乘这个比例，看看哪个数字乘以这个比例能得到整数。最终你发现是24的倍数，样本量是7的倍数。然后你再想，7/24、14/48、28/96、……这一系列数字哪对更符合这个调查的背景。如：若你怀疑调查者很懒，那么不妨猜测他/她就调查了24个人。

以上只不过是低级的数字游戏，对统计来说根本没派上用场，现在很多人都琢磨着怎么建个模型整个P值去忽悠答辩委员会，而事实往往是，费尽千般心思，辛辛苦苦调查来的数据在建模之后根本没法用，要么系数是反的，要么不显著，或者有自相关，或有异方差，总之和初衷很不符，此时，离答辩往往只剩下几个星期，怎么办呢？只好眼睛一闭心一横，改数据吧！怎么改呢……【此处省略八千字】最后，王子和公主们过上了幸福生活。

我一般不相信经济学论文中的统计模型，原因之一就是数据。

谢益辉 2009-04-27