Yihui Xie

研究生的统计模型课

谢益辉 / 2006-03-20


说实在的,我对这课意见比较大。过了一周了,今天抽点时间写写吧。上周是第一次去听课,见到了传说中的田茂再老师,果然又是一位有个性的“嗔”人。据传说,此人曾经在香港用概率论知识助人赌马,收效如何就不得而知了。我猜这位老师当年一定是数学学太多了,形象思维太强,他在思考“八点到九点半”这样一个时间概念时居然用粉笔在黑板上画起时钟在那儿绕圈儿,我不禁佩服得五体投地。(形象思维的特点,在老杜和黄向阳老师讲课过程中也可以观察出,只不过没有田老师这样强烈,那二位顶多是在思考矩阵时想象着n行m列,而他居然连思考时间段都要画个钟)

言归正传。我看了看这门课用的教材,目录如下:

I. Density Smoothing

  1. Histogram
  2. Kernel Density Estimation
  3. Further Density Estimation
  4. Bandwidth Selection in Practice

II. Regression Smoothing

  1. Nonparametric Regression
  2. Bandwidth Selection
  3. Simutaneous Error Bar

整个课程基本就是讲光滑方法(非参数理论),与我想象的统计模型课差远了。我时常怀疑,对光滑方法这么深入的研究在统计上究竟有多大意义。就拿我去听的这堂课来说,关于直方图(Histogram)的带宽h的选择(Bandwidth Selection),从数学推导上得出这个带宽(它直接关系到密度函数的求得)与两个因素有关:一是样本量n,二是密度函数的导函数$f'$。我们按照黄向阳老师一贯的“看什么都不对”的眼光来审视这两个结论:

一、关于样本量:废话,有脑子的人想想就知道,样本量越大,带宽当然就可以选得越宽。

二、关于密度函数的导函数:更废话,要是都已经知道了密度函数的导函数那还要推导密度函数干嘛?这不扯的么?典型的本末倒置啊。于是有人发明了所谓的Plug-in方法来弥补这点缺憾,我想问,难道你心里不觉得悬乎么?你咋知道正态分布与未知的总体分布相近呢?这不又是扯的么?

三、我们在推导密度函数时,最后得出的结论竟然是要用自己推导自己,绕了个大圈,沿途观赏了伟大的Taylor展开、伟大的高阶无穷小、伟大的MSE、伟大的依分布收敛、伟大的XXX……最后还是绕回自个儿家了。从这个意义上讲,阿基米德说给他一根棍子他就能撬动地球,那我也可以,只要你给我一根能撬动地球的棍子就可以了(撬不动的话我就怪棍子,怪你给我的棍子不能撬动地球)。

唉,统计模型,多好的课啊,无限广阔的统计新天地,干嘛不讲讲SEM、PPR、Resampling、MCMC、Bootstrap、Neural Networks……若有幸田sir能看见我的啰嗦,也请提提批评意见。

另:这门课上认识了冯伟广的师兄孟鹏辉,嗯,算是一大收获。