十一 242008

各位客官谨记:R是一把锋利的刀,用得不好会割到自己(so sharp that you’ll cut yourself)。近日一位小同学的一个问题真是让我颇有些生气。

带着图形界面统计软件的思维来用R的话,十有八九会割到自己。在SPSS、SAS等工具中,虽然看着满屏幕的按钮,但大部分人可能也不害怕,因为不用管它们是什么意思,瞎选一通,按OK,下面就可以洋洋自得看着长篇大论的报表出来了,这种过程很是爽。

到了R的世界,满屏幕只有代码,后来好不容易明白了,原来R不用编程,调用现成函数就可以了,于是乎,开始把各式各样的数据、参数往函数里面扔,扔完了summary()一下,长篇大论的报表也出来了,甚爽。直到有一天,R向你报告说某地方出错了,于是傻了。

这里的案例是AdaBoost,这位同学用adabag包中的adaboost.M1()函数对树模型做boosting,却被告知无法进行。我看了一下数据,原来因变量是数值变量。于是火了,数值变量你咋用Adaboost.M1啊?它本身是对分类问题做的提升,对于一个回归问题非要驴唇对马嘴,这不净瞎扯么。

洒家满以为是个有趣的问题,结果饿着肚子回了邮件,真是亏大了。外专业的同仁也就罢了,俺不会说什么,关键是统计专业的。挥一挥衣袖,用膳去鸟。

十一 252007

没去美国,不过见到了Data Mining和Machine Learning界的大圣Leo Breiman作讲座,还见到了Princeton的Robert Schapire讲Boosting(它基本上就是由Schapire最先提出的),我没去台湾,但也见到了支持向量机界的牛人Chih-Jen Lin(SVM界著名的软件库libsvm就是这几个人写的)的一个暑期班讲座。还有很多视频课程(例如还有很多名人诸如Tom Mitchell、Vladimir Vapnik),尽在这个网站:

http://videolectures.net

Breiman只留下了一场视频讲座,很遗憾;Schapire的Boosting课非常系统,不妨仔细把两个小时的课听完;Lin的英语口语不太好,毕竟不是native speaker,不过对于中国人来说,这样的英语可能更容易听懂,哈哈。

从这个网站的首页上就足以看出数据挖掘、机器学习以及统计学在当今世道上的盛行。

十一 242007

年来Ensemble的方法已经不算是什么新鲜事儿了,Bootstrap aggregating(bagging)、Boosting、随机森林等等。个人感觉这些方法的理论路线比传统的统计学要次要一些,不像以往的模型、分布、渐进理论等等那样套路化,而是集中精力在提出创意和想法并实现。至于数学推导,有时候甚至都是在创意实现之后再回头来研究的(或者拼凑的)。

现在还在思考准备提交给12月8日“临床医学研究中的统计方法学术研讨会”的论文。生存分析是医学统计的一大支柱分析,经典的参数、半参数模型基本上也定型,没什么挖掘价值了。那么现在只好眼巴巴指望能从机器学习的方法中找一点出路。可惜的是,这样的想法也被人做得差不多了,比如R界的活跃分子之一Torsten Hothorn,这位德国大叔在2005年干脆写了一篇”Survival Ensembles“,这下好了,整个世界基本清静了,还有啥可以做的?

只好从这些狮子老虎的牙缝中拼命扒呀找呀,看有没有他们没做的或没想到的,凑一凑,凑出一篇东西来(只能算是“东西”)。

P.S. 1 今天看到Ensemble的鼻祖竟然是John Tukey,他那本”Exploratory Data Analysis“真是孕育了不少思想。

P.S. 2 眼看着useR! 2008还有六天就可以开始提交论文摘要了,到现在还一点正式的想法都没有。晕。等我写完生存分析的论文我得马上把我的动画论文写完投出去了(试试Teaching Statistics),然后考虑useR!的论文,然后赶紧把我的animation包升级一下;如果还有空,就该考虑明年IASC的那个会了。

WWW.YIHUI.NAME XIE@YIHUI.NAME © 2007 - 2012 by Yihui Xie