302010
三届中国R语言会议的北京会场已经在6月轰轰隆隆召开完了,可能是由于今年的会议时间接近期末考试,会后的民间报道不如去年多,估计开完会都拍拍屁股去复习考试了。开会这种活动的目的也不在于能现场学到多少东西,能知道什么事情是可行的就可以了,再顺便围观一下闻名未见面的活人们,混个脸熟以后好办事。这次开会也认识了不少新面孔,像攻城师阿稳啊,明星小朋友啊,上海来的啊,香港来的啊,当然大部分还是老面孔,诸如潘主席啊小邱啊关大总管啊刘思喆李舰二位师兄啊等等。用郭德刚的话说,“不错,我们今天来的观众挺多,楼上楼下来了有两三万人。”这两三万人多亏有会议组委会安排,群众们普遍表示情绪稳定,会议秩序井然。我们的新成员如熊熹谢漫錡(为了找这个名字怎么写我又上了一次校内,ft)付科宇等小盆友都挺能张罗,希望下次能有更多新的小盆友加入进来。

我第一天讲的统计图形讲稿后来已经更新传上来了,由于麦克风的不平稳性,估计很多人都没听清我在说什么,不过这也没啥,因为我讲的内容都已经出现在我的《现代统计图形》书稿中了,想要详细了解的读者可以去作品页面中下载不完整的书稿。第二天的演讲幻灯片和代码也都发布在统计之都上的第三届中国R语言会议纪要中了。

尽管中国R语言会议还未形成燎原之势,但八卦的R core们其实还是在偷偷关注的。我这次去马里兰NIST参加useR! 2010找机会又跟Martin Machaeler提了提我们的“山寨会议”,这位老大一边摆弄着手里的Emacs一边听我忽悠,到最后走出会场我才发现他其实没有真正想起来我是谁,因为他最后猛然想起来R Journal上貌似有一篇中国R会议的报道……老大们表示他们个人还是很有兴趣去一趟中国的,不过要把这三四百观众都带去恐怕有点困难,路费啊签证啊都麻烦。所以呢,我们下次可以考虑请一些有影响力的R core们去中国,办一届英文会议也未尝不可。

回头来看,这次会议的主要问题还是准备仓促(难道是我留下的病根?),收到的演讲不够覆盖R的功能;其次就是交流时间不够,没有有意制造足够的交流机会,当然这与会议时间长度有关,但会议日程安排上应该可以改进,用制度促进交流;最后,会议的产出也不明确,有个出版相关的小组就好了,即使不出版,发表在COS主站上也好,开完会就散伙,可惜了儿了。回头再线下商量。

会议T恤是这次会议的一个小亮点,下次要保持。顺便附图一张:某童鞋把这次R语言会议的T恤穿到了美帝农村钓鱼(其实一条鱼都没钓到)。

R会议T恤与Ada Hayden湖边的渔夫

中国R语言会议T恤与Ada Hayden湖边的渔夫

下期预告:《现代统计图形》书稿。这两天忙着搬家,估计要等几天了。

302010
前在群众大学给一些客官承诺过我会把我的硕士毕业论文发上来,其实早就在网上了,只不过没吱声而已,用Git同步一下容易,但写几个字介绍一下就花时间了。感兴趣的客官可以去本站作品页面内下载:http://yihui.name/cn/publication/#GSM

这论文呢,自我评价可以给个80分。最大的问题在于没有花时间去整理文章的结构,所以构架上稍微有点散乱(俗称“意识流”)。内容上熟悉我的博客的客官一眼就能看出来,其实都是些博客文章的汇总,只不过用LaTeX让它们变得“人模狗样”一些而已,好在本小子平时也积攒了这些鸡零狗碎的东西,动过自己的脑子。我觉得群众大学的毕业论文,很多都是一个套路:经济/金融数据套一个神奇的模型,直到最后整个世界一片和谐,读者在最后一章都能隐约看到上帝老爷子在朝你挥手。其实也没啥,找工作不容易,地球人也都知道写论文就是忽悠——漫漫人生路上一道工序。

由于本小子是个小人(小小的活人),所以总关心小人关心的事情(俗称“人本主义”)。这论文嘛,窃以为也没什么上下高低之分,说出你怎么想的就可以了,而不要总说“他们”怎么想怎么做。一定要有数学上的创新?一定要有人家看不懂的公式才是好论文?一定要有综述?一定要有长长的参考文献列表才是好论文?一定要板起脸?不能写八卦?不准幽默?……嗨,作茧自缚。几年前看到一篇好文章,颇具恶搞性质,建议各位客官收藏:How to write Consistently Boring Scientific Literature

言归正传:本文是厌倦八股文和数学理论的产物,从理论角度来说,几乎没什么价值,不过这篇文章是用Sweave写的,完全具有可重复性和100%透明度,对文中结果有怀疑的客官可以自行运行代码;其次,统计模拟和图形的声音在界内太微弱,大家都很忙,有人在忙着推公式,有人在忙着编数据,有人在忙着把公式用到不知道是不是编出来的数据上,本小子跟着瞎掺和了点别的东西,仅此而已。甭管有用没用,敬请拍砖。

----------外一篇:坛霸是怎样练成的----------

曾经有童鞋称呼在下为“坛霸”,这个……有时候确实有那么点意思,无图无真相(两个多月没怎么回帖了,一鼓作气):

坛霸是怎样练成的

坛霸是怎样练成的

接下来我会陆续写第三届中国R语言会议、《现代统计图形》书稿和useR! 2010,若时间允许,我考虑一下电视剧《九阴真经》(93版)。

272010

阵子没更新了,五月初回国,先是办群众大学里一些没办完的手续,然后是签证,再是结婚,火车一趟又一趟满地跑,好在最后基本搞定了要办的事情,回美国没两天,又去马里兰开useR! 2010会议,飞机上搬着指头一数,从第一次飞德国算起,一共坐了22次飞机,阿弥陀佛。现在回到大农村尘埃落定,该补的废话都可以补上了,按时间序一篇一篇来,先说群众大学的毕业论文。

今年年初的张磊给耶鲁捐款的事件想必各位客官都已经听说,张磊乃我中国群众大学毕业生,历尽千辛万苦从这个官僚机构到了耶鲁,享受了美帝的各种优厚待遇,二者一对比,就不难理解为何能给耶鲁如此巨额回馈。本小子对群众大学的小领导阶层也是非常不满意,所谓小领导,就是看着像个领导实际上只是办事员(诸如盖章的、审核材料的),这一群体实在是很难对付,虽然不是大领导,但掌握着学生的生杀大权,这就让人没办法了。这一群体的典型代表就是研究僧院,按理说,研究生应该是最具创新思想的学生群体,但那研究僧院你走进去在楼道里简直都能闻到迂腐味。拿这硕博毕业论文的格式规定来说(地址),首先这格式显然是按Micro$oft Word的“标准”来规定的,比如“固定行间距20pt”,我等LaTeX顽固分子当然对此颇有微辞;其次这格式规定本身也体现了格式制定者本人的某些特征,比如规定正文用小四号字,我想知道世界上还有哪本正式期刊会用这么大的字排版,对此我的解释只有一点:领导爱看大字;至于每一页的页眉都雷同这一点,更是迂腐,LaTeX本身经过简单的设置,可以让每一页的页眉都显示相应章节的小标题,这样对读者来说导航更方便,而由于Word本身的白痴(不是不可实现),活活让打印机浪费了墨水。

这些问题我试图去争论和解释,可是根本没有任何结果。我向学院一位常用LaTeX的老师反映了一下,也是劝我按那些规定行事,曰:“Word能做到的LaTeX都能做到!”我有句话在心里想了想,还是没说出来:“LaTeX实在是难以做到Word那么丑!”注1

过了些日子,本小子又听到另外一件事情,更加让我对这些论文格式制定者以及某些机构的迂腐无言以对。我们优秀的本科毕业生左辰sama,在学识上大家有目共睹,本来论文被选为优秀毕业论文,最后却因为论文不是用Word写的(很不幸又是LaTeX)、而“优秀论文”必须被建议应该是Word格式而放弃延迟了评奖。这种蠢事都能在群众大学发生,让我们说些什么好呢?

本小子在群众大学办的最后一道手续是退宿舍,就这么简单一件事情,那宿舍管理科的小领导愣是让我来回跑了三次,先是去了要求我到学院开证明盖章说我的确要离开(其实看毕业证就行了)、到宿舍管楼的阿姨那里写证明签字我的确是住在那栋楼里(你拿我的学生证在你面前的系统上查一下不就行了)、办完手续还要拿着他们的一张没有盖章没有签字的破纸到财务处通知他们(学校的管理系统就烂成这样:高速网络系统的结果是需要不断的人工跑腿)。本小子在这里从不写“中国人民大学”字样,就是因为不知道所谓的“人民、人本、人文”在哪里,我们都是群众,不是人民。

作为群众大学的毕业生,本小子对群大真难有什么感情,这话不是过河拆桥,本小子仅对统计学院有深厚感情,像这些年林老太太的关心、赵老师的指导等,那是不能忘的。

-------------------

注1:我看过的LaTeX生成的PDF文章中,可能有一篇真的比Word文档难看,真是可惜了(念liao三声)儿了,作者花了这么大功夫去写了一千多页,却没利用好LaTeX的排版功能。

072010

写下这个标题,想起《孟子》中有一句“吾昏”,也许是现代版“我晕”的起源……

曰:“然則小固不可以敵大,寡固不可以敵眾,弱固不可以敵彊。海內之地方千里者九,齊集有其一。以一服八,何以異於鄒敵楚哉?蓋亦反其本矣。今王發政施仁,使天下仕者皆欲立於王之朝,耕者皆欲耕於王之野,商賈皆欲藏於王之市,行旅皆欲出於王之塗,天下之欲疾其君者皆欲赴愬於王。其若是,孰能禦之?”

王曰:“吾惛,不能進於是矣。願夫子輔吾志,明以教我。我雖不敏,請嘗試之。”

跑题完毕。由于现在有若干不明真相的群众短信询问,现特地昭告一下:吾今日下午婚了。本事件纯属临时安排,吾昨日抵京,明日离京,行程如同打仗。该给各位客官的东西只能他日再补。钦此~~

232010

先说培训。若一切顺利,我们将在6月14日进行第三届中国R语言会议的会前培训,暂定由刘思喆和我来讲。本次培训计划上下午各3小时,培训费用=R的费用(即:free as in beer)。我的计划如下:

下载:幻灯片《现代统计图形》 培训时间:2010年6月14日下午2:00至5:00

培训目标:1、了解图形的构成元素,初级用户可以知道作图的诸多可能性,高级用户可以任意自定义图形;2、了解统计图形的基本类型和适用情形,跳出单调的“饼图+条形图+折线图”的范围;3、了解R的四种图形系统,即基础图形系统、grid、 lattice和ggplot2;4、学会用图形辅助模型去探索和分析数据;5、了解其它靠谱或不靠谱的应用,如统计动画和交互式动态图形

培训内容:R语言是统计计算和统计作图的强有力工具,本次培训着重介绍后者,内容包括:对统计图形历史的简要回顾,说明统计图形的功能(约5分钟);介绍R语言的基础图形系统的基本构成,包括各种图形参数和基本图形元素(约40分钟);介绍R自身的 graphics包中的各种统计图形函数,包括直方图、等高线图、散点图矩阵等(约1小时);R附加包中的各种图形函数,包括地图、脸谱图、平行坐标图等(约20分钟);R的其它三种图形系统:grid、lattice和ggplot2(约20分钟);基于统计模型的图形应用,包括回归模型、主成分分析、光滑方法、分类与回归树等(约25分钟);其它图形应用,包括动画和交互式图形等(约10分钟)。本次培训的大纲主要遵循本人正在编写的《现代统计图形》一书,该书的不完整书稿可以从这里下载:http://yihui.name/cn/publication/

适合听众:推荐以下四类听众前来听课(1)英语阅读能力较好,对编程感兴趣(2)公司企业的数据分析人员,尤其是咨询公司(3)教数据分析相关课程的高校老师(4)领导的秘书

不适合听众:本培训为实用性质的培训,可能不适合以发表学术论文为目标的听众,统计图形看似过于浅显,在统计学术界非主流研究方向

192010
同经济学家不讲道德一样(学过经济学的人都知道这句话的意思),理论统计学家从某种程度上来说也不讲道德。我们常用的一些统计量通常都渐近服从某种分布(以卡方和正态为典型),看起来做理论的人对这些渐近理论都非常骄傲和自豪,我们在学习过程中也要一代一代传承下去。数学公式摆出来当然能唬人,也许唬到最后大家都为光着屁股的皇帝欢呼。坦白说,我对这些东西感到非常厌倦。

近日来收到邮件少了,但各个问题都不太好直接回答。比如这则关于McNemar检验的问题:McNemar检验可以有两种形式的统计量,一为(b – c)2/(b + c),一为2b*log(2b/(b+c)) + 2c*log(2c/(b+c)),其中b和c是列联表非对角线上的频数。前者是McNemar检验本身的统计量,可以根据渐近正态分布得来(然后平方得到卡方),后者是似然比统计量(不带约束的似然除以带约束的,取对数,乘2)。McNemar检验看似复杂,实际上可以简化为检验b = c,或等价于检验一个n = b+c的二项分布中,是否p = 1/2(观察到X = b或c)。现在的问题是,这两种统计量有没有优劣之分?

作为一个懒得推公式的人,我向来喜欢用模拟回答问题,因为模拟的结果非常直截了当。我的考虑是,要看渐近统计量的优劣,那就看随着n增大,统计量和渐近分布有多接近好了。一个自然而然的想法当然是对若干统计量的观测值做分布检验了,比如KS检验。我们知道这两个统计量都是自由度为1的卡方分布,剩下的事情就是计算:

set.seed(123)
nmax = 1000
p = matrix(nrow = nmax, ncol = 2)
for (n in 2:nmax) {
    # 生成服从二项分布的随机数,分别计算两种统计量并作KS检验、记录P值
    b = rbinom(500, n, 0.5)
    x1 = (b - (n - b))^2/n
    x2 = 2 * b * log(2 * b/n) + 2 * (n - b) * log(2 * (n - b)/n)
    p[n, 1] = ks.test(x1, "pchisq", df = 1)$p.value
    p[n, 2] = ks.test(x2, "pchisq", df = 1)$p.value
}
# 调整一下数据格式,画图:随着n增大,P值如何变化?
library(ggplot2)
d = melt(p, varnames = c("n", "method"))
d$method = factor(d$method, labels = c("McNemar", "LRT"))
colnames(d)[3] = "p.value"
qplot(n, p.value, data = d, shape = method, geom = c("smooth", "point")) +
    scale_shape_manual(values = c(2, 3))

McNemar检验统计量与卡方分布拟合的好坏

McNemar检验统计量与卡方分布拟合的好坏

092010

话说今早起来,收到一封群发邮件,名曰“菜谱之葵花宝典”,我兴冲冲打开一看,哪妮?!这些个菜啷个儿看着这么眼熟呢?鼠标一拖到底,附件名赫然是“谢益辉的菜谱.doc”……再扳着指头一数抄送名单,四十来口人。顿时昏厥过去。

本来领导不在家,懒得做饭,看这邮件之后两股战战,老老实实按菜谱做了顿饭。

做饭这事呢,在忙碌的时候是一种很好的休息方式,让你珍爱生命远离键盘,闲暇时反而没有兴趣。那643的期末考试考得简直让人万念俱灰,求生不得求死不能,高度紧张之后突然一放松,瘫在家里看了两天儿时的武侠片,都一把年纪了,还看那些鬼打架的老片子,说出来好像挺丢人的,不过呢,经典就是经典,现在的片子,重特技而不重人情,拼力量而不拼道义,看着大同小异,个个都是缩水的神仙。

022010

2009年春,吾师王丰点评牛年十大事件,以一支股票开篇,对吾辈提出“三力”期望,即“知觉力、判断力、行动力”。这三力是我时常在心里琢磨的事情,王丰老大是个聪明绝顶的人,他点出这三力,应该也是他自己的经验总结。我等小辈要练就这等功力,恐怕是冰冻三尺非一日之寒。近日几点小事,让我再次联想起这三力。

先说这知觉力。老大讲的是中兵光电,这种股价暴涨的机会可能遍地都是,但不是每个人都看得到。现代人一个个都越来越忙,越是忙越是急功近利,越是无法练就知觉力。前日看到一则消息,很是有趣。华盛顿邮报于2007年做了个试验,让著名的小提琴演奏家Joshua Bell在DC的一个地铁口演奏,45分钟过去了,1097个匆匆过客中只有7个人停下来听,27个过客给了他32.17美元(其中一个认出了他,给了$20),而在两周前,Bell同样是演奏——只不过地点是在音乐厅——票价$100却让人疯抢。这篇文章的作者后来获了普利策奖。说你浮躁没眼力你还不信么?或曰:爷听的不是音乐,是**。【华盛顿邮报原文

再说这判断力。现在信息爆炸,炸得谁都不知道真相是什么,大家也不愿意费力去判断,或许这就是这几年出现无数的“**门”事件的原因吧,一有风吹草动,大家就开始声讨、掐架、跟风、膜拜。去年一篇孙振耀退休感言被广为转载,当时我没太在意,近日这文章又被转到邮箱里来,于是操起鼠标看了一遍,当我看到文中这样的字句时,心里极为怀疑这是不是他本人写的:

……天涯上愤怒的人很多,你有没有想过,你为什么不快乐?你为什么愤怒?……

……当初微软有个唐骏,很多大学里的年轻人觉得这才是他们向往的职业生涯,我在清华bbs里发的帖子被这些学子们所不屑。……

……“很多事情就像看A片,看的人觉得很爽,做的人未必。”……

惠普中国的CEO会写出这样的话么?这年头CEO都上天涯看痴男怨女?还在清华BBS发帖?作为退休感言,他引用什么话都可以,他会无聊到引用看A片这样的话来作为论据?这篇文章,就是《心灵老鸭汤》(武林外传语)或《读者》风格,肯定不会出自CEO之手。给不明真相的群众看看倒也无妨,但我认为这文章讲的道理一点都体现不出他本人的水准。【真相

最后说行动力。第三届中国R语言会议,即将登场,这一片“况且况且况况且”中,啥都不缺,最缺行动力,我们将重任交托给潘岚锋,这担子不轻,咱拭目以待。兵马不少,看将领怎么调配了。这行动力,说起来轻巧,做起来万般艰难。(剧透:本届R会议有些低年级本科小盆友想参与组织,本小子前几天得知有本小子的一位明星本家,善哉善哉,真是天上掉下个形象大使,唔哈哈哈)

242010

WordPress的都知道,Akismet是个不错的防垃圾评论的插件,判断的准确率还比较高,但长期以来我一直很恼火一件事,就是Akismet把那些判为垃圾评论的评论都放在垃圾队列中,最快也要一个月才自动删除,这样如果偶尔出现误判,我就得从几百条垃圾评论中眼巴巴去把误判的评论恢复过来。这些广告机器人每天都不厌其烦地发呀发,一天就是两三百条广告,我大多数时候都懒得看垃圾队列中有没有误判的,直接一键清空,所以有时候可能会殃及无辜。

昨天终于厌倦了,心想算了,还是去找个插件吧,肯定存在解决办法的。于是乎找到了一个叫Conditional CAPTCHA的插件,这个插件是Akismet之后的第二道防线:如果Akismet放行,它就不再过问,如果Akismet判为垃圾评论,它就继续弹出一个reCAPTCHA框让评论者输入验证码,这样的话,那些垃圾机器人压根儿就无法把评论发到我的数据库中,直接被删除了。

这下整个世界清净了。

192010

上和其他两位评委Simon Urbanek以及Hadley Wickham进行了电话会议,我们将今年的Chambers奖授给Michael J. Kane和他的bigmemory包(剧透了剧透了)。通过看今年提交的参赛作品,我觉得拿下这个奖的困难并没有想象中那么大,国内的客官们努力努力,也是很有希望获奖的(比如我相信精于C++的颜大站长能独立写出bigmemory包的概率大于95%)。此前在COS论坛上呼吁大家踊跃参加,估计大家都觉得这是天方夜谭,明年我以95%的概率不会做评委了,不过这评奖过程给我几点感想可供后来人借鉴:

  1. 严格按照主办方的规则行事。主办方的评奖规则中怎么写,我们就对照这一条一条规则检查自己的作品是否都符合了要求。比如Chambers奖的规则描述是:
  2. The entries will be judged on a variety of dimensions, including the importance and relevance for statistical practice of the tasks performed by the software, ease of use, clarity of description, elegance and availability for use by the statistical community. Preference will be given to those entries that are grounded in software design rather than calculation.

    最终评委的评分规则便根据三原则来:重要程度和与统计学的相关程度(多数作品都有很大的专业局限性,仅仅在自己的领域里针对某一特定模型写了软件包,不够通用,我也看不懂什么生物名词或天体物理名词)、创新和软件设计(想法是否足够新颖,没人做过当然最好,有人做过则要想想如何与众不同)、易用性和文档是否清楚(如果参赛者能多提供一些例子则会让评委更快了解你的软件,可以是录像、在线演示或动画、图形)。

  3. 关于这些原则,如果参赛者能站在评委角度来考虑,肯定能为自己挣得不少分。也许有些作者软件写得很精妙,但缺少恰当的表现形式,所以就可能被埋没。记得有一位参赛者把自己三百多页的博士论文都发来了,满篇数学公式,想想如果自己是评委,看一篇博士论文的概率是多大呢?
  4. 再回头看本小子去年的申请,估计很大程度上得益于本小子的动画网站,以及每个动画函数下都有例子展示,评委不用动脑子去仔细研究函数的每一个参数怎么用,只需要端着咖啡看演示就可以了。另外,本小子处心积虑套用了John Chambers那句名言“To turn ideas into software, quickly and faithfully”(我把software换成了animations),这主要是为了体现软件包与统计学思想的联系,另一方面,一眼看去这和竞赛的主题切合得甚为紧密。

  5. 包装很重要。由此又不得不说LaTeX与Word……呃,各位把本小子看作技术愤青的大人们,这真的不是技术问题,除非是Word高手,普通人用Word做出来的任何文档的排版质量跟LaTeX一比,评论只有两个字:垃圾。没得商量。LaTeX生产出来的论文,即使内容连垃圾都不如,其形式看起来也是正儿八经能唬住人的。拿着Word写的灰头土脸的PDF文档交上来,首先给人印象就是这童鞋以95%的概率不是高手,否则怎么连LaTeX都不会用呢。
  6. 去年我在申请的时候还没接触到LyX,所以老老实实写LaTeX源代码然后老老实实编译,而且用的是和R News文章一样的字体(这也是评委之一Hadley常用的字体),呈上去给大佬们一看,嘿,眼熟,我看这小子和R有一定关系。

最后,这获奖者比其他选手还占一点优势,就是他在去年的JSM大会上做过Data Expo的poster,硕大的宣传板,我们三人都在那里看过,回头一想,脸熟啊。这一点呢,也和我去年类似,三位评委我见过两位,一位七分熟,一位三分熟(你煎牛排呢?),剩下一位未曾近距离接触,但我曾给他的一本书提过一处勘误。所以混圈子也是有用的。

这些不是告诉各位客官可以不劳而获或投机取巧,世上没那么多好事,而是用一个例子说明怎样小心地铺路,把自己能控制的因素都一步步做到最佳状态,剩下的事,或水到则渠成,或听天而由命……理想情况下,呔!手起刀落,砍他个人仰马翻。

WWW.YIHUI.NAME XIE@YIHUI.NAME © 2007 - 2010 by Yihui Xie