有阵子没更新了,五月初回国,先是办群众大学里一些没办完的手续,然后是签证,再是结婚,火车一趟又一趟满地跑,好在最后基本搞定了要办的事情,回美国没两天,又去马里兰开useR! 2010会议,飞机上搬着指头一数,从第一次飞德国算起,一共坐了22次飞机,阿弥陀佛。现在回到大农村尘埃落定,该补的废话都可以补上了,按时间序一篇一篇来,先说群众大学的毕业论文。
今年年初的张磊给耶鲁捐款的事件想必各位客官都已经听说,张磊乃我中国群众大学毕业生,历尽千辛万苦从这个官僚机构到了耶鲁,享受了美帝的各种优厚待遇,二者一对比,就不难理解为何能给耶鲁如此巨额回馈。本小子对群众大学的小领导阶层也是非常不满意,所谓小领导,就是看着像个领导实际上只是办事员(诸如盖章的、审核材料的),这一群体实在是很难对付,虽然不是大领导,但掌握着学生的生杀大权,这就让人没办法了。这一群体的典型代表就是研究僧院,按理说,研究生应该是最具创新思想的学生群体,但那研究僧院你走进去在楼道里简直都能闻到迂腐味。拿这硕博毕业论文的格式规定来说(地址),首先这格式显然是按Micro$oft Word的“标准”来规定的,比如“固定行间距20pt”,我等LaTeX顽固分子当然对此颇有微辞;其次这格式规定本身也体现了格式制定者本人的某些特征,比如规定正文用小四号字,我想知道世界上还有哪本正式期刊会用这么大的字排版,对此我的解释只有一点:领导爱看大字;至于每一页的页眉都雷同这一点,更是迂腐,LaTeX本身经过简单的设置,可以让每一页的页眉都显示相应章节的小标题,这样对读者来说导航更方便,而由于Word本身的白痴(不是不可实现),活活让打印机浪费了墨水。
这些问题我试图去争论和解释,可是根本没有任何结果。我向学院一位常用LaTeX的老师反映了一下,也是劝我按那些规定行事,曰:“Word能做到的LaTeX都能做到!”我有句话在心里想了想,还是没说出来:“LaTeX实在是难以做到Word那么丑!”注1
过了些日子,本小子又听到另外一件事情,更加让我对这些论文格式制定者以及某些机构的迂腐无言以对。我们优秀的本科毕业生左辰sama,在学识上大家有目共睹,本来论文被选为优秀毕业论文,最后却因为论文不是用Word写的(很不幸又是LaTeX)、而“优秀论文”必须被建议应该是Word格式而放弃延迟了评奖。这种蠢事都能在群众大学发生,让我们说些什么好呢?
本小子在群众大学办的最后一道手续是退宿舍,就这么简单一件事情,那宿舍管理科的小领导愣是让我来回跑了三次,先是去了要求我到学院开证明盖章说我的确要离开(其实看毕业证就行了)、到宿舍管楼的阿姨那里写证明签字我的确是住在那栋楼里(你拿我的学生证在你面前的系统上查一下不就行了)、办完手续还要拿着他们的一张没有盖章没有签字的破纸到财务处通知他们(学校的管理系统就烂成这样:高速网络系统的结果是需要不断的人工跑腿)。本小子在这里从不写“中国人民大学”字样,就是因为不知道所谓的“人民、人本、人文”在哪里,我们都是群众,不是人民。
作为群众大学的毕业生,本小子对群大真难有什么感情,这话不是过河拆桥,本小子仅对统计学院有深厚感情,像这些年林老太太的关心、赵老师的指导等,那是不能忘的。
-------------------
注1:我看过的LaTeX生成的PDF文章中,可能有一篇真的比Word文档难看,真是可惜了(念liao三声)儿了,作者花了这么大功夫去写了一千多页,却没利用好LaTeX的排版功能。
早上和其他两位评委Simon Urbanek以及Hadley Wickham进行了电话会议,我们将今年的Chambers奖授给Michael J. Kane和他的bigmemory包(剧透了剧透了)。通过看今年提交的参赛作品,我觉得拿下这个奖的困难并没有想象中那么大,国内的客官们努力努力,也是很有希望获奖的(比如我相信精于C++的颜大站长能独立写出bigmemory包的概率大于95%)。此前在COS论坛上呼吁大家踊跃参加,估计大家都觉得这是天方夜谭,明年我以95%的概率不会做评委了,不过这评奖过程给我几点感想可供后来人借鉴:
- 严格按照主办方的规则行事。主办方的评奖规则中怎么写,我们就对照这一条一条规则检查自己的作品是否都符合了要求。比如Chambers奖的规则描述是:
- 关于这些原则,如果参赛者能站在评委角度来考虑,肯定能为自己挣得不少分。也许有些作者软件写得很精妙,但缺少恰当的表现形式,所以就可能被埋没。记得有一位参赛者把自己三百多页的博士论文都发来了,满篇数学公式,想想如果自己是评委,看一篇博士论文的概率是多大呢?
- 包装很重要。由此又不得不说LaTeX与Word……呃,各位把本小子看作技术愤青的大人们,这真的不是技术问题,除非是Word高手,普通人用Word做出来的任何文档的排版质量跟LaTeX一比,评论只有两个字:垃圾。没得商量。LaTeX生产出来的论文,即使内容连垃圾都不如,其形式看起来也是正儿八经能唬住人的。拿着Word写的灰头土脸的PDF文档交上来,首先给人印象就是这童鞋以95%的概率不是高手,否则怎么连LaTeX都不会用呢。
The entries will be judged on a variety of dimensions, including the importance and relevance for statistical practice of the tasks performed by the software, ease of use, clarity of description, elegance and availability for use by the statistical community. Preference will be given to those entries that are grounded in software design rather than calculation.
最终评委的评分规则便根据三原则来:重要程度和与统计学的相关程度(多数作品都有很大的专业局限性,仅仅在自己的领域里针对某一特定模型写了软件包,不够通用,我也看不懂什么生物名词或天体物理名词)、创新和软件设计(想法是否足够新颖,没人做过当然最好,有人做过则要想想如何与众不同)、易用性和文档是否清楚(如果参赛者能多提供一些例子则会让评委更快了解你的软件,可以是录像、在线演示或动画、图形)。
再回头看本小子去年的申请,估计很大程度上得益于本小子的动画网站,以及每个动画函数下都有例子展示,评委不用动脑子去仔细研究函数的每一个参数怎么用,只需要端着咖啡看演示就可以了。另外,本小子处心积虑套用了John Chambers那句名言“To turn ideas into software, quickly and faithfully”(我把software换成了animations),这主要是为了体现软件包与统计学思想的联系,另一方面,一眼看去这和竞赛的主题切合得甚为紧密。
去年我在申请的时候还没接触到LyX,所以老老实实写LaTeX源代码然后老老实实编译,而且用的是和R News文章一样的字体(这也是评委之一Hadley常用的字体),呈上去给大佬们一看,嘿,眼熟,我看这小子和R有一定关系。
最后,这获奖者比其他选手还占一点优势,就是他在去年的JSM大会上做过Data Expo的poster,硕大的宣传板,我们三人都在那里看过,回头一想,脸熟啊。这一点呢,也和我去年类似,三位评委我见过两位,一位七分熟,一位三分熟(你煎牛排呢?),剩下一位未曾近距离接触,但我曾给他的一本书提过一处勘误。所以混圈子也是有用的。
这些不是告诉各位客官可以不劳而获或投机取巧,世上没那么多好事,而是用一个例子说明怎样小心地铺路,把自己能控制的因素都一步步做到最佳状态,剩下的事,或水到则渠成,或听天而由命……理想情况下,呔!手起刀落,砍他个人仰马翻。
最近评论