本来这篇流水账日志早就该发了,一直懒得写,放在草稿箱里已有一个月,还是拖出来简单写一写算鸟。正好开学前老板说,你娃儿去开了useR!会议,那开学第一周的组会上就你和Marie来说说你们的观察吧。于是乎,我又绞尽脑汁回忆了useR! 2010。
公元2010年7月19日凌晨3:45起床,搭租好的车从农村去机场,一小时后到达。路上看见天边电光闪闪,非常吓人,我心想完鸟,这飞机还能飞么?机场一路进去,木有任何延迟或取消航班的迹象,早上6点,按时起飞,我心里捏着一把汗。这机长也不是盖的,拖着飞机掉头就往没有闪电的方向飞,绕道去芝加哥,幸好菩萨及圣母保佑,平安到芝加哥ORD机场,大约40分钟后,搭下一班飞机去DC里根机场,算是故地重游。出机场又找预定好的车,开了一个小时才开到马里兰NIST,路上又经过那华盛顿纪念碑啊、林肯纪念堂啊、造币厂啊之类的地方,也不稀罕。
这次张翔张主席也从国内不远万里漂洋过海到NIST开会,我琢磨着他可能是唯一一个从中国大陆来的参会者,报名的人当中还有另一位兄弟似乎也要来,但后来不知为何掉链子了。张主席本来订好了租车,结果到了美帝,驾照上木有对应的英文翻译,于是也木有办法租车,而本小子至今还没学开车,那么就地铁公交加“11路”车,总之找到了旅馆。张主席到了NIST附近,没直接去旅馆,而是气定神闲找了家餐馆吃饭去了,我只好吭哧吭哧去找他吃饭。主席就是主席,也不是盖的,不拖箱子不拎包,而是整个登山包背着,连睡袋装备都有,那是相~昂~当的专业。
从农村去了城市,自然是不便,虽说是城里,NIST周围似乎也是鸟不拉屎地不长毛,找了家超市胡乱买些食物水果,回旅馆歇着。下面进入正题。
十年前Bill Venables在Exegeses on Linear Models中写道“SAS之于统计计算就像是微软之于个人计算”(但愿我的翻译是准确的),说得当然没错,现在SAS已经是“商业智能市场最大的独立厂商”(SAS的自我介绍)。不过Venables用“微软”这个比喻显然不是在夸奖SAS,接着看前面的PDF链接就知道了。去年11月SAS将一家叫WPL的公司告到伦敦高院,原因是“WPL违反SAS学习版的协议、对照SAS(的语法和结果)做了WPS软件的开发和测试工作”,今年7月出了初步结果,如我们能想象到的,天下公关大多一样:SAS和WPL两家公司都说自己打了胜仗。这让我对WPL也没什么好感,当然它也没办法,要不然产品没法卖了。
我不知道SAS学习版的版权是如何规定的,也不是法律人士,官司本身我无法评论。作为习惯开源软件的人(也就是脑子被“毒化”了的人),我个人对这种保护版权到极致的行为非常反感。WPL对照SAS进行开发,都会被起诉;现在的很多影音播放器在功能和界面上看起来都大同小异,是不是要互相起诉一番呢?我要是唱一首周什么伦的歌,他是不是也要告我学他呢?(当然我不会唱他的歌)用电影《十全九美》中那位钦差的话:“甚么浆糊啊?!注1……”
开源软件的哲学在于鼓励分享,为有能力改进程序的人提供机会(源代码),并保护这种分享在软件流通过程中不会被封闭。自由软件运动的发起人Richard Stallman有一个听起来很傻的例子:如果你的好朋友看见你的一个软件很好用,但是版权规定你不可以拷贝给他,你是要放弃友情还是违反版权呢?两件事情都很“邪恶”,显然你要选择相对不太邪恶的那种,也就是违反版权、把软件拷贝给你的朋友。(这是我对他在useR! 2010的演讲原话的翻译,听起来像个笑话,笑完之后想想,我们的确就是这么干的)
向往“透明”和“分享”是人类的天性,我们大多数人憎恨各种制度的不透明,憎恨专制,可是对软件却很宽容——只需要它能完成我的任务即可,管它开源闭源(部分包括我本人)。在很多方面,这确实也没什么,听歌看电影上网,谁管背后的软件是什么,只要好用就达到目的了。在休闲娱乐之外呢?有些人用了同样的想法:只要这个回归模型/结构方程模型能跑出来就行了,管它是怎么跑出来的。Stallman不喜欢Linux的创始人Torvalds,就是因为后者倾向于实用主义,而不顾开源的哲学。闭源软件的发展壮大就像滚雪球,不断积累人们的信任,因为对于闭源软件,除了信任,你无法做其它事情。有人要说了,你小子真是个怀疑狂,你要是不相信的话自己跑个回归对比一下结果呗!哈,听起来的确有道理,可是我跑哪个回归呢?这个回归对了下一个能对么?若回归是对的,主成分分析会不会有问题?就像P与NP问题,对闭源软件来说,验证每一条结果都很容易,但求解过程几乎不可能推出来。开源软件在bug问题上的做法看起来是违反常理的:自己的缺点怎么能公开呢?岂不是很难被人信任?事实也的确如此,开源软件的成功案例相比之下并不太多,人们对它敬而远之,其原因在我看来只不过是商业宣传的后果而已(看看周围的领导,有哪个在决定采购软件的时候不是看商业公司的影响力?)。
实际上我对自由软件的前景并不抱太乐观的态度,当然我觉得它肯定会存在并将长期存在下去(比社会主义初级阶段要长得多),但它很难真的强大起来。自由软件往往给普通百姓一种印象,就是“嘛?那都是黑客或编程疯子用的工具,我要算回归,干嘛不点按钮、非要写lm(y ~ x)”,这是个问题。如果你不够强大,你的声音就会被更大的声音淹没,正所谓人微言轻。Stallman的声音比起微软,不知道是不是小到可以忽略(加上他那样强硬的个性,有些人可能难以接受)。我的意思是,如果自由软件世界的人只关心程序本身,而不顾外部运作手段的话,是不会强大的。有时候我经常回忆我在08年到09年间在某咨询公司的一些见闻和体会,比如关于大局的“产业为本,战略为势,创意为魂,金融为器”或是关于个人的“忠诚心、信任度、专业力、江湖气”。就快要做爸爸的江堂兄(以后我们改称“虎娃/虎妞他爹”好了哈哈)以前连载了十几篇“男儿三十未封侯”,其实我脑子里也有那么点“封建思想”,不过“三十封侯”对绝大多数人来说已经是不可能的了(眼前本小子三十封没封PhD都没谱呢)。
呃,我说到哪儿了?……
——————————-
注1:WPS是WPL的一款软件产品,据其网站介绍,它同样能跑SAS代码,价钱不到SAS的十分之一,这次判决结果使得WPS还可以被(厚着脸皮?)卖三年,不知道SAS的大蛋糕会被咬掉多少,我估计不会对SAS有什么影响。
注2:这里的“甚”在原话中读作卷舌的“耸”,汉字中没有shong(三声),所以写不出来:shong么江湖啊。
注3:如果这里的读者有人阅读REvolution的博客的话,会发现他们那篇关于SAS和WPL文章显然偏向R,作为统计学家,却不把数字交待清楚,什么“一半被调查的人想转出SAS用别的软件”,典型的新闻噱头标题,其实挺没劲的,不知道算不算是为自己产品写的“软文”。
注4:开源从常理来讲本来就是吃亏的行为,但还是有人愿意贡献,而有些可耻的闭源软件却要违反GPL协议,明明使用了开源的成果,却不将开源部分的源代码公开,这里面包括QQ影音和暴风影音(使用了开源软件FFmpeg)。GPL协议的要求如此简单:你可以将开源软件用以商业用途,愿意怎么卖怎么卖,但前提是你必须把来自开源软件部分的源代码公开,不可以收入闭源软件隐藏起来(比如仅仅使用dll),不知道为什么有些软件连这么简单的要求都不能遵守。
最近有两则Joke(也就是娇客),觉得还挺好笑。一则是关于“祝诸葛藏藏生日快乐的”,我比较落伍,是先看到水木上这则笑话,再去Google的“诸葛藏藏”,建议不明真相的群众也按我的顺序看,效果更好。话说已经很久没看到有质量的冷笑话了。
另一则娇客呢,来自COS论坛一位统计界的武林至尊,要是依我以前的性子,肯定要好好调戏一番,这么大个论坛活宝,多难得,可遇不可求啊。不过现在本小子已经收敛很多了,安分守己,做个良民大大的,啊咂啊咂坏亭!
刚又Google了一下“诸葛藏藏”,发现我的日志排在第一页了,汗,感谢国家,感谢Google的照顾……后来回到有网络的世界,git push一下,就同步上网了,供各位客官公开下载(见于本站“作品”页面)。过了一阵子,领导的领导们看见了,觉得这样做有点不靠谱。再过了一阵子,又有好几个人建议我不要放出来公开下载。我呢,也绝非来自石器时代、对“世风日下人心不古”一无所知,佛曰“我不下地狱那哪个来下地狱呢?”佛敢下地狱,那是因为他是佛,是佛又咋地?佛有核心竞争力啊。现在这个忙碌年代,我们(别人)想尽办法折腾别人(我们),折腾的途径就是评价。网站不看内容要看备案,活人不看要看KPI,百姓生活不看要看GDP……而混学界的人就得靠著作来评价,于是使出浑身解数去发表,自己努力也好,坑蒙拐骗也好。我这样赤果果把作品放在网上供任何人下载,说出来真是一件很恐怖的事情,娘亲呐,多少豺狼虎豹盯着呢。
本来想继续扯到李一、马云等人,似乎有点扯远了,我是在想像马云这样伟大的宗教领袖式人物为何需要道教思想的支撑。俺们这个时代的人,真的越来越没底气了?打住打住。
最后我接受了腾飞的意见,把原本公开的书稿撤下来了。倒不是怕盗版抄袭,主要是一本不完整的书稿,对读者似乎不是一件好事,等正式完成之后,再集中发给大家提意见,这样效用会大一些;再想一想,出版之前公开下载也会对出版社带来一些麻烦,于是撤销下载。当然,目前我仍然内部开放书稿,我熟悉放心的人以及答应我在COS论坛帮别人回答图形方面100帖的人(鼓励为别人做贡献的人),皆可获得我的书稿。这本书的目录部分可以公开浏览:
各位客官若有任何建议,请随时与我联系,我会在完稿前尽量多采纳读者的意见。
—————————————
注1:平民老百姓。
不夸张地说,我看过的几乎所有人的beamer幻灯片都有一个明显的问题:图形和表格的编号缺失了。也就是它们看起来是这样:
Figure: 标题内容
或者
Table: 标题内容
在(挑剔的)我看来,这是难以容忍的缺陷。图表怎么能没有编号呢?既不好看,又不方便交叉引用。beamer自身默认图表是没有编号的,如果需要把编号调出来,只需要在导言区加上:
\setbeamertemplate{caption}[numbered]
第三次去钓鱼,为了节省蚯蚓,就用了上次用过的蚯蚓,结果可能因为不新鲜的缘故,没有鱼来咬。又是熬了两三个小时,差点被蚊子抬走,这湖边从晚上八点开始,蚊子就乌泱乌泱的,第二次钓鱼被咬了五十多个包,这次不敢呆久,赶紧收拾家伙回家。因为站了太久想运动运动,于是决定朝湖的另一边绕圈骑回家,结果没走多远就发现路当中有个黑乎乎的东西,我就犹豫着要不要下车去看看,最终还是决定回去仔细看看。当时天已经黑得快看不清了,那团黑乎乎的东西原来是只巨大的乌龟。我滴个亲娘啊,本小子这是第一次在路上看到活乌龟(这美帝就像个动物园啥都有),那乌龟看起来有把年纪了。操起电话请示领导,得到指示“活捉回来”,好嘛,拿着塑料袋上前去套它,结果……结果被这乌龟吓了一大跳!这龟老大本来在路上伸开四脚趴着,见我前来就把脚收回去了,在我靠近它的时候,它一直张着血盆大嘴冲我龇牙,我心里有点发毛(提示:天已经黑得差不多了,在路上遇到这么个怪物),乌龟急了大概也咬人吧……继续接近,结果那龟老大猛然跳起来,这个动作可是把我吓得不轻,要不是路还算宽,我都被吓到湖里去了。最后落荒而逃。噫,这胆量……人都用“乌龟胆子”来形容胆小,老夫这次算是比乌龟胆子还小了。
第四次去钓鱼是今天的事情,这几天Ames发洪水,湖里水位也涨了很多,前天晚上去湖边视察了一下,发现湖边的路有多处被淹,有下图为证:车到水前疑无路。
今天过去换了新鲜蚯蚓,不到20分钟就钓到一条大鲶鱼,我费了老半天劲才把这家伙拽上来,各位客官看鱼竿的弯曲程度就知道了(由于本图中渔夫是配角,所以隐去)。接着和这条鱼斗争了半天才把鱼钩取出来——它把钩吞得太深了,在岸上又拼命挣扎。
明天准备烤鱼。善哉善哉……
我第一天讲的统计图形讲稿后来已经更新传上来了,由于麦克风的不平稳性,估计很多人都没听清我在说什么,不过这也没啥,因为我讲的内容都已经出现在我的《现代统计图形》书稿中了,想要详细了解的读者可以去作品页面中下载不完整的书稿。第二天的演讲幻灯片和代码也都发布在统计之都上的第三届中国R语言会议纪要中了。
尽管中国R语言会议还未形成燎原之势,但八卦的R core们其实还是在偷偷关注的。我这次去马里兰NIST参加useR! 2010找机会又跟Martin Machaeler提了提我们的“山寨会议”,这位老大一边摆弄着手里的Emacs一边听我忽悠,到最后走出会场我才发现他其实没有真正想起来我是谁,因为他最后猛然想起来R Journal上貌似有一篇中国R会议的报道……老大们表示他们个人还是很有兴趣去一趟中国的,不过要把这三四百观众都带去恐怕有点困难,路费啊签证啊都麻烦。所以呢,我们下次可以考虑请一些有影响力的R core们去中国,办一届英文会议也未尝不可。
回头来看,这次会议的主要问题还是准备仓促(难道是我留下的病根?),收到的演讲不够覆盖R的功能;其次就是交流时间不够,没有有意制造足够的交流机会,当然这与会议时间长度有关,但会议日程安排上应该可以改进,用制度促进交流;最后,会议的产出也不明确,有个出版相关的小组就好了,即使不出版,发表在COS主站上也好,开完会就散伙,可惜了儿了。回头再线下商量。
会议T恤是这次会议的一个小亮点,下次要保持。顺便附图一张:某童鞋把这次R语言会议的T恤穿到了美帝农村钓鱼(其实一条鱼都没钓到)。
下期预告:《现代统计图形》书稿。这两天忙着搬家,估计要等几天了。
这论文呢,自我评价可以给个80分。最大的问题在于没有花时间去整理文章的结构,所以构架上稍微有点散乱(俗称“意识流”)。内容上熟悉我的博客的客官一眼就能看出来,其实都是些博客文章的汇总,只不过用LaTeX让它们变得“人模狗样”一些而已,好在本小子平时也积攒了这些鸡零狗碎的东西,动过自己的脑子。我觉得群众大学的毕业论文,很多都是一个套路:经济/金融数据套一个神奇的模型,直到最后整个世界一片和谐,读者在最后一章都能隐约看到上帝老爷子在朝你挥手。其实也没啥,找工作不容易,地球人也都知道写论文就是忽悠——漫漫人生路上一道工序。
由于本小子是个小人(小小的活人),所以总关心小人关心的事情(俗称“人本主义”)。这论文嘛,窃以为也没什么上下高低之分,说出你怎么想的就可以了,而不要总说“他们”怎么想怎么做。一定要有数学上的创新?一定要有人家看不懂的公式才是好论文?一定要有综述?一定要有长长的参考文献列表才是好论文?一定要板起脸?不能写八卦?不准幽默?……嗨,作茧自缚。几年前看到一篇好文章,颇具恶搞性质,建议各位客官收藏:How to write Consistently Boring Scientific Literature。
言归正传:本文是厌倦八股文和数学理论的产物,从理论角度来说,几乎没什么价值,不过这篇文章是用Sweave写的,完全具有可重复性和100%透明度,对文中结果有怀疑的客官可以自行运行代码;其次,统计模拟和图形的声音在界内太微弱,大家都很忙,有人在忙着推公式,有人在忙着编数据,有人在忙着把公式用到不知道是不是编出来的数据上,本小子跟着瞎掺和了点别的东西,仅此而已。甭管有用没用,敬请拍砖。
----------外一篇:坛霸是怎样练成的----------
曾经有童鞋称呼在下为“坛霸”,这个……有时候确实有那么点意思,无图无真相(两个多月没怎么回帖了,一鼓作气):
接下来我会陆续写第三届中国R语言会议、《现代统计图形》书稿和useR! 2010,若时间允许,我考虑一下电视剧《九阴真经》(93版)。
有阵子没更新了,五月初回国,先是办群众大学里一些没办完的手续,然后是签证,再是结婚,火车一趟又一趟满地跑,好在最后基本搞定了要办的事情,回美国没两天,又去马里兰开useR! 2010会议,飞机上搬着指头一数,从第一次飞德国算起,一共坐了22次飞机,阿弥陀佛。现在回到大农村尘埃落定,该补的废话都可以补上了,按时间序一篇一篇来,先说群众大学的毕业论文。
今年年初的张磊给耶鲁捐款的事件想必各位客官都已经听说,张磊乃我中国群众大学毕业生,历尽千辛万苦从这个官僚机构到了耶鲁,享受了美帝的各种优厚待遇,二者一对比,就不难理解为何能给耶鲁如此巨额回馈。本小子对群众大学的小领导阶层也是非常不满意,所谓小领导,就是看着像个领导实际上只是办事员(诸如盖章的、审核材料的),这一群体实在是很难对付,虽然不是大领导,但掌握着学生的生杀大权,这就让人没办法了。这一群体的典型代表就是研究僧院,按理说,研究生应该是最具创新思想的学生群体,但那研究僧院你走进去在楼道里简直都能闻到迂腐味。拿这硕博毕业论文的格式规定来说(地址),首先这格式显然是按Micro$oft Word的“标准”来规定的,比如“固定行间距20pt”,我等LaTeX顽固分子当然对此颇有微辞;其次这格式规定本身也体现了格式制定者本人的某些特征,比如规定正文用小四号字,我想知道世界上还有哪本正式期刊会用这么大的字排版,对此我的解释只有一点:领导爱看大字;至于每一页的页眉都雷同这一点,更是迂腐,LaTeX本身经过简单的设置,可以让每一页的页眉都显示相应章节的小标题,这样对读者来说导航更方便,而由于Word本身的白痴(不是不可实现),活活让打印机浪费了墨水。
这些问题我试图去争论和解释,可是根本没有任何结果。我向学院一位常用LaTeX的老师反映了一下,也是劝我按那些规定行事,曰:“Word能做到的LaTeX都能做到!”我有句话在心里想了想,还是没说出来:“LaTeX实在是难以做到Word那么丑!”注1
过了些日子,本小子又听到另外一件事情,更加让我对这些论文格式制定者以及某些机构的迂腐无言以对。我们优秀的本科毕业生左辰sama,在学识上大家有目共睹,本来论文被选为优秀毕业论文,最后却因为论文不是用Word写的(很不幸又是LaTeX)、而“优秀论文”必须被建议应该是Word格式而放弃延迟了评奖。这种蠢事都能在群众大学发生,让我们说些什么好呢?
本小子在群众大学办的最后一道手续是退宿舍,就这么简单一件事情,那宿舍管理科的小领导愣是让我来回跑了三次,先是去了要求我到学院开证明盖章说我的确要离开(其实看毕业证就行了)、到宿舍管楼的阿姨那里写证明签字我的确是住在那栋楼里(你拿我的学生证在你面前的系统上查一下不就行了)、办完手续还要拿着他们的一张没有盖章没有签字的破纸到财务处通知他们(学校的管理系统就烂成这样:高速网络系统的结果是需要不断的人工跑腿)。本小子在这里从不写“中国人民大学”字样,就是因为不知道所谓的“人民、人本、人文”在哪里,我们都是群众,不是人民。
作为群众大学的毕业生,本小子对群大真难有什么感情,这话不是过河拆桥,本小子仅对统计学院有深厚感情,像这些年林老太太的关心、赵老师的指导等,那是不能忘的。
-------------------
注1:我看过的LaTeX生成的PDF文章中,可能有一篇真的比Word文档难看,真是可惜了(念liao三声)儿了,作者花了这么大功夫去写了一千多页,却没利用好LaTeX的排版功能。








近期评论