生活
生活闲言碎语
本来这篇流水账日志早就该发了,一直懒得写,放在草稿箱里已有一个月,还是拖出来简单写一写算鸟。正好开学前老板说,你娃儿去开了useR!会议,那开学第一周的组会上就你和Marie来说说你们的观察吧。于是乎,我又绞尽脑汁回忆了useR! 2010。
公元2010年7月19日凌晨3:45起床,搭租好的车从农村去机场,一小时后到达。路上看见天边电光闪闪,非常吓人,我心想完鸟,这飞机还能飞么?机场一路进去,木有任何延迟或取消航班的迹象,早上6点,按时起飞,我心里捏着一把汗。这机长也不是盖的,拖着飞机掉头就往没有闪电的方向飞,绕道去芝加哥,幸好菩萨及圣母保佑,平安到芝加哥ORD机场,大约40分钟后,搭下一班飞机去DC里根机场,算是故地重游。出机场又找预定好的车,开了一个小时才开到马里兰NIST,路上又经过那华盛顿纪念碑啊、林肯纪念堂啊、造币厂啊之类的地方,也不稀罕。
这次张翔张主席也从国内不远万里漂洋过海到NIST开会,我琢磨着他可能是唯一一个从中国大陆来的参会者,报名的人当中还有另一位兄弟似乎也要来,但后来不知为何掉链子了。张主席本来订好了租车,结果到了美帝,驾照上木有对应的英文翻译,于是也木有办法租车,而本小子至今还没学开车,那么就地铁公交加“11路”车,总之找到了旅馆。张主席到了NIST附近,没直接去旅馆,而是气定神闲找了家餐馆吃饭去了,我只好吭哧吭哧去找他吃饭。主席就是主席,也不是盖的,不拖箱子不拎包,而是整个登山包背着,连睡袋装备都有,那是相~昂~当的专业。
从农村去了城市,自然是不便,虽说是城里,NIST周围似乎也是鸟不拉屎地不长毛,找了家超市胡乱买些食物水果,回旅馆歇着。下面进入正题。
十年前Bill Venables在Exegeses on Linear Models中写道“SAS之于统计计算就像是微软之于个人计算”(但愿我的翻译是准确的),说得当然没错,现在SAS已经是“商业智能市场最大的独立厂商”(SAS的自我介绍)。不过Venables用“微软”这个比喻显然不是在夸奖SAS,接着看前面的PDF链接就知道了。去年11月SAS将一家叫WPL的公司告到伦敦高院,原因是“WPL违反SAS学习版的协议、对照SAS(的语法和结果)做了WPS软件的开发和测试工作”,今年7月出了初步结果,如我们能想象到的,天下公关大多一样:SAS和WPL两家公司都说自己打了胜仗。这让我对WPL也没什么好感,当然它也没办法,要不然产品没法卖了。
我不知道SAS学习版的版权是如何规定的,也不是法律人士,官司本身我无法评论。作为习惯开源软件的人(也就是脑子被“毒化”了的人),我个人对这种保护版权到极致的行为非常反感。WPL对照SAS进行开发,都会被起诉;现在的很多影音播放器在功能和界面上看起来都大同小异,是不是要互相起诉一番呢?我要是唱一首周什么伦的歌,他是不是也要告我学他呢?(当然我不会唱他的歌)用电影《十全九美》中那位钦差的话:“甚么浆糊啊?!注1……”
开源软件的哲学在于鼓励分享,为有能力改进程序的人提供机会(源代码),并保护这种分享在软件流通过程中不会被封闭。自由软件运动的发起人Richard Stallman有一个听起来很傻的例子:如果你的好朋友看见你的一个软件很好用,但是版权规定你不可以拷贝给他,你是要放弃友情还是违反版权呢?两件事情都很“邪恶”,显然你要选择相对不太邪恶的那种,也就是违反版权、把软件拷贝给你的朋友。(这是我对他在useR! 2010的演讲原话的翻译,听起来像个笑话,笑完之后想想,我们的确就是这么干的)
向往“透明”和“分享”是人类的天性,我们大多数人憎恨各种制度的不透明,憎恨专制,可是对软件却很宽容——只需要它能完成我的任务即可,管它开源闭源(部分包括我本人)。在很多方面,这确实也没什么,听歌看电影上网,谁管背后的软件是什么,只要好用就达到目的了。在休闲娱乐之外呢?有些人用了同样的想法:只要这个回归模型/结构方程模型能跑出来就行了,管它是怎么跑出来的。Stallman不喜欢Linux的创始人Torvalds,就是因为后者倾向于实用主义,而不顾开源的哲学。闭源软件的发展壮大就像滚雪球,不断积累人们的信任,因为对于闭源软件,除了信任,你无法做其它事情。有人要说了,你小子真是个怀疑狂,你要是不相信的话自己跑个回归对比一下结果呗!哈,听起来的确有道理,可是我跑哪个回归呢?这个回归对了下一个能对么?若回归是对的,主成分分析会不会有问题?就像P与NP问题,对闭源软件来说,验证每一条结果都很容易,但求解过程几乎不可能推出来。开源软件在bug问题上的做法看起来是违反常理的:自己的缺点怎么能公开呢?岂不是很难被人信任?事实也的确如此,开源软件的成功案例相比之下并不太多,人们对它敬而远之,其原因在我看来只不过是商业宣传的后果而已(看看周围的领导,有哪个在决定采购软件的时候不是看商业公司的影响力?)。
实际上我对自由软件的前景并不抱太乐观的态度,当然我觉得它肯定会存在并将长期存在下去(比社会主义初级阶段要长得多),但它很难真的强大起来。自由软件往往给普通百姓一种印象,就是“嘛?那都是黑客或编程疯子用的工具,我要算回归,干嘛不点按钮、非要写lm(y ~ x)”,这是个问题。如果你不够强大,你的声音就会被更大的声音淹没,正所谓人微言轻。Stallman的声音比起微软,不知道是不是小到可以忽略(加上他那样强硬的个性,有些人可能难以接受)。我的意思是,如果自由软件世界的人只关心程序本身,而不顾外部运作手段的话,是不会强大的。有时候我经常回忆我在08年到09年间在某咨询公司的一些见闻和体会,比如关于大局的“产业为本,战略为势,创意为魂,金融为器”或是关于个人的“忠诚心、信任度、专业力、江湖气”。就快要做爸爸的江堂兄(以后我们改称“虎娃/虎妞他爹”好了哈哈)以前连载了十几篇“男儿三十未封侯”,其实我脑子里也有那么点“封建思想”,不过“三十封侯”对绝大多数人来说已经是不可能的了(眼前本小子三十封没封PhD都没谱呢)。
呃,我说到哪儿了?……
——————————-
注1:WPS是WPL的一款软件产品,据其网站介绍,它同样能跑SAS代码,价钱不到SAS的十分之一,这次判决结果使得WPS还可以被(厚着脸皮?)卖三年,不知道SAS的大蛋糕会被咬掉多少,我估计不会对SAS有什么影响。
注2:这里的“甚”在原话中读作卷舌的“耸”,汉字中没有shong(三声),所以写不出来:shong么江湖啊。
注3:如果这里的读者有人阅读REvolution的博客的话,会发现他们那篇关于SAS和WPL文章显然偏向R,作为统计学家,却不把数字交待清楚,什么“一半被调查的人想转出SAS用别的软件”,典型的新闻噱头标题,其实挺没劲的,不知道算不算是为自己产品写的“软文”。
注4:开源从常理来讲本来就是吃亏的行为,但还是有人愿意贡献,而有些可耻的闭源软件却要违反GPL协议,明明使用了开源的成果,却不将开源部分的源代码公开,这里面包括QQ影音和暴风影音(使用了开源软件FFmpeg)。GPL协议的要求如此简单:你可以将开源软件用以商业用途,愿意怎么卖怎么卖,但前提是你必须把来自开源软件部分的源代码公开,不可以收入闭源软件隐藏起来(比如仅仅使用dll),不知道为什么有些软件连这么简单的要求都不能遵守。
最近有两则Joke(也就是娇客),觉得还挺好笑。一则是关于“祝诸葛藏藏生日快乐的”,我比较落伍,是先看到水木上这则笑话,再去Google的“诸葛藏藏”,建议不明真相的群众也按我的顺序看,效果更好。话说已经很久没看到有质量的冷笑话了。
另一则娇客呢,来自COS论坛一位统计界的武林至尊,要是依我以前的性子,肯定要好好调戏一番,这么大个论坛活宝,多难得,可遇不可求啊。不过现在本小子已经收敛很多了,安分守己,做个良民大大的,啊咂啊咂坏亭!
刚又Google了一下“诸葛藏藏”,发现我的日志排在第一页了,汗,感谢国家,感谢Google的照顾……后来回到有网络的世界,git push一下,就同步上网了,供各位客官公开下载(见于本站“作品”页面)。过了一阵子,领导的领导们看见了,觉得这样做有点不靠谱。再过了一阵子,又有好几个人建议我不要放出来公开下载。我呢,也绝非来自石器时代、对“世风日下人心不古”一无所知,佛曰“我不下地狱那哪个来下地狱呢?”佛敢下地狱,那是因为他是佛,是佛又咋地?佛有核心竞争力啊。现在这个忙碌年代,我们(别人)想尽办法折腾别人(我们),折腾的途径就是评价。网站不看内容要看备案,活人不看要看KPI,百姓生活不看要看GDP……而混学界的人就得靠著作来评价,于是使出浑身解数去发表,自己努力也好,坑蒙拐骗也好。我这样赤果果把作品放在网上供任何人下载,说出来真是一件很恐怖的事情,娘亲呐,多少豺狼虎豹盯着呢。
本来想继续扯到李一、马云等人,似乎有点扯远了,我是在想像马云这样伟大的宗教领袖式人物为何需要道教思想的支撑。俺们这个时代的人,真的越来越没底气了?打住打住。
最后我接受了腾飞的意见,把原本公开的书稿撤下来了。倒不是怕盗版抄袭,主要是一本不完整的书稿,对读者似乎不是一件好事,等正式完成之后,再集中发给大家提意见,这样效用会大一些;再想一想,出版之前公开下载也会对出版社带来一些麻烦,于是撤销下载。当然,目前我仍然内部开放书稿,我熟悉放心的人以及答应我在COS论坛帮别人回答图形方面100帖的人(鼓励为别人做贡献的人),皆可获得我的书稿。这本书的目录部分可以公开浏览:
各位客官若有任何建议,请随时与我联系,我会在完稿前尽量多采纳读者的意见。
—————————————
注1:平民老百姓。
第三次去钓鱼,为了节省蚯蚓,就用了上次用过的蚯蚓,结果可能因为不新鲜的缘故,没有鱼来咬。又是熬了两三个小时,差点被蚊子抬走,这湖边从晚上八点开始,蚊子就乌泱乌泱的,第二次钓鱼被咬了五十多个包,这次不敢呆久,赶紧收拾家伙回家。因为站了太久想运动运动,于是决定朝湖的另一边绕圈骑回家,结果没走多远就发现路当中有个黑乎乎的东西,我就犹豫着要不要下车去看看,最终还是决定回去仔细看看。当时天已经黑得快看不清了,那团黑乎乎的东西原来是只巨大的乌龟。我滴个亲娘啊,本小子这是第一次在路上看到活乌龟(这美帝就像个动物园啥都有),那乌龟看起来有把年纪了。操起电话请示领导,得到指示“活捉回来”,好嘛,拿着塑料袋上前去套它,结果……结果被这乌龟吓了一大跳!这龟老大本来在路上伸开四脚趴着,见我前来就把脚收回去了,在我靠近它的时候,它一直张着血盆大嘴冲我龇牙,我心里有点发毛(提示:天已经黑得差不多了,在路上遇到这么个怪物),乌龟急了大概也咬人吧……继续接近,结果那龟老大猛然跳起来,这个动作可是把我吓得不轻,要不是路还算宽,我都被吓到湖里去了。最后落荒而逃。噫,这胆量……人都用“乌龟胆子”来形容胆小,老夫这次算是比乌龟胆子还小了。
第四次去钓鱼是今天的事情,这几天Ames发洪水,湖里水位也涨了很多,前天晚上去湖边视察了一下,发现湖边的路有多处被淹,有下图为证:车到水前疑无路。
今天过去换了新鲜蚯蚓,不到20分钟就钓到一条大鲶鱼,我费了老半天劲才把这家伙拽上来,各位客官看鱼竿的弯曲程度就知道了(由于本图中渔夫是配角,所以隐去)。接着和这条鱼斗争了半天才把鱼钩取出来——它把钩吞得太深了,在岸上又拼命挣扎。
明天准备烤鱼。善哉善哉……
有阵子没更新了,五月初回国,先是办群众大学里一些没办完的手续,然后是签证,再是结婚,火车一趟又一趟满地跑,好在最后基本搞定了要办的事情,回美国没两天,又去马里兰开useR! 2010会议,飞机上搬着指头一数,从第一次飞德国算起,一共坐了22次飞机,阿弥陀佛。现在回到大农村尘埃落定,该补的废话都可以补上了,按时间序一篇一篇来,先说群众大学的毕业论文。
今年年初的张磊给耶鲁捐款的事件想必各位客官都已经听说,张磊乃我中国群众大学毕业生,历尽千辛万苦从这个官僚机构到了耶鲁,享受了美帝的各种优厚待遇,二者一对比,就不难理解为何能给耶鲁如此巨额回馈。本小子对群众大学的小领导阶层也是非常不满意,所谓小领导,就是看着像个领导实际上只是办事员(诸如盖章的、审核材料的),这一群体实在是很难对付,虽然不是大领导,但掌握着学生的生杀大权,这就让人没办法了。这一群体的典型代表就是研究僧院,按理说,研究生应该是最具创新思想的学生群体,但那研究僧院你走进去在楼道里简直都能闻到迂腐味。拿这硕博毕业论文的格式规定来说(地址),首先这格式显然是按Micro$oft Word的“标准”来规定的,比如“固定行间距20pt”,我等LaTeX顽固分子当然对此颇有微辞;其次这格式规定本身也体现了格式制定者本人的某些特征,比如规定正文用小四号字,我想知道世界上还有哪本正式期刊会用这么大的字排版,对此我的解释只有一点:领导爱看大字;至于每一页的页眉都雷同这一点,更是迂腐,LaTeX本身经过简单的设置,可以让每一页的页眉都显示相应章节的小标题,这样对读者来说导航更方便,而由于Word本身的白痴(不是不可实现),活活让打印机浪费了墨水。
这些问题我试图去争论和解释,可是根本没有任何结果。我向学院一位常用LaTeX的老师反映了一下,也是劝我按那些规定行事,曰:“Word能做到的LaTeX都能做到!”我有句话在心里想了想,还是没说出来:“LaTeX实在是难以做到Word那么丑!”注1
过了些日子,本小子又听到另外一件事情,更加让我对这些论文格式制定者以及某些机构的迂腐无言以对。我们优秀的本科毕业生左辰sama,在学识上大家有目共睹,本来论文被选为优秀毕业论文,最后却因为论文不是用Word写的(很不幸又是LaTeX)、而“优秀论文”必须被建议应该是Word格式而放弃延迟了评奖。这种蠢事都能在群众大学发生,让我们说些什么好呢?
本小子在群众大学办的最后一道手续是退宿舍,就这么简单一件事情,那宿舍管理科的小领导愣是让我来回跑了三次,先是去了要求我到学院开证明盖章说我的确要离开(其实看毕业证就行了)、到宿舍管楼的阿姨那里写证明签字我的确是住在那栋楼里(你拿我的学生证在你面前的系统上查一下不就行了)、办完手续还要拿着他们的一张没有盖章没有签字的破纸到财务处通知他们(学校的管理系统就烂成这样:高速网络系统的结果是需要不断的人工跑腿)。本小子在这里从不写“中国人民大学”字样,就是因为不知道所谓的“人民、人本、人文”在哪里,我们都是群众,不是人民。
作为群众大学的毕业生,本小子对群大真难有什么感情,这话不是过河拆桥,本小子仅对统计学院有深厚感情,像这些年林老太太的关心、赵老师的指导等,那是不能忘的。
-------------------
注1:我看过的LaTeX生成的PDF文章中,可能有一篇真的比Word文档难看,真是可惜了(念liao三声)儿了,作者花了这么大功夫去写了一千多页,却没利用好LaTeX的排版功能。
写下这个标题,想起《孟子》中有一句“吾昏”,也许是现代版“我晕”的起源……
曰:“然則小固不可以敵大,寡固不可以敵眾,弱固不可以敵彊。海內之地方千里者九,齊集有其一。以一服八,何以異於鄒敵楚哉?蓋亦反其本矣。今王發政施仁,使天下仕者皆欲立於王之朝,耕者皆欲耕於王之野,商賈皆欲藏於王之市,行旅皆欲出於王之塗,天下之欲疾其君者皆欲赴愬於王。其若是,孰能禦之?”
王曰:“吾惛,不能進於是矣。願夫子輔吾志,明以教我。我雖不敏,請嘗試之。”
跑题完毕。由于现在有若干不明真相的群众短信询问,现特地昭告一下:吾今日下午婚了。本事件纯属临时安排,吾昨日抵京,明日离京,行程如同打仗。该给各位客官的东西只能他日再补。钦此~~
先说培训。若一切顺利,我们将在6月14日进行第三届中国R语言会议的会前培训,暂定由刘思喆和我来讲。本次培训计划上下午各3小时,培训费用=R的费用(即:free as in beer)。我的计划如下:
下载:幻灯片《现代统计图形》 培训时间:2010年6月14日下午2:00至5:00培训目标:1、了解图形的构成元素,初级用户可以知道作图的诸多可能性,高级用户可以任意自定义图形;2、了解统计图形的基本类型和适用情形,跳出单调的“饼图+条形图+折线图”的范围;3、了解R的四种图形系统,即基础图形系统、grid、 lattice和ggplot2;4、学会用图形辅助模型去探索和分析数据;5、了解其它靠谱或不靠谱的应用,如统计动画和交互式动态图形
培训内容:R语言是统计计算和统计作图的强有力工具,本次培训着重介绍后者,内容包括:对统计图形历史的简要回顾,说明统计图形的功能(约5分钟);介绍R语言的基础图形系统的基本构成,包括各种图形参数和基本图形元素(约40分钟);介绍R自身的 graphics包中的各种统计图形函数,包括直方图、等高线图、散点图矩阵等(约1小时);R附加包中的各种图形函数,包括地图、脸谱图、平行坐标图等(约20分钟);R的其它三种图形系统:grid、lattice和ggplot2(约20分钟);基于统计模型的图形应用,包括回归模型、主成分分析、光滑方法、分类与回归树等(约25分钟);其它图形应用,包括动画和交互式图形等(约10分钟)。本次培训的大纲主要遵循本人正在编写的《现代统计图形》一书,该书的不完整书稿可以从这里下载:http://yihui.name/cn/publication/
适合听众:推荐以下四类听众前来听课(1)英语阅读能力较好,对编程感兴趣(2)公司企业的数据分析人员,尤其是咨询公司(3)教数据分析相关课程的高校老师(4)领导的秘书
不适合听众:本培训为实用性质的培训,可能不适合以发表学术论文为目标的听众,统计图形看似过于浅显,在统计学术界非主流研究方向
话说今早起来,收到一封群发邮件,名曰“菜谱之葵花宝典”,我兴冲冲打开一看,哪妮?!这些个菜啷个儿看着这么眼熟呢?鼠标一拖到底,附件名赫然是“谢益辉的菜谱.doc”……再扳着指头一数抄送名单,四十来口人。顿时昏厥过去。
本来领导不在家,懒得做饭,看这邮件之后两股战战,老老实实按菜谱做了顿饭。
做饭这事呢,在忙碌的时候是一种很好的休息方式,让你珍爱生命远离键盘,闲暇时反而没有兴趣。那643的期末考试考得简直让人万念俱灰,求生不得求死不能,高度紧张之后突然一放松,瘫在家里看了两天儿时的武侠片,都一把年纪了,还看那些鬼打架的老片子,说出来好像挺丢人的,不过呢,经典就是经典,现在的片子,重特技而不重人情,拼力量而不拼道义,看着大同小异,个个都是缩水的神仙。
2009年春,吾师王丰点评牛年十大事件,以一支股票开篇,对吾辈提出“三力”期望,即“知觉力、判断力、行动力”。这三力是我时常在心里琢磨的事情,王丰老大是个聪明绝顶的人,他点出这三力,应该也是他自己的经验总结。我等小辈要练就这等功力,恐怕是冰冻三尺非一日之寒。近日几点小事,让我再次联想起这三力。
先说这知觉力。老大讲的是中兵光电,这种股价暴涨的机会可能遍地都是,但不是每个人都看得到。现代人一个个都越来越忙,越是忙越是急功近利,越是无法练就知觉力。前日看到一则消息,很是有趣。华盛顿邮报于2007年做了个试验,让著名的小提琴演奏家Joshua Bell在DC的一个地铁口演奏,45分钟过去了,1097个匆匆过客中只有7个人停下来听,27个过客给了他32.17美元(其中一个认出了他,给了$20),而在两周前,Bell同样是演奏——只不过地点是在音乐厅——票价$100却让人疯抢。这篇文章的作者后来获了普利策奖。说你浮躁没眼力你还不信么?或曰:爷听的不是音乐,是**。【华盛顿邮报原文】
再说这判断力。现在信息爆炸,炸得谁都不知道真相是什么,大家也不愿意费力去判断,或许这就是这几年出现无数的“**门”事件的原因吧,一有风吹草动,大家就开始声讨、掐架、跟风、膜拜。去年一篇孙振耀退休感言被广为转载,当时我没太在意,近日这文章又被转到邮箱里来,于是操起鼠标看了一遍,当我看到文中这样的字句时,心里极为怀疑这是不是他本人写的:
……天涯上愤怒的人很多,你有没有想过,你为什么不快乐?你为什么愤怒?……
……当初微软有个唐骏,很多大学里的年轻人觉得这才是他们向往的职业生涯,我在清华bbs里发的帖子被这些学子们所不屑。……
……“很多事情就像看A片,看的人觉得很爽,做的人未必。”……
惠普中国的CEO会写出这样的话么?这年头CEO都上天涯看痴男怨女?还在清华BBS发帖?作为退休感言,他引用什么话都可以,他会无聊到引用看A片这样的话来作为论据?这篇文章,就是《心灵老鸭汤》(武林外传语)或《读者》风格,肯定不会出自CEO之手。给不明真相的群众看看倒也无妨,但我认为这文章讲的道理一点都体现不出他本人的水准。【真相】
最后说行动力。第三届中国R语言会议,即将登场,这一片“况且况且况况且”中,啥都不缺,最缺行动力,我们将重任交托给潘岚锋,这担子不轻,咱拭目以待。兵马不少,看将领怎么调配了。这行动力,说起来轻巧,做起来万般艰难。(剧透:本届R会议有些低年级本科小盆友想参与组织,本小子前几天得知有本小子的一位明星本家,善哉善哉,真是天上掉下个形象大使,唔哈哈哈)





近期评论