纽约Strata及新泽西AT&T之旅

上周在外面跑了一周,先去了一趟纽约参加O’Reilly组织的Strata会议,接着去新泽西拜访了AT&T实验室,总体来说是一次不错的旅行,不过因为溜达了一周,回来自然又要处理很多事情,这里暂时不详细写行程,只是打个草稿,过一两周我会在统计之都主站上详细介绍Strata。

Strata会议主题为大数据,持续一周五天时间,我只参加了峰会(summit)部分,在它之前有一天热身(jumpstart),之后有两天偏重具体技术性的会议,而中间这两天则相对比较抽象,有些报告我听完感觉就像主席讲话——字字都能听懂,但就是不知道在说什么。峰会自然请的都是大佬,例如英国卫报的编辑,经济学人的编辑,Wolfram的老总,从DC远程视频连线的国会议员,联合国官员,纽约市官员,还有大批公司头目等等。这样一个会议我去了简直是个离群点,很少见学术界人士出现,更不必说学生了;关于此事,有笑话为证——有一个主持人在介绍下一位演讲者的时候讲了个笑话,但是几乎没有人笑,他说:

1010(下一个演讲的公司的名称)你可以认为是ten ten,也可以认为是ten,取决于你用十进制还是二进制。

不知道是太冷了,还是听众都没听懂。

据我有限的笔记和记忆,先简单罗列部分观察:

  • Wolfram是个很有技术范儿的公司(后来我去AT&T进一步证实了这一点),“让知识变得可计算”
  • 联合国官员说,俺们需要您的帮助,大意是想通过更先进更现代的数据处理技术更快掌握信息,如通过Twitter了解饥荒和动乱(动乱还有点谱,饥荒有谱吗?吃不饱饭的人还能上Twitter?)
  • 有法学院教授呼吁提供更多的匿名化处理之后的数据,不要总是把数据藏着掖着
  • GE的人宣称他们就快要公布一大批患者数据了(当然是匿名化处理之后的),对搞数据分析的人来说是个好机会
  • 1010的那个人提出一个利用数据挣钱的模型,但在我看来很傻,大意是老夫有张三的数据,而李四想知道张三的数据且必须通过老夫这儿才能得到,这就是他所谓的Middleman概念(所谓的哲学家都是这样的吗?巨喜欢炒概念,什么“数据之和的价值大于数据的价值之和”)
  • 纽约市的一位负责信息化的官员来讲各种应用数据管理城市的案例,这是我比较喜欢的一场,案例都非常简单有效,比如台风来了哪里的树被吹倒了,市民可以直接在地图上标注并上传事发现场的照片,这样他们就可以调动人员去现场处理,而不必特派专员先去打探情况,再回来调人;在地图上标注也形成了一种间接的投票,要是某个事故举报的人多了,重要性也就排上去了
  • 国会议员讲的东西我完全没能理解,大约是些陈词滥调,什么数据重要啊,应该透明啊,党在努力啊,请人民监督啊……
  • 卫报有专门的数据专栏,有空时不妨一阅,卫报的编辑讲的是数据驱动的新闻业,我在我的《现代统计图形》书中正巧批判了卫报的一幅图
  • 有领导推荐Microstyle一书,说他在DC入职时上司告诉他在DC混的最重要的一点就是这个(说话简洁观点明确)
  • 三四位公司头目讨论新时代的CIO(首席信息官)的角色,其中有Norman Nie,也就是Revolution Analytics的头儿,老爷子似乎各种会议都参加,这次他讲CIO应该懂技术懂算法,果然是统计出身,时刻关心着技术,可是我在想当领导的和当跑堂的都精通端盘子了,谁来管小店的经营呢
  • 有人讲到鸟类觅食的路径,说不是布朗运动,想想也对,通常是一次长的搜索加上若干次短搜索
  • M&M豆跟天气有什么关系?没听清,回头再看看
  • 创建Mineful的是一位统计学PhD,我总是在臆想,一个统计学博士加一个精通网站设计(包括美观设计)和数据库部署的计算机牛人凑在一块肯定是创业的绝配
  • 大家都在讲Hadoop,谈来谈去,总是缺统计分析的味道,我不熟这玩意儿,但Revolution他们似乎在做这方面的工作
  • Google的无人驾驶汽车说:我们不需要什么好算法,我们只需要更多的数据
  • 经济学人杂志的人说,俺们需要一类测量幸福的数据,而不是GDP,我想这也不新鲜啊
  • 要速度,还是得玩内存,号称一秒钟玩一百万行数据的那个人说
  • 第一天晚上在一个很前卫的艺术工厂办酒会和活动,Gelman大人连这样的活动都参加,不得不说他精力充沛,真如其弟子所言,整天到处灌水,给的演讲是去年我请他在我们这儿讲过的,我没听就走了
  • 第二天晚上火花演讲(五分钟演讲)中,有一位相当给力的姐姐痛批当下的SNS工具让人光顾着拍照片而不顾吃饭,分析了去餐馆对着食物拍照并上传到Facebook所消耗的各种能量,结论是这些能量大于食物的能量……
  • 这会议跟我以前参加过的其它会议相比,除了有很强的“高层领导会晤”氛围之外,还有另一大特征,就是无处不见Twitter的身影,每一个演讲者都会自报Twitter帐号,甚至会场还偶尔有Twitter互动
  • 吃饭席间遇到一个麦肯锡的人,于是寻找共同话题,兜了一圈,发现都用R,好嘛,这就好说话了,我问,你知道animation包吗?答曰:知道啊,很好玩噻!接下来还能没话说么……

我去参加会议的主要目的是考虑将这个会议引入中国,这一圈走下来,心里暂时还没有很明确的答案,因为我对国内的商界政界的数据使用情况并不太了解。

切换话题中……开完会第二天去联合国瞅了一眼,到处都是警察,我时间来不及,拍照两张匆匆离开。随后拜见了侯瑀大人,依旧主动,依旧努力,依旧奋发。揖别前往自然历史博物馆,馆内狂奔一圈,然后穿越中央公园,坐公交车沿第五大道从北往南游览一遍(大概跟坐观光车差不多吧),换地铁奔新泽西,始知原来美国也有载人的火车,踏上前往新泽西Summit的火车,因开会时狗屎运抽中小Kindle一枚(美国人傻,把奖券折两折扔桶里,我只折了一折,以提升概率,我看那主持人结结巴巴不知道怎么读名字就知道是我中奖了),火车上遂翻阅《围城》(我承认我落后于时代多年),暗想钱钟书太擅长腹诽,描写的乡巴佬和小气鬼都活灵活现。AT&T隆恩浩荡给我订了宾馆,晚上准备第二天的演讲。

AT&T实验室是个传奇的地方,想想当年贝尔实验室出了多少名垂青史的人,譬如信息论的那个香农,又如统计这边的John Tukey等等。这次去之前我就在想是否有机会见到S语言的三作者(当然Chambers已经不在那儿了),后来果然见到其中一位,Richard Becker,相当激动。上午9点拜见Stephen North,给我介绍一下他们的可视化工作和软件;接下来我准备10点半的演讲,因为老板觉得AT&T都是聪明绝顶的人,担心我这次的演讲不受待见,于是前一周让我在系里演习了一遍,事实证明演习还是有效的,我来美帝之后经常对自己的演讲不满意,尤其是讲完笑话容易后悔觉得自己像个傻瓜,这次自认为讲得还不错,笑话比较应景和自然(我总是把讲笑话放在第一位),例如开场时我看见旁边白板上写着公司内部的无线网用户名和密码,其中密码是 this.getAccess(),我就谎称有点小紧张,因为老板说这里到处都是聪明人,看这板子上的密码都这么极客……

我讲的就是前些天提到的cranvas包,临走前几天,老板可能还是觉得现在的包还不够面子,跟我说如果能把变形地图(cartogram)搞定的话一定能“把AT&T那帮人的袜子打掉”(此乃直译,客官自行查字典:knock the socks off somebody),本小子为了打掉他们的袜子,费了牛鼻子劲把变形地图整出来了,也算是解决了我多年来的一个疑问。

中午吃完饭按照安排一个个拜见,首先就是Becker,B大人说我喜欢你娃儿的报告,然后说变形地图的历史,他在AT&T的可视化方面的工作,如何甄别电话欺诈等等,后来我跟他说08年办第一届中国R语言会议的时候,我给他发过邮件问那篇S语言历史的文章授权,他当然不记得了,我甚是感叹如今我能当面见到活人,老人家兴致勃勃给我扒出来那些七八十年代的S语言手册,回忆当年的历史(如locator()函数),总之谈话在一片欢乐祥和的气氛中进行。接下来分别拜见Bob(Netflix百万大奖得主之一),Yifan(巨多网络图)和Simon(R core之一,成名作有R的Mac版本和iplots包等)。听了若干有趣的故事,比如如何确定披萨店的电话是顾客从网上的黄页中看见之后打过去的,Augsburg那些学生一人一套可视化图形系统,蝴蝶在整个生态系统中的种类数量占如此大的比例,并且头一次注意到JSS刊物的那幅图中的盘子里是有蚂蚁的(在S的门上看了大图才知道),还有似乎很多美国人都相信蜜蜂要是灭绝了人类就灭绝了……S自己养着一箱蜜蜂,有人问他如何让蜜蜂高兴(前一个话题在谈电子邮件),另外有人插话曰:给它们发邮件!AT&T真的是个很极客的地方,有人从洛杉矶坐飞机到纽约,一路拿着摄像机固定位置拍窗外的云,最后把五个小时的录像的每一帧中部的1像素宽的图截出来并拼成一幅几米长的图,打印了贴在走廊里,由于我在网上找不到这幅图,无法描述这种壮观的“异景”。还有人把电影的每一帧提出来作为一幅小图,按时间顺序拼成一幅大图。话说回来,这些玩意儿有啥用呢?消磨时间?

对了,S提到了R的grid图形系统,说这套系统本来是一套非常理想的图形系统,Murrell就差一步,就差那么一小步,就一小步,就能让R完美支持交互式图形了,可惜他没做。S对此感到非常遗憾。

最后一天回纽约。我总结这纽约的地铁有四处要小心的地方:有时候某些车不开、某些车在某些站不停、有时候这条线会改成那条线、某些站无法不出站而从路的一边换到另一边。对头一次去的人,坐地铁很要命,尤其我这笨头笨脑的,坐在车上总感觉不安,还好最后一路下来没碰到什么大问题。最后一天去大都会博物馆,在里面转了六个多小时,各种雕塑、油画、兵器、乐器、壁画、瓷器、书法等等,看得都快昏死了。有一点很好奇,为什么柬埔寨的佛像无一例外都是面带笑容?

前面说本农民不适应城市,仿佛到处都是坏人,其实一路上都觉得人还挺好的,最后一天在机场还真碰到坏人了,想骗我手机。作为在北京混迹多年的本小子,见过多少骗借手机的,这点小伎俩,对天朝人民是无效的。

回村,处理部分邮件,批完一次作业,补上这篇杂记。退堂!威……武……

鸣谢:Wang Wei,Guo Jiqiang,侯瑀(各种中餐馆子被蹭饭组负责人),Debby Swayne(蹭AT&T饭组负责人),卢大编辑及Michelle(蹭Strata饭组负责人),Hu Yirui(蹭饭未遂组负责人)……

谢益辉 /
Published under (CC) BY-NC-SA in categories Featured  Statistics  Life  Technology  tagged with AT&T  Strata  数据  纽约