推荐

自我推荐文章

052010
统统计教科书大多会提及t检验中方差齐性这个问题,因为检验的假设条件是需要总体方差相等的。然而这个问题实际上可能并没有人们想象的那么重要,这里给两个简单的数值计算结果,看看方差不等对检验结果有什么影响。

par(mar = c(4, 4, 0.5, 0.5), mfrow = c(1, 2))
set.seed(123)
plot(pval <- t(replicate(1000, {
    x1 = rnorm(100, mean = 0, sd = runif(1, 0.5, 1))
    x2 = rnorm(100, mean = 1, sd = runif(1, 2, 5))
    c(t.test(x1, x2, var.equal = TRUE)$p.value, t.test(x1, x2,
        var.equal = FALSE)$p.value)
})), xlab = "P-value: equal variance", ylab = "P-value: unequal variance",
    pch = 20, asp = 1)
abline(0, 1)
plot(pval[, 1], pval[, 2] - pval[, 1], xlab = "P-value: equal variance",
    ylab = "Diff of p-values (unequal var - equal var)", pch = 20)

过程是:从两个正态总体中生成样本,第一个总体均值为0,标准差随机取自U(0.5, 1),第二个总体均值为1,标准差取自U(2, 5),显然两个总体标准差不相等,那么在t检验时设定和不设定方差相等的选项对结果有多大影响?把两种情况的P值都画出来:左图是原始P值,可见基本在对角线上,说明大致相等,若眼神儿不好,可看右图,即P值的差异,可见方差不等时P值偏大(原因很简单,因为Welch校正的自由度小于等于不校正的自由度,样本量相等的时候统计量的分母即标准误一样,因此统计量完全一样,自由度越小,P值越大嘛),但大多少呢?其实也没大多少。

方差齐与不齐时t检验的结果对照

方差齐与不齐时t检验的结果对照

十二 312009

在家宅得快发芽了。这几天考虑着COS的发展计划,每次想这件事都觉得脑子里的想法装不下了,可每一个想法的实施往往至少要一年时间,甚至两三年都没法实现。在2010年,我希望可以实现下面这些事情。本文写得不是一般的意识流,读者慎阅:

  1. 全面提升网站功能,主要包括对三大软件的支持:
    1. SVNGIT:目的在于会员合作,大家可以共同编写一些小册子,SVNGIT使得工作可以并行而不会互相牵制、依赖。按胡子同学的IT小小鸟模式,我觉得COS的会员们根据COS论坛的帖子足以合力写出好几本统计小小鸟了。
    2. ## need libapr, libapr-util, then subversion
      wget http://apache.cs.utah.edu/apr/apr-1.3.9.tar.gz
      wget http://apache.cs.utah.edu/apr/apr-util-1.3.9.tar.gz
      tar -zxf apr-1.3.9.tar.gz
      cd apr-1.3.9
      ./configure --prefix=$HOME/bin/apache/apr
      make & make install
      cd ..
      tar -zxf apr-util-1.3.9.tar.gz
      cd apr-util-1.3.9
      ./configure --prefix=$HOME/bin/apache/apr-util --with-apr=$HOME/bin/apache/apr/
      make & make install
      wget http://subversion.tigris.org/downloads/subversion-1.6.6.tar.gz
      ## tar, cd, then
      ./configure –prefix=$HOME/bin/subversion –with-apr=$HOME/bin/apache/apr –with-apr-util=$HOME/bin/apache/apr-util
      ## SVN把老夫折腾得接近崩溃,终于痛苦地转向GIT
      wget http://kernel.org/pub/software/scm/git/git-1.6.6.tar.gz
      tar xf... & ./configure & make & make install

      习惯了用SVN,但过去一直是用别人的服务,轮到自己架设SVN服务器才知道这叫一个崩溃,其实主要原因可能是因为自己没有root权限,未必真的那么难。由于是用别人的服务器,只好转向GIT。

十二 262009

情缘起于段炼同学9天前给我看的他的一篇博客:统计数字是不是拍脑袋出来的?87.53%。当时我在考试,没太仔细琢磨这件事情;现在邮件处理到了这一封,于是一层一层链接都打开来看,越看越摇头。这统计学在大家眼中敢情成了找借口的高级工具?抑或凡是有不正常的数字现象,都可以找到可能的“统计学”原因?这也太杯具了。

这个87.53%已经被证实只是个玩笑。在众多(只顾怀疑、相互抄袭、转载、或来路不明的)博客文章中,段炼的角度显然和所有人都不一样,他把所有的百分比数据的搜索频数都下载了下来,大家一看就知道,87.53这个数字本身并没有什么奇怪的,你去搜87.52或87.54都一样。众人纷纷解释这个0.53(100人中哪里来的0.53个人),不知道谁第一个提起了置信区间,总之我刚才看到的杯具有(考虑了一下,不是啥好事,就不给链接了):

……在计算样本容量的时候要考虑一个置信区间的问题,也就是说调查了100个人,但是并不认为这100个人都是认真作答的,因此会在样本容量上再乘上一个置信度

置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。

第一种说法简直错了十万八千里,我闻所未闻,真是木有想到,置信度原来还有这种功效;第二种说法是对置信区间常见的误解;我正欲吐血时,竟然看见了维基百科的身影:置信区间。这下是真的杯具了,维基上赫然写着:

十一 062009
近有好几位同学让我帮忙看出国申请的简历和文书,敢情我现在是从多年的人大考研咨询改行到出国咨询了……从这些简历和文书的阅读中,我觉得有些写作方面的简单规则应该在此啰嗦一下,复习初中英语知识,供出国的客官参考。我想起什么写什么,这篇文章也许会更新。

零、一本必读的小册子

有一本叫作The Elements of Style的小册子是讲英语写作的,不管你的申请有多忙,一定要抽时间把这本几十页的小册子看完(若你不愿意搜,这里有一个PDF链接)。这本册子相当古老了,也许比你的爷爷年纪还大(传说中的葵花宝典?),但提出的写作规则都是很中肯的。若有大一想出国的同学不幸逛到我这儿来了,我得另外建议各位小客官找一本大部头的英语语法书猛读(个人猛读过张道真的语法书,印象中六七百页,详见后文),我相信这种规则的锻炼对将来的写作。回头想了一下,搞不清楚我大学英语在上些什么。当然,对这本小册子,由于规则繁多,必然有人不满,认为对语言约束太强,有些规则没多大意义,可以打破,这是很自然的事情——语言是拿来用的,会随时间变化的。不过无论如何,我觉得读这本册子益处远大于害处。

一、单数和复数

因为中文的名词基本上没有复数的概念,比如我们说吃苹果时,绝不会说吃苹果(即使吃了十个苹果),所以我们写英语的名词容易忽略单数复数的问题。当我们用一个可数单数名词的时候,前面需要加冠词a或者the,要么就用复数,不要把一个可数名词孤零零光秃秃撂在那儿。例:

[...] it estimates parameters in linear regression model…

这句话中,线性回归模型前需要加a或者the,或者用models。如果用the什么,那么一般表示特指某一个东西,如果不想表达特指,那么用复数。

二、标点符号

空格问题:中文几乎从不需要使用空格,但英文中标点符号和下一个单词之间需要有一个空格,看似很简单的规则,但很多人的英文文章因为没有空格,写出来让人看着觉得憋得慌。

逗号问题:两个独立的句子之间不能用逗号,要么用句号,要么用分号。有些人写东西很随意,逗号一路打到底,不知道段落到底是什么结构。

书名号问题:英文中没有书名号!不要笑,就是有人会在Word中给一本书或论文打上书名号。如何在正文中提一本书或论文呢?正确的方式是用斜体或者引号。如果文中要提到数十篇文献,那么我建议还是用参考文献的方式吧,比如Xie (2009)。

跑题提一下LaTeX引号问题:我注意到不是所有LaTeX用户都知道引号的正确写法(这让我有点吃惊),它不是"",而是``'',否则,编译出来的文档两个引号的方向是一样的。LyX用户敬请忽略本段,直接打引号的话它会自动生成正确的引号代码。

三、“统计”这个词

作为申请统计专业的学生,务必搞清楚statistic到底是什么,不要开口就说“统计学”是statistic,大多数情况下,这个单词只有一个意思,那就是统计量。“统计学”是statistics,形容词statistical。

四、few和little

它们本身表示否定意思:几乎没有。而不是有一些/一点。如果要表达后者的意思,那么加上a。阅读的时候尤其注意。

五、关于用词

我经常发现我看不懂发给我的PS中的某些句子,因为关键的单词我不认识,也许是我没真正考GRE的缘故吧。但我个人感觉这些我不认识的单词可能是通过金山词霸或者某些翻译工具翻译出来的,不知道老外看见这些词会怎么想,反正我觉得是没有必要用不常见的词。如果想扩大词汇量(我指正常的词汇),我认为最好的办法只有一个,就是大量阅读。读完之后你的脑子会自动根据单词出现的频数排序,以后写东西的时候自然而然就会用写作常用词了。我自己曾经干过背词典的蠢事,当然这种蠢方法对我来说有一定正面影响,因为背词典的时候看了不少例句。

总结起来就是,不要查翻译工具,即使查,也要掂量一下词语是否常见易懂

六、M$ Word用户的注意事项

大多数Word默认安装了拼写检查工具,因此请不要轻易忽视划了红杠杠的词句,仔细想想为什么被划了杠杠。当然,我不推荐学术男/学术女们用Word写东西。【插播广告:山东大学的客官请关注你们学校的LaTeX讲座(by陈丽云)】

完。

写着写着,想起以前的英语老师们,因此加上一段附录。

附:我的英语老师们

本小子现在混到这个美国农村,还得感谢我的那些英语老师:

初一的英语老师和我沾一丁点亲戚关系(貌似是从我们那个村嫁出去的),所以特别照顾我,当时班里有位同学在上初中之前学过一点英语,所以上课俨然鹤立鸡群,不过老师似乎并不欣赏她,反倒是我被莫名其妙捧起来了,所以不想好好学都不行;

初二英语老师呢,几乎全班同学都讨厌他,可能他当班主任管得太严但又没有威信,偏偏这个老师的口语非常标准(我现在听人把the读成“则”或者元音前仍读“呃”不读“咿”就觉得幸亏当年有这么个老师),语法也很严格,所以我还是很喜欢他的,师徒俩关系一直不错;

初三换到老A班,配备的是学校最好的英语老师,她对姓谢的那个小子早有耳闻,一年中也很照顾我,想方设法让我去市里参加了一次英语竞赛,话说那次貌似是我第一次走出那个小镇(记当时得我一共揣着两块钱,以为来回坐车就够了,结果上车发现一趟就要三块五,心想怎么要这么大一笔钱啊);

高一高二的英语老师似乎是北方人,一口标准的普通话,在我们那旮旯很少见,虽然市区很多人都讲普通话,但没几个人能正确读出后鼻音(及卷舌),老师上课都是方言。这位大叔没啥特异之处,循规蹈矩,上课有板有眼,所以我又接受了两年正规训练;

高三再进老A,英语老师是个年轻小伙儿,呃,其实也不算太年轻吧,他女儿和我在同一个班,英语也很好。和初一有几分类似,这位小伙老师有些偏爱我,我感觉每次作文给我的分都偏高,若没啥大问题基本都接近满分,所以每次考试都过130奔140,最后高考吃了亏,考了几乎历史最低分。这位老师每天都朝气蓬勃,能说会道,我觉得他去新东方肯定没问题……

到了大学嘛,反而没啥学习的感觉了。高三暑假背了一本新英汉词典,大一买了一本牛津,现在也不记得有没有背完A。分级考试分到二级,要上一年半英语课。老师功底不错,但我现在似乎什么内容都想不起来了。只记得某次上课要表演,一伙人演大话西游,我演至尊宝(汗啊),借了同学的武士刀,被架在脖子上,背出那段英文版的一万年;

到了研究僧,侥幸过了英语入学考试,免去心头大患,实在是对英语课烦得很;博士僧的时候一样。

102009

天Ripley教授向R提交了第50000次修改,Romain Francios对SVN的日志数据做了一些简单分析,我个人一直关心Ripley是不是整天不用睡觉(你看这老爷子一天到晚都在邮件列表中出没),这次正好验证一下他是不是24小时工作,数据和R代码参见50000 Revisions Committed to R

Ripley从1999年加入R核心团队,从上图可以看出,他显然是不需要睡觉的——每个小时都可能有commit。时间分布呈双峰:早上7点到10点、下午3点到6点。看看其他人的工作时间,很容易发现Martin倾向于早起干活,而Peter倾向于每天晚上12点之后干活。

Romain的博客中有SVN的日志数据可以下载,感兴趣的同志们可以继续分析R core的工作行为。

上周上课,我们老爷子又说SAS is extremely powerful,SAS很靠谱,就差明说SAS没有Bug了。我正在整理课程笔记,SAS的事情,我改天要去找老爷子好好谈一谈。R从不说自己能担保什么,大家拼命找bug,拼命改进,这是开源软件的共同特征——没有人付钱,但就是有一群疯子半夜3点还在写代码。商业软件一向说自己能保证什么,可是一个bug二十年都没人会去修正(),还好我们看不见源代码,要是能看见,后果不堪设想。

192009

要是Google这个话题,得到的结果八成都是广告——他们都会告诉你,“嘿,我(或某公司)这里可以建网站,傻瓜式的哟,快来投奔我吧!”新手一般都觉得建网站是一件超级复杂的事情,于是很天真很无邪地进了圈套,到最后还乐呵呵帮人数钱。傻瓜式的东西就如它的名字一样,只是为傻瓜准备的,要格外小心。

我正式接触计算机在2002年,接触网站建设在2003年,想想时日也不短了,虽然不是什么高手,但还是有一定发言权滴。数月前,鼓动江堂兄从Live Space逃脱、建立了自己的窝,而近日又把自己的网站和“统计之都”网站都搬了家,然后也帮“贝吉塔行星”逃离了那抽风的Live Space,后来有朋友问起关于如何建立个人网站的事情,所以干脆写篇教程,把这建网站的来龙去脉讲清楚。

一、建网站的准备材料:域名和空间

一个网站通常由域名和一堆网页文件构成:

  • 域名:就是“三达不溜什么什么点坑”这样的东西(如www.yihui.name,不严格,见后话),它由一家非营利组织ICANN管理,但它授权给了若干注册商(registrar)去卖域名,你可以在这些域名经销商那里注册顶级域名,所谓顶级域名就是“字母或数字组合+顶级域名后缀”,这些后缀包括常见的com/org/net,也包括不常见的name/info/biz等,各家允许注册的域名后缀可能有所不同,这就看个人喜好了;关于域名后缀,本来它是有含义的,比如com是company,org是organization,name是个人域名,等等,但我个人觉得这些东西已经没太大意义了,域名只要好记、看着像模像样就可以了,管它是公司还是组织呢(有例外:如gov等特殊后缀一般人不能注册),那著名的del.icio.us网站就是个很好的例子,它不一定非得是美国网站,但这个域名就是注册得很巧妙。顶级域名下面可以设置子域名,如二级三级域名,严格来说,www.yihui.name只是yihui.name的二级子域名,只是www太盛行,以至于人们干脆把www.***.***当作顶级域名了。animation.yihui.name就是本站的一个子域名/子站。说了半天,域名怎么注册啊?你Google一下“域名注册”或“domain name registration”,顶上的Sponsored link中都是有实力的注册商,但我作为过来人要严重提醒的是,尽量不要在国内注册(尤其不要相信那个万网的鬼话)。据说GoDaddy还可以,我没试过,只知道它似乎不能注册.name域名,我自己是在name.com注册的域名(需要付美元,我用的PayPal,双币种的信用卡也可以)。
  • 网站空间:想得简单一些,空间和你的硬盘没啥区别,只不过是空间服务商卖给你的一块服务器硬盘位置而已,性能可能比你的PC机好一点,网站空间就是放网页文件的地方,网页文件你可以简单想象为你硬盘里的文件,它们也是按路径访问的,网址的路径就对应着硬盘里的文件夹。网页文件通常分为:
    • 静态网页:其内容是固定不变的,里面放着HTML代码(网页的一种语言),不管谁、不管什么时间访问,内容都一样,通常以.html/.htm为文件名
    • 动态网页:我估计现在大多数网站都是动态的了,所谓动态就是网页文件会根据不同的条件解析生成不同的HTML代码,例如:某动态页面根据时间和用户ID向访问者问好,早上访问就说早上好,晚上访问就说晚上好,路人甲来了就说路人甲你好……动态页面通常和数据库挂钩,用户在访问网页的时候,网页程序就存取数据库,所以页面内容会不断更新。动态页面可能采取不同的语言编写,如古老的微软的ASP、盛行的开源的PHP。现在网络上有无数的网站系统,我当然推崇PHP+MySQL的系统了,目前尤其看好WordPress系统。
  • 注意有些国外空间是几乎可以当做自己的电脑使用的,包括编译安装程序(如Python),SSH登录,MySQL可以在命令行中执行,等等,国内似乎没见过能给空间这么大自由的

域名和空间没有必然联系,域名的作用就是作为一个字符串映射到一个IP地址上,因为(1)IP地址太难记了(2)IP地址数目有限(同一个IP上可以放N个域名)所以才需要域名这么个东西。这就意味着,你有换空间的自由。哪天对空间服务商不高兴了,可以直接把他踹了,把域名解析到别家去,用另一家空间。哎哎,等会儿,啥叫域名解析

102009

些日子有位童鞋在R-help邮件列表里问如何生成那种单词大小与其出现频率成比例的图,这玩意儿也就是通常所说的标签云(Tag Cloud)。我琢磨了一下WordPress的插件wp-cumulus,发现其原理很简单,不过就是将标签信息以XML形式通过JavaScript传递给一个Flash文件,所以也很容易用R去实现这个传递过程,即:将文本、超级链接以及频数写成XML,然后嵌入到HTML文件中。整个过程参见Creating Tag Cloud Using R and Flash / JavaScript (SWFObject)这篇日志,函数源代码和示例数据都可以从那里下载。

效果是这样的:

Your browser does not support Flash or Javascript!

(通过RSS阅读的童鞋们请打开原文链接在浏览器中观看,否则啥都看不到)

302009

Venn Diagram by Google Chart APIGoogle Chart API是很老的产品了(下文简称GCA),以前隐约听说过这么个东西,只是没觉得什么地方能用上,如果仅仅是单幅图形,还不如自己用软件画出来,而且自己画图比用GCA要方便灵活许多。这两天琢磨着网页里面有些简单的数字该如何显示给读者,比如几乎所有人的博客上都会显示阅读次数、评论条数等数据,这些数据是动态的,所以不适合静态图形展示,因此又想起GCA。简单来说,GCA就是用网址传递数据给Google的某个画图程序,Google画完之后把图形以PNG形式返回给你,你可以在网页中尽情使用。由于数据包含在网址中,因此很容易通过动态网页程序(如PHP)生成数据并写出网址。

1、从访问数和评论数生成Venn图

作为一个简单应用,我把原本枯燥的三个数字“用户(user)阅读次数”、“机器人(bot,网络爬虫)浏览次数”和“评论(comment)条数”用Venn图展示在每个条标题下的信息栏中了。对于学过与集合有关的课程(如概率论)的人来说,Venn图几乎是第一节课就会接触到的东西,它直观表明了几个集合之间的关系,如交集与并集。前面的三个数字中,user和bot交集为空,而user与comment的交集为comment,因为凡是发表评论的人必然要打开页面阅读。

Venn图的主要参数是7个数字,依次说明各个集合的大小:A, B, C, A∩B, A∩C, B∩C, A∩B∩C。这7个数字传给数据参数chd即可,如:

http://chart.apis.google.com/chart?cht=v&chs=300x300&chd=t:100,80,60,30,25,20,10
272009

华网关于学生冬季长跑的调查结果让人着实跌眼镜,一共调查了100人,报告中的结果都是xx.xx%形式的,例如“92.79%的学生认为强健了自己的身体”。这0.79个人是怎么来的?

咱们学统计的,应该对数字有一定的敏感性,比如当你看到小数位中含有667这样的数字(e.g. 0.291667)时就应该警觉:对方是否给出了样本量?如果没给的话,你就应该怀疑这个数字本来是0.29166666……如果你不知道这个比例是怎么来的,那么就拿一些整数去乘这个比例,看看哪个数字乘以这个比例能得到整数。最终你发现是24的倍数,样本量是7的倍数。然后你再想,7/24、14/48、28/96、……这一系列数字哪对更符合这个调查的背景。如:若你怀疑调查者很懒,那么不妨猜测他/她就调查了24个人。

以上只不过是低级的数字游戏,对统计来说根本没派上用场,现在很多人都琢磨着怎么建个模型整个P值去忽悠答辩委员会,而事实往往是,费尽千般心思,辛辛苦苦调查来的数据在建模之后根本没法用,要么系数是反的,要么不显著,或者有自相关,或有异方差,总之和初衷很不符,此时,离答辩往往只剩下几个星期,怎么办呢?只好眼睛一闭心一横,改数据吧!怎么改呢……【此处省略八千字】最后,王子和公主们过上了幸福生活。

我一般不相信经济学论文中的统计模型,原因之一就是数据。

192009

个话题看起来很吓人。今天上午去了潭柘寺,有幸和方丈常道法师一起喝茶,并听他为我们讲经解惑。我并不信佛,即使听完也仍然没有丝毫动摇,但听他讲的过程中,有一点确实让我后来冥思了好半天。方丈讲,今生的命是注定的,它由某种潜意识主要决定,这种潜意识也许在前生,也许在某个我们不知道的地方,总之就潜伏在你心里了,后天的人生道路不会偏离这种潜意识决定的路线,最多只能有微小的修正。

听到这里,我的第一反应就是:这不是贝叶斯统计么!只不过佛教看重先验分布,而俗世中有人更看重后验信息而已(比如我)。

一条有意思的插曲是:当你听见你的同学或同事讲金融危机可能不以为然,当你听到山中的老和尚也在分析金融危机和国势的时候,这事情的感觉突然就变了。方丈用鸡年狗年之类的理论讲,2010年会是中国崛起的时候,势不可挡,我心想,我们脑子里的“科学”逻辑必然不能接受这样的解释,然而,世上万物就一定或只能通过逻辑解释么?

玄学这东西,无底洞啊。

走的时候,大家一窝蜂让方丈看手相,我想,既然法师都说了,命已是注定,知道和不知道又有何区别呢?于是仰天窃笑出门去。呜呼!

WWW.YIHUI.NAME XIE@YIHUI.NAME © 2007 - 2010 by Yihui Xie