<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Keep on Fighting!</title>
	<atom:link href="http://yihui.name/cn/feed/" rel="self" type="application/rss+xml" />
	<link>http://yihui.name/cn</link>
	<description>谢益辉</description>
	<lastBuildDate>Thu, 02 Sep 2010 16:18:36 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>useR! 2010会议流水账回顾</title>
		<link>http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/</link>
		<comments>http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/#comments</comments>
		<pubDate>Mon, 30 Aug 2010 06:15:32 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[R 语言]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[Frank Harrell]]></category>
		<category><![CDATA[GNU/Linux]]></category>
		<category><![CDATA[Luke Tierney]]></category>
		<category><![CDATA[NIST]]></category>
		<category><![CDATA[Notepad++]]></category>
		<category><![CDATA[NppToR]]></category>
		<category><![CDATA[Richard Stallman]]></category>
		<category><![CDATA[R语言]]></category>
		<category><![CDATA[SAS]]></category>
		<category><![CDATA[useR! 2010]]></category>
		<category><![CDATA[体视学]]></category>
		<category><![CDATA[华盛顿]]></category>
		<category><![CDATA[回归建模]]></category>
		<category><![CDATA[张翔]]></category>
		<category><![CDATA[统计图形]]></category>
		<category><![CDATA[自由软件]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1405</guid>
		<description><![CDATA[来这篇流水账日志早就该发了，一直懒得写，放在草稿箱里已有一个月，还是拖出来简单写一写算鸟。正好开学前老板说，你娃儿去开了useR!会议，那开学第一周的组会上就你和Marie来说说你们的观察吧。于是乎，我又绞尽脑汁回忆了useR! 2010。 公元2010年7月19日凌晨3:45起床，搭租好的车从农村去机场，一小时后到达。路上看见天边电光闪闪，非常吓人，我心想完鸟，这飞机还能飞么？机场一路进去，木有任何延迟或取消航班的迹象，早上6点，按时起飞，我心里捏着一把汗。这机长也不是盖的，拖着飞机掉头就往没有闪电的方向飞，绕道去芝加哥，幸好菩萨及圣母保佑，平安到芝加哥ORD机场，大约40分钟后，搭下一班飞机去DC里根机场，算是故地重游。出机场又找预定好的车，开了一个小时才开到马里兰NIST，路上又经过那华盛顿纪念碑啊、林肯纪念堂啊、造币厂啊之类的地方，也不稀罕。 这次张翔张主席也从国内不远万里漂洋过海到NIST开会，我琢磨着他可能是唯一一个从中国大陆来的参会者，报名的人当中还有另一位兄弟似乎也要来，但后来不知为何掉链子了。张主席本来订好了租车，结果到了美帝，驾照上木有对应的英文翻译，于是也木有办法租车，而本小子至今还没学开车，那么就地铁公交加“11路”车，总之找到了旅馆。张主席到了NIST附近，没直接去旅馆，而是气定神闲找了家餐馆吃饭去了，我只好吭哧吭哧去找他吃饭。主席就是主席，也不是盖的，不拖箱子不拎包，而是整个登山包背着，连睡袋装备都有，那是相~昂~当的专业。 从农村去了城市，自然是不便，虽说是城里，NIST周围似乎也是鸟不拉屎地不长毛，找了家超市胡乱买些食物水果，回旅馆歇着。下面进入正题。 会议三天，前面加一天主题培训，上午下午各一场，我报名的分别是Frank Harrell的统计图形和回归建模策略。图形一场，倒是开了不少眼界，主要是Cleveland和Tufte的一些观点，很多很多故事，听得悠哉悠哉，后来回来之后也开始借Cleveland的书翻翻（The Elements of Graphing Data），果然有趣。回归一场，速度太快，很多细节不熟悉，所以照旧收获不太大，这里“照旧”是因为08年在德国我听过一遍了，如今又听了一遍。不过我一直深为同意他的“不要把连续变量离散化”的观点，这一点我去年已经说过一遍了。虽说是讲回归，Harrell的讲法并不像传统的回归课，甚至几乎没有任何传统回归课的内容，比如他大量使用样条、光滑方法、Boostrap、收缩估计（如LASSO）等。 开会三天就是跑来跑去到处听，到现在也没什么有深刻印象的报告了。几场邀请报告中，Harrell列举了种种统计应用（主要是医学中的）之误，以及分析可以怎样被改进；Luke Tierney讲了一些R在计算中的发展方向，主要是并行计算和Byte code编译，后一项工作他似乎已经做了十几年了，我们都知道R语言是一门解释性语言，也就是它不像C语言能编译为机器代码执行，所以在运算效率上会低一些，Byte code编译的效率比编译为机器语言差一些，但比纯粹的解释执行方式肯定要快，我不太了解其中细节，罢去不谈；关于并行，很多人总是问如何让R利用多核计算？Tierney认为这个问题的答案很简单，但这个问题本身是错误的，正确问题是，如何利用多核使得运算更快？对并行运算不了解的人可能会想象2核运算比1核快一倍，但事实不是这样简单，因为给各个核分配任务以及回收结果都要花时间，并不一定越多核越快，这是常识，也不谈，不过现在大家似乎都很追并行运算，其实并不是所有人都有必要并行的，据他介绍，普通的四则运算，若向量长度不到三万，则并行计算的意义不大；其它报告中，听了一些，其中在我的报告之前的那场报告还挺有趣，讲体视学（stereoscopy），那位兄台搞了两台投影仪，分别投上用R画的一些不同颜色的图，给观众发了一批立体眼镜，就是最简单的那种，一边镜片红色，一边蓝色，大家戴上看他表演，从一些平面图里看到3D图，报告完毕还在屏幕上打出滚动字幕（制片人、鸣谢之类的），观众哄堂大笑，他说下一场报告是动画，看样子咱们可以组建一个Pixar公司了；然后我登场，第一句话就是，嘿，兄弟，你打算啥时候建公司啊？到时候告诉我一声哈。我基本上是老调重弹，演示一些动画。讲完一个宝洁的人跑来给了个名片请我给他发一下幻灯片，也没啥问题。后来我在外面看到有一位Montana的本科生基于我的包做了一些应用，在走道上展示了几天Poster。其它报告也就是Notepad++/NppToR、Sweave等，回来之后我在Windows下的编辑器就成了Notepad++配上NppToR。 这次R会议专门安排了一个R在商业应用中的讨论，出席的有宝洁和REvolution等公司，在那里见到了Norman Nie，说实话，见到这个活人之后我的印象并不太好。REvolution真是大肆打广告啊。 会议期间遇到不少中国人，其中还惊奇地发现竟然有一位群众大学统计学院的老早以前的师兄，聊起群大，甚好甚好。另一位Boan同学，我见他总觉得面熟，上前搭话，又貌似不是见过的人，不过搭过话当然就认识了，互通姓名，Boan说，“哦，我知道你，我系你粉丝啊”，嗨，哪里哪里，不敢当不敢当。我感觉我这小站里潜水的美帝留学生还挺多的。我总琢磨着咱们留学生可以组织组织，平时抽抽空给统计之都网站写几篇好文章啊，不说啥报效祖国，但报效人民总是应该的吧。还有Shentu啊，Jinzheng啊等等。还有些美帝之外的，像Jing Hua Zhao老师啊，Xuefei Mi啊，都是2008的熟脸。 22号晚上在National Zoo晚宴，很奇怪，为啥晚宴安排在动物园，是去吃狮子呢还是吃老虎啊？一群人浩浩荡荡杀到动物园，一看也就是个露天的场地和一个大棚子，碰巧我在车上坐在Harrell旁边的旁边，下车了吃饭就和他坐一桌了，听了不少关于SAS的八卦故事。对Harrell了解的人都知道，这老爷子69年开始用SAS，91年用了一个月S-Plus就放弃SAS了，因为SAS编程效率低得惊人，后来又转入R阵营。凡是R-help邮件列表中有出现SAS的讨论，他几乎都会出场。老爷子当年为SAS贡献了很多程序，后来SAS都抹掉了他的名字，过河拆桥。还有关于SAS CEO的种种故事，这里不便乱说，免得告我诽谤，总之他对Jim Goodnight的人品很不齿。听这样一些故事，再看如今SAS那些发言人的话，难免觉得真是冠冕堂皇： Boswell added, “SAS invests hundreds of millions of dollars in research and development every year. Protecting the intellectual property created by the dedicated and talented employees of SAS is of [...]]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/"><span class="dropcap-purple">本</span></a>来这篇流水账日志早就该发了，一直懒得写，放在草稿箱里已有一个月，还是拖出来简单写一写算鸟。正好开学前老板说，你娃儿去开了useR!会议，那开学第一周的组会上就你和Marie来说说你们的观察吧。于是乎，我又绞尽脑汁回忆了useR! 2010。</p>
<p>公元2010年7月19日凌晨3:45起床，搭租好的车从农村去机场，一小时后到达。路上看见天边电光闪闪，非常吓人，我心想完鸟，这飞机还能飞么？机场一路进去，木有任何延迟或取消航班的迹象，早上6点，按时起飞，我心里捏着一把汗。这机长也不是盖的，拖着飞机掉头就往没有闪电的方向飞，绕道去芝加哥，幸好菩萨及圣母保佑，平安到芝加哥ORD机场，大约40分钟后，搭下一班飞机去DC里根机场，算是故地重游。出机场又找预定好的车，开了一个小时才开到马里兰NIST，路上又经过那华盛顿纪念碑啊、林肯纪念堂啊、造币厂啊之类的地方，也不稀罕。</p>
<p>这次张翔张主席也从国内不远万里漂洋过海到NIST开会，我琢磨着他可能是唯一一个从中国大陆来的参会者，报名的人当中还有另一位兄弟似乎也要来，但后来不知为何掉链子了。张主席本来订好了租车，结果到了美帝，驾照上木有对应的英文翻译，于是也木有办法租车，而本小子至今还没学开车，那么就地铁公交加“11路”车，总之找到了旅馆。张主席到了NIST附近，没直接去旅馆，而是气定神闲找了家餐馆吃饭去了，我只好吭哧吭哧去找他吃饭。主席就是主席，也不是盖的，不拖箱子不拎包，而是整个登山包背着，连睡袋装备都有，那是相~昂~当的专业。</p>
<p>从农村去了城市，自然是不便，虽说是城里，NIST周围似乎也是鸟不拉屎地不长毛，找了家超市胡乱买些食物水果，回旅馆歇着。下面进入正题。</p>
<p><span id="more-1405"></span></p>
<p>会议三天，前面加一天主题培训，上午下午各一场，我报名的分别是Frank Harrell的统计图形和回归建模策略。图形一场，倒是开了不少眼界，主要是Cleveland和Tufte的一些观点，很多很多故事，听得悠哉悠哉，后来回来之后也开始借Cleveland的书翻翻（The Elements of Graphing Data），果然有趣。回归一场，速度太快，很多细节不熟悉，所以照旧收获不太大，这里“照旧”是因为08年在德国我听过一遍了，如今又听了一遍。不过我一直深为同意他的“不要把连续变量离散化”的观点，这一点我<a title="http://yihui.name/cn/2009/03/discretize-data-to-lose-information/" href="http://yihui.name/cn/2009/03/discretize-data-to-lose-information/" target="_blank">去年已经说过一遍了</a>。虽说是讲回归，Harrell的讲法并不像传统的回归课，甚至几乎没有任何传统回归课的内容，比如他大量使用样条、光滑方法、Boostrap、收缩估计（如LASSO）等。</p>
<p>开会三天就是跑来跑去到处听，到现在也没什么有深刻印象的报告了。几场邀请报告中，Harrell列举了种种统计应用（主要是医学中的）之误，以及分析可以怎样被改进；Luke Tierney讲了一些R在计算中的发展方向，主要是并行计算和Byte code编译，后一项工作他似乎已经做了十几年了，我们都知道R语言是一门解释性语言，也就是它不像C语言能编译为机器代码执行，所以在运算效率上会低一些，Byte code编译的效率比编译为机器语言差一些，但比纯粹的解释执行方式肯定要快，我不太了解其中细节，罢去不谈；关于并行，很多人总是问如何让R利用多核计算？Tierney认为这个问题的答案很简单，但这个问题本身是错误的，正确问题是，如何利用多核使得运算更快？对并行运算不了解的人可能会想象2核运算比1核快一倍，但事实不是这样简单，因为给各个核分配任务以及回收结果都要花时间，并不一定越多核越快，这是常识，也不谈，不过现在大家似乎都很追并行运算，其实并不是所有人都有必要并行的，据他介绍，普通的四则运算，若向量长度不到三万，则并行计算的意义不大；其它报告中，听了一些，其中在我的报告之前的那场报告还挺有趣，讲体视学（stereoscopy），那位兄台搞了两台投影仪，分别投上用R画的一些不同颜色的图，给观众发了一批立体眼镜，就是最简单的那种，一边镜片红色，一边蓝色，大家戴上看他表演，从一些平面图里看到3D图，报告完毕还在屏幕上打出滚动字幕（制片人、鸣谢之类的），观众哄堂大笑，他说下一场报告是动画，看样子咱们可以组建一个Pixar公司了；然后我登场，第一句话就是，嘿，兄弟，你打算啥时候建公司啊？到时候告诉我一声哈。我基本上是老调重弹，演示一些动画。讲完一个宝洁的人跑来给了个名片请我给他发一下幻灯片，也没啥问题。后来我在外面看到有一位Montana的本科生基于我的包做了一些应用，在走道上展示了几天Poster。其它报告也就是Notepad++/NppToR、Sweave等，回来之后我在Windows下的编辑器就成了Notepad++配上NppToR。</p>
<p>这次R会议专门安排了一个R在商业应用中的讨论，出席的有宝洁和REvolution等公司，在那里见到了Norman Nie，说实话，见到这个活人之后我的印象并不太好。REvolution真是大肆打广告啊。</p>
<p>会议期间遇到不少中国人，其中还惊奇地发现竟然有一位群众大学统计学院的老早以前的师兄，聊起群大，甚好甚好。另一位Boan同学，我见他总觉得面熟，上前搭话，又貌似不是见过的人，不过搭过话当然就认识了，互通姓名，Boan说，“哦，我知道你，我系你粉丝啊”，嗨，哪里哪里，不敢当不敢当。我感觉我这小站里潜水的美帝留学生还挺多的。我总琢磨着咱们留学生可以组织组织，平时抽抽空给<a href="http://cos.name" target="_blank">统计之都网站</a>写几篇好文章啊，不说啥报效祖国，但报效人民总是应该的吧。还有Shentu啊，Jinzheng啊等等。还有些美帝之外的，像Jing Hua Zhao老师啊，Xuefei Mi啊，都是2008的熟脸。</p>
<p>22号晚上在National Zoo晚宴，很奇怪，为啥晚宴安排在动物园，是去吃狮子呢还是吃老虎啊？一群人浩浩荡荡杀到动物园，一看也就是个露天的场地和一个大棚子，碰巧我在车上坐在Harrell旁边的旁边，下车了吃饭就和他坐一桌了，听了不少关于SAS的八卦故事。对Harrell了解的人都知道，这老爷子69年开始用SAS，91年用了一个月S-Plus就放弃SAS了，因为SAS编程效率低得惊人，后来又转入R阵营。凡是R-help邮件列表中有出现SAS的讨论，他几乎都会出场。老爷子当年为SAS贡献了很多程序，后来SAS都抹掉了他的名字，过河拆桥。还有关于SAS CEO的种种故事，这里不便乱说，免得告我诽谤，总之他对Jim Goodnight的人品很不齿。听这样一些故事，再看如今SAS那些发言人的话，难免觉得真是冠冕堂皇：</p>
<blockquote><p>Boswell added, “SAS invests hundreds of millions of dollars in research and development every year. <strong>Protecting the intellectual property created by the dedicated and talented employees of SAS is of paramount importance.</strong> We will vigorously pursue the remaining issues in this case and look forward to getting clarification from the ECJ.”</p></blockquote>
<p>最后一天下午安排了Richard M Stallman演讲，我吃完午饭看见RMS一个人在那里看书，我心想怎么到现在还没有粉丝前来围观，于是赶紧抓紧机会和这位大仙合影一张（按照惯例，我依旧不会放正面清晰照，哈哈）：</p>
<p><div id="attachment_1437" class="wp-caption aligncenter" style="width: 517px"><a href="http://yihui.name/cn/wp-content/uploads/2010/07/rms-and-yihui-at-user.jpg"><img class="size-full wp-image-1437" title="RMS and Yihui at useR! 2010" src="http://yihui.name/cn/wp-content/uploads/2010/07/rms-and-yihui-at-user.jpg" alt="RMS and Yihui at useR! 2010" width="507" height="375" /></a><p class="wp-caption-text">RMS and Yihui at useR! 2010</p></div>
<p>我跟RMS说，您老人家揍是俺们的神呐，他说，不，我只是个圣人（Saint）而已。看上面的照片，果然很圣人，照相时头上都顶着光圈（不是我特意涂上去的），而我就没有。</p>
<p>RMS演讲从下午1:30开始，一直到4点多（包括提问环节），此公果然大小演讲经历无数，讲起来滔滔不绝。他的英语非常清楚，不像一般的美国人，一句话省略音节无数，而且他用词也比较正式而常见，所以听他演讲还是比较轻松的。在外人看来，RMS似乎什么都反对，确实，他反对的事情太多太多了：Linux<sup>注1</sup>、MS Windows、Mac、iPad（他故意读作iBad）、Amazon Kindle<sup>注2</sup>、Adobe Flash<sup>注3</sup>、Facebook<sup>注4</sup>……</p>
<p>说到“SAS is bad不要用SAS”的时候大家哄堂大笑，但实际上他指的是“Software as a Service”的缩写SaaS，关于这一点，本小子也是在大家哄笑完之后才突然意识到，同时也听见前排有一位老先生“啊哈”一声可能也突然明白过来了，不过我估计还是有相当一部分人误会了，很多R的用户都对SAS没什么好感。可能RMS自己也不知道听众为什么会笑吧。SaaS的问题在于你把你的数据上传到服务商的服务器上，他们可能用你无法了解源代码的软件做了计算，并且对你的数据有完全的控制权，在RMS看来这和后门程序本质上没什么两样。</p>
<p>这次演讲他拒绝了录像，但接受<a title="http://www.r-statistics.com/wp-content/uploads/podcasts/Richard%20Stallman%20speach%20at%20useR2010%20-%20Talk.ogg" href="http://www.r-statistics.com/wp-content/uploads/podcasts/Richard%20Stallman%20speach%20at%20useR2010%20-%20Talk.ogg">录音</a>，因为录音发布的音频格式是ogg，也就是最常见的开源音频格式，而会场的录像没法用开源格式。</p>
<p>以中国人的处世原则来看，RMS简直就不可能活下去，他总是旗帜鲜明挑战最强大的机构，反对很多流行的软件和事物，在老百姓看来可能不容易理解。如此排他性地坚持“自由”，最终结果如何，我也无法预料，至少目前看来，不喜欢RMS的大有人在。</p>
<p>四天会议结束，下午Qihao开车送我和张主席去地铁站。尽管去年坐过DC的地铁，可还是忘记了怎么买地铁票，还是主席厉害，初来乍到啥都搞明白了。我们坐着地铁况且况且前往DC本来要去宾馆，但主席路上突然身体不适，我想了想先到China Town出车站，就近找个泰国餐馆坐下休息吃饭，好歹身体恢复，吃完晚饭继续地铁去宾馆；主席一路掏出胶卷相机照相（我还以为胶卷相机已经从摄影江湖消失多年了，主席说单反还不如胶卷呢）。再出地铁站的时候，主席见到一指路的向导MM站在那种两轮平衡车上很好玩，就上前问能不能借他玩玩，结果被回绝了……走去宾馆的路上，主席大谈那车的NB之处，高科技玩意儿，我不懂。</p>
<p>宾馆离机场不远，因为我是早上7点飞机，所以挑了家可以走去的，但第二天早上5点爬起来告别主席走去机场，半路上走到高架桥底下去了，而去机场的路在桥上，环顾四周，貌似木有上桥的地方，慌了神，好不容易碰到个晨练的，问了个上桥的地方，才走到机场了。从机场外到登机口也就花了大约五分钟时间，非常顺利。飞到芝加哥，发现天气恶劣，去得梅因的飞机晚点了，一会儿是晚半小时，一会儿变成一小时、一个半小时……本来上午11点到得梅因，结果下午1点才到，正好赶上租的车。那司机在机场看见飞机晚点，还给我打了个电话（当然手机关机中，给我留言），结果飞机落地过了不到10分钟我就出现在他面前，吓他一跳，嘿嘿，本小子坐在第一排，飞机落地开门就走，当然快。那段日子经常下雨，得梅因的水也很大，有些地势低的地方也被淹了。我回来的时候已经天晴了。</p>
<p>到了农村，休息几日，便搬家了。再过些日子，农村发洪水了；再过几天，开学了。暑假期间的大事至此基本记载完毕！退朝~~</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
注1：此处有两点解释，首先，他觉得那位Linus Torvalds先生写的Linux只是GNU自由软件中的一种，我们不能把一个操作系统直接称为Linux，而应称作GNU/Linux；其次，他不认同Torvalds的实用主义观点，他坚决反对非GNU的软件被包含到GNU/Linux系统中。所以，确切地说，他反对把Linux看做一个完整的操作系统。</p>
<p>注2：从某种意义上来讲，Kindle给你的书不算真正给你的，Amazon有权力收回电子书，有些客官可能听说了，去年7月的时候Amazon远程删除了所有用户的《1984》（很有讽刺意义——删去的偏偏是一本著名的讲极权主义的书），包括用户记的笔记。如果别人能控制我们手中的东西，我们的东西真的算是我们自己的么？Kindle这个词本来的意思是点火，于是RMS讽刺它是用来“烧书”的。</p>
<p>注3：Adoble Flash很“聪明”地发明了一种超级Cookie，它不受你的浏览器控制（因此无法从浏览器删除）、文件大小无上限、可以永久存在于你的电脑中，更可怕的是，这种Cookie中记录的信息可以不受电脑主人控制而被发送出去。若各位客官不知道Cookie为何物的话，可以自行搜索一下，简单说来，就是网站用来写入一些用户信息的文件，比如你的用户名密码什么的，普通的Cookie可以从浏览器中清除，而且有很多限制。</p>
<p>注4：又是一个不顾用户隐私的应用，看看它这些年来的默认隐私设定的变化就知道了：“<a title="http://mattmckeon.com/facebook-privacy/" href="http://mattmckeon.com/facebook-privacy/" target="_blank">The Evolution of Privacy on Facebook</a>”。默认情况下，除了生日和联系方式，已经没有任何一项个人信息不能被所有互联网用户看到了。当然，我们希望网上的笨蛋很少、大家都会保护隐私。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/28 -- <a href="http://yihui.name/cn/2010/08/sas-against-wpl-and-my-thoughts-on-open-source/" title="SAS与WPL之争以及我对开源的简单考虑">SAS与WPL之争以及我对开源的简单考虑</a> (8)</li><li>2010/08/25 -- <a href="http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/" title="关于《现代统计图形》书稿的说明">关于《现代统计图形》书稿的说明</a> (13)</li><li>2009/09/27 -- <a href="http://yihui.name/cn/2009/09/september-life-in-ames/" title="美国农村生活一月汇报">美国农村生活一月汇报</a> (29)</li><li>2010/08/08 -- <a href="http://yihui.name/cn/2010/08/art-of-points-in-r/" title="随机艺术一则：用R画点">随机艺术一则：用R画点</a> (20)</li><li>2010/07/30 -- <a href="http://yihui.name/cn/2010/07/master-thesis-graphics-and-simulation-in-stat-models/" title="统计图形和模拟视角下的模型理论解析">统计图形和模拟视角下的模型理论解析</a> (4)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
<enclosure url="http://www.r-statistics.com/wp-content/uploads/podcasts/Richard%20Stallman%20speach%20at%20useR2010%20-%20Talk.ogg" length="106764789" type="audio/ogg" />
		</item>
		<item>
		<title>SAS与WPL之争以及我对开源的简单考虑</title>
		<link>http://yihui.name/cn/2010/08/sas-against-wpl-and-my-thoughts-on-open-source/</link>
		<comments>http://yihui.name/cn/2010/08/sas-against-wpl-and-my-thoughts-on-open-source/#comments</comments>
		<pubDate>Sat, 28 Aug 2010 22:00:21 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[GPL]]></category>
		<category><![CDATA[Richard Stallman]]></category>
		<category><![CDATA[R语言]]></category>
		<category><![CDATA[SAS]]></category>
		<category><![CDATA[WPL]]></category>
		<category><![CDATA[开源软件]]></category>
		<category><![CDATA[版权]]></category>
		<category><![CDATA[自由软件]]></category>
		<category><![CDATA[闭源软件]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1485</guid>
		<description><![CDATA[年前Bill Venables在Exegeses on Linear Models中写道“SAS之于统计计算就像是微软之于个人计算”（但愿我的翻译是准确的），说得当然没错，现在SAS已经是“商业智能市场最大的独立厂商”（SAS的自我介绍）。不过Venables用“微软”这个比喻显然不是在夸奖SAS，接着看前面的PDF链接就知道了。去年11月SAS将一家叫WPL的公司告到伦敦高院，原因是“WPL违反SAS学习版的协议、对照SAS（的语法和结果）做了WPS软件的开发和测试工作”，今年7月出了初步结果，如我们能想象到的，天下公关大多一样：SAS和WPL两家公司都说自己打了胜仗。这让我对WPL也没什么好感，当然它也没办法，要不然产品没法卖了。 我不知道SAS学习版的版权是如何规定的，也不是法律人士，官司本身我无法评论。作为习惯开源软件的人（也就是脑子被“毒化”了的人），我个人对这种保护版权到极致的行为非常反感。WPL对照SAS进行开发，都会被起诉；现在的很多影音播放器在功能和界面上看起来都大同小异，是不是要互相起诉一番呢？我要是唱一首周什么伦的歌，他是不是也要告我学他呢？（当然我不会唱他的歌）用电影《十全九美》中那位钦差的话：“甚么浆糊啊？！注1……” 开源软件的哲学在于鼓励分享，为有能力改进程序的人提供机会（源代码），并保护这种分享在软件流通过程中不会被封闭。自由软件运动的发起人Richard Stallman有一个听起来很傻的例子：如果你的好朋友看见你的一个软件很好用，但是版权规定你不可以拷贝给他，你是要放弃友情还是违反版权呢？两件事情都很“邪恶”，显然你要选择相对不太邪恶的那种，也就是违反版权、把软件拷贝给你的朋友。（这是我对他在useR! 2010的演讲原话的翻译，听起来像个笑话，笑完之后想想，我们的确就是这么干的） 向往“透明”和“分享”是人类的天性，我们大多数人憎恨各种制度的不透明，憎恨专制，可是对软件却很宽容——只需要它能完成我的任务即可，管它开源闭源（部分包括我本人）。在很多方面，这确实也没什么，听歌看电影上网，谁管背后的软件是什么，只要好用就达到目的了。在休闲娱乐之外呢？有些人用了同样的想法：只要这个回归模型/结构方程模型能跑出来就行了，管它是怎么跑出来的。Stallman不喜欢Linux的创始人Torvalds，就是因为后者倾向于实用主义，而不顾开源的哲学。闭源软件的发展壮大就像滚雪球，不断积累人们的信任，因为对于闭源软件，除了信任，你无法做其它事情。有人要说了，你小子真是个怀疑狂，你要是不相信的话自己跑个回归对比一下结果呗！哈，听起来的确有道理，可是我跑哪个回归呢？这个回归对了下一个能对么？若回归是对的，主成分分析会不会有问题？就像P与NP问题，对闭源软件来说，验证每一条结果都很容易，但求解过程几乎不可能推出来。开源软件在bug问题上的做法看起来是违反常理的：自己的缺点怎么能公开呢？岂不是很难被人信任？事实也的确如此，开源软件的成功案例相比之下并不太多，人们对它敬而远之，其原因在我看来只不过是商业宣传的后果而已（看看周围的领导，有哪个在决定采购软件的时候不是看商业公司的影响力？）。 实际上我对自由软件的前景并不抱太乐观的态度，当然我觉得它肯定会存在并将长期存在下去（比社会主义初级阶段要长得多），但它很难真的强大起来。自由软件往往给普通百姓一种印象，就是“嘛？那都是黑客或编程疯子用的工具，我要算回归，干嘛不点按钮、非要写lm(y ~ x)”，这是个问题。如果你不够强大，你的声音就会被更大的声音淹没，正所谓人微言轻。Stallman的声音比起微软，不知道是不是小到可以忽略（加上他那样强硬的个性，有些人可能难以接受）。我的意思是，如果自由软件世界的人只关心程序本身，而不顾外部运作手段的话，是不会强大的。有时候我经常回忆我在08年到09年间在某咨询公司的一些见闻和体会，比如关于大局的“产业为本，战略为势，创意为魂，金融为器”或是关于个人的“忠诚心、信任度、专业力、江湖气”。就快要做爸爸的江堂兄（以后我们改称“虎娃/虎妞他爹”好了哈哈）以前连载了十几篇“男儿三十未封侯”，其实我脑子里也有那么点“封建思想”，不过“三十封侯”对绝大多数人来说已经是不可能的了（眼前本小子三十封没封PhD都没谱呢）。 呃，我说到哪儿了？…… &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;- 注1：WPS是WPL的一款软件产品，据其网站介绍，它同样能跑SAS代码，价钱不到SAS的十分之一，这次判决结果使得WPS还可以被（厚着脸皮？）卖三年，不知道SAS的大蛋糕会被咬掉多少，我估计不会对SAS有什么影响。 注2：这里的“甚”在原话中读作卷舌的“耸”，汉字中没有shong（三声），所以写不出来：shong么江湖啊。 注3：如果这里的读者有人阅读REvolution的博客的话，会发现他们那篇关于SAS和WPL文章显然偏向R，作为统计学家，却不把数字交待清楚，什么“一半被调查的人想转出SAS用别的软件”，典型的新闻噱头标题，其实挺没劲的，不知道算不算是为自己产品写的“软文”。 注4：开源从常理来讲本来就是吃亏的行为，但还是有人愿意贡献，而有些可耻的闭源软件却要违反GPL协议，明明使用了开源的成果，却不将开源部分的源代码公开，这里面包括QQ影音和暴风影音（使用了开源软件FFmpeg）。GPL协议的要求如此简单：你可以将开源软件用以商业用途，愿意怎么卖怎么卖，但前提是你必须把来自开源软件部分的源代码公开，不可以收入闭源软件隐藏起来（比如仅仅使用dll），不知道为什么有些软件连这么简单的要求都不能遵守。 爷还想看：2010/08/30 -- useR! 2010会议流水账回顾 (9)2009/09/27 -- 美国农村生活一月汇报 (29)2010/08/25 -- 关于《现代统计图形》书稿的说明 (13)2010/08/08 -- 随机艺术一则：用R画点 (20)2010/02/08 -- 关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题 (37)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2010/08/sas-against-wpl-and-my-thoughts-on-open-source/"><span class="dropcap-brown">十</span></a>年前Bill Venables在<a href="http://www.stats.ox.ac.uk/pub/MASS3/Exegeses.pdf" target="_blank">Exegeses on Linear Models</a>中写道“SAS之于统计计算就像是微软之于个人计算”（但愿我的翻译是准确的），说得当然没错，现在SAS已经是“商业智能市场最大的独立厂商”（SAS的自我介绍）。不过Venables用“微软”这个比喻显然不是在夸奖SAS，接着看前面的PDF链接就知道了。去年11月SAS将一家叫WPL的公司告到伦敦高院，原因是“WPL违反SAS学习版的协议、对照SAS（的语法和结果）做了WPS软件的开发和测试工作”，今年7月出了初步结果，如我们能想象到的，天下公关大多一样：<a title="http://www.sas.com/news/preleases/WPL.html" href="http://www.sas.com/news/preleases/WPL.html" target="_blank">SAS</a>和<a title="http://www.teamwpc.co.uk/press/world_programming_secures_high_court_victory_against_SAS" href="http://www.teamwpc.co.uk/press/world_programming_secures_high_court_victory_against_SAS" target="_blank">WPL</a>两家公司都说自己打了胜仗。这让我对WPL也没什么好感，当然它也没办法，要不然产品没法卖了。</p>
<p>我不知道SAS学习版的版权是如何规定的，也不是法律人士，官司本身我无法评论。作为习惯开源软件的人（也就是脑子被“毒化”了的人），我个人对这种保护版权到极致的行为非常反感。WPL对照SAS进行开发，都会被起诉；现在的很多影音播放器在功能和界面上看起来都大同小异，是不是要互相起诉一番呢？我要是唱一首周什么伦的歌，他是不是也要告我学他呢？（当然我不会唱他的歌）用电影《十全九美》中那位钦差的话：“甚么浆糊啊？！<sup>注1</sup>……”</p>
<p>开源软件的哲学在于鼓励分享，为有能力改进程序的人提供机会（源代码），并保护这种分享在软件流通过程中不会被封闭。自由软件运动的发起人Richard Stallman有一个听起来很傻的例子：如果你的好朋友看见你的一个软件很好用，但是版权规定你不可以拷贝给他，你是要放弃友情还是违反版权呢？两件事情都很“邪恶”，显然你要选择相对不太邪恶的那种，也就是<strong>违反版权、把软件拷贝给你的朋友</strong>。（这是我对他在useR! 2010的演讲原话的翻译，听起来像个笑话，笑完之后想想，我们的确就是这么干的）</p>
<p>向往“透明”和“分享”是人类的天性，我们大多数人憎恨各种制度的不透明，憎恨专制，可是对软件却很宽容——只需要它能完成我的任务即可，管它开源闭源（部分包括我本人）。在很多方面，这确实也没什么，听歌看电影上网，谁管背后的软件是什么，只要好用就达到目的了。在休闲娱乐之外呢？有些人用了同样的想法：只要这个回归模型/结构方程模型能跑出来就行了，管它是怎么跑出来的。Stallman不喜欢Linux的创始人Torvalds，就是因为后者倾向于实用主义，而不顾开源的哲学。闭源软件的发展壮大就像滚雪球，不断积累人们的信任，因为对于闭源软件，除了信任，你无法做其它事情。有人要说了，你小子真是个怀疑狂，你要是不相信的话自己跑个回归对比一下结果呗！哈，听起来的确有道理，可是我跑<strong>哪个</strong>回归呢？这个回归对了下一个能对么？若回归是对的，主成分分析会不会有问题？就像P与NP问题，对闭源软件来说，验证每一条结果都很容易，但求解过程几乎不可能推出来。开源软件在bug问题上的做法看起来是违反常理的：自己的缺点怎么能公开呢？岂不是很难被人信任？事实也的确如此，开源软件的成功案例相比之下并不太多，人们对它敬而远之，其原因在我看来只不过是商业宣传的后果而已（看看周围的领导，有哪个在决定采购软件的时候不是看商业公司的影响力？）。</p>
<p>实际上我对自由软件的前景并不抱太乐观的态度，当然我觉得它肯定会存在并将长期存在下去（比社会主义初级阶段要长得多），但它很难真的强大起来。自由软件往往给普通百姓一种印象，就是“嘛？那都是黑客或编程疯子用的工具，我要算回归，干嘛不点按钮、非要写<code>lm(y ~ x)</code>”，这是个问题。如果你不够强大，你的声音就会被更大的声音淹没，正所谓人微言轻。Stallman的声音比起微软，不知道是不是小到可以忽略（加上他那样强硬的个性，有些人可能难以接受）。我的意思是，如果自由软件世界的人只关心程序本身，而不顾外部运作手段的话，是不会强大的。有时候我经常回忆我在08年到09年间在某咨询公司的一些见闻和体会，比如关于大局的“产业为本，战略为势，创意为魂，金融为器”或是关于个人的“忠诚心、信任度、专业力、江湖气”。就快要做爸爸的<a title="http://li-and-jiang.com/blog" href="http://li-and-jiang.com/blog" target="_blank">江堂</a>兄（以后我们改称“虎娃/虎妞他爹”好了哈哈）以前连载了十几篇“男儿三十未封侯”，其实我脑子里也有那么点“封建思想”，不过“三十封侯”对绝大多数人来说已经是不可能的了（眼前本小子三十封没封PhD都没谱呢）。</p>
<p>呃，我说到哪儿了？……</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-<br />
注1：WPS是WPL的一款软件产品，据其网站介绍，它同样能跑SAS代码，价钱不到SAS的十分之一，这次判决结果使得WPS还可以被（厚着脸皮？）卖三年，不知道SAS的大蛋糕会被咬掉多少，我估计不会对SAS有什么影响。</p>
<p>注2：这里的“甚”在原话中读作卷舌的“耸”，汉字中没有shong（三声），所以写不出来：shong么江湖啊。</p>
<p>注3：如果这里的读者有人阅读REvolution的博客的话，会发现他们那篇关于SAS和WPL文章显然偏向R，作为统计学家，却不把数字交待清楚，什么“一半被调查的人想转出SAS用别的软件”，典型的新闻噱头标题，其实挺没劲的，不知道算不算是为自己产品写的“软文”。</p>
<p>注4：开源从常理来讲本来就是吃亏的行为，但还是有人愿意贡献，而有些可耻的闭源软件却要违反GPL协议，明明使用了开源的成果，却不将开源部分的源代码公开，这里面包括QQ影音和暴风影音（使用了开源软件FFmpeg）。GPL协议的要求如此简单：你可以将开源软件用以商业用途，愿意怎么卖怎么卖，但前提是你必须把来自开源软件部分的源代码公开，不可以收入闭源软件隐藏起来（比如仅仅使用dll），不知道为什么有些软件连这么简单的要求都不能遵守。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/30 -- <a href="http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/" title="useR! 2010会议流水账回顾">useR! 2010会议流水账回顾</a> (9)</li><li>2009/09/27 -- <a href="http://yihui.name/cn/2009/09/september-life-in-ames/" title="美国农村生活一月汇报">美国农村生活一月汇报</a> (29)</li><li>2010/08/25 -- <a href="http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/" title="关于《现代统计图形》书稿的说明">关于《现代统计图形》书稿的说明</a> (13)</li><li>2010/08/08 -- <a href="http://yihui.name/cn/2010/08/art-of-points-in-r/" title="随机艺术一则：用R画点">随机艺术一则：用R画点</a> (20)</li><li>2010/02/08 -- <a href="http://yihui.name/cn/2010/02/misc-issues-in-latex-lyx-r-sweave-pgfsweave/" title="关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题">关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题</a> (37)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/08/sas-against-wpl-and-my-thoughts-on-open-source/feed/</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>娇客两则：诸葛藏藏及其它</title>
		<link>http://yihui.name/cn/2010/08/two-jokes/</link>
		<comments>http://yihui.name/cn/2010/08/two-jokes/#comments</comments>
		<pubDate>Thu, 26 Aug 2010 15:54:44 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[Joke]]></category>
		<category><![CDATA[与猪摔跤]]></category>
		<category><![CDATA[娇客]]></category>
		<category><![CDATA[诸葛藏藏]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1478</guid>
		<description><![CDATA[最近有两则Joke（也就是娇客），觉得还挺好笑。一则是关于“祝诸葛藏藏生日快乐的”，我比较落伍，是先看到水木上这则笑话，再去Google的“诸葛藏藏”，建议不明真相的群众也按我的顺序看，效果更好。话说已经很久没看到有质量的冷笑话了。 另一则娇客呢，来自COS论坛一位统计界的武林至尊，要是依我以前的性子，肯定要好好调戏一番，这么大个论坛活宝，多难得，可遇不可求啊。不过现在本小子已经收敛很多了，安分守己，做个良民大大的，啊咂啊咂坏亭！ 爷还想看：2009/04/09 -- 又摔上跤了 (9)2009/04/04 -- Gmail的垃圾邮件判别器不和谐 (7)2009/03/24 -- 不要和猪摔跤 (11)2009/01/18 -- R的那些事儿 (2)2008/10/10 -- 循环两例 (0)]]></description>
			<content:encoded><![CDATA[<p>最近有两则Joke（也就是娇客），觉得还挺好笑。一则是关于“祝诸葛藏藏生日快乐的”，我比较落伍，是先看到<a title="http://www.newsmth.net/bbscon.php?bid=63&amp;id=2516357" href="http://www.newsmth.net/bbscon.php?bid=63&amp;id=2516357" target="_blank">水木上这则笑话</a>，再去Google的“诸葛藏藏”，建议不明真相的群众也按我的顺序看，效果更好。话说已经很久没看到有质量的冷笑话了。</p>
<p>另一则娇客呢，来自COS论坛<a title="http://cos.name/cn/topic/102348" href="http://cos.name/cn/topic/102348" target="_blank">一位统计界的武林至尊</a>，要是依我以前的性子，肯定要好好调戏一番，这么大个论坛活宝，多难得，可遇不可求啊。不过现在本小子已经收敛很多了，安分守己，做个良民大大的，啊咂啊咂坏亭！</p>
<span class="notice">刚又Google了一下“诸葛藏藏”，发现我的日志排在第一页了，汗，感谢国家，感谢Google的照顾……</span>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/04/09 -- <a href="http://yihui.name/cn/2009/04/argue-with-pigs/" title="又摔上跤了">又摔上跤了</a> (9)</li><li>2009/04/04 -- <a href="http://yihui.name/cn/2009/04/gmail-spam-filter-not-harmonious/" title="Gmail的垃圾邮件判别器不和谐">Gmail的垃圾邮件判别器不和谐</a> (7)</li><li>2009/03/24 -- <a href="http://yihui.name/cn/2009/03/dont-wrestle-with-pigs/" title="不要和猪摔跤">不要和猪摔跤</a> (11)</li><li>2009/01/18 -- <a href="http://yihui.name/cn/2009/01/interesting-r-fortunes/" title="R的那些事儿">R的那些事儿</a> (2)</li><li>2008/10/10 -- <a href="http://yihui.name/cn/2008/10/two-loops/" title="循环两例">循环两例</a> (0)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/08/two-jokes/feed/</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>关于《现代统计图形》书稿的说明</title>
		<link>http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/</link>
		<comments>http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/#comments</comments>
		<pubDate>Wed, 25 Aug 2010 06:18:30 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[数据展示]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[统计图示]]></category>
		<category><![CDATA[graphics包]]></category>
		<category><![CDATA[R语言]]></category>
		<category><![CDATA[现代统计图形]]></category>
		<category><![CDATA[统计图形]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1427</guid>
		<description><![CDATA[假回国，办完一堆事情，回家躲在小村子里悠哉悠哉，无丝竹之乱耳，无案牍之劳形，谈笑木有鸿儒，往来全是白丁注1。那古人云“春困秋乏夏打盹，冬日漫漫睡不醒”。本小子虽然贪睡，但在闭关写书这件事情上不含糊。其实与其说在写，不如说在复制，因为以前已经用纯LaTeX写了很多内容，后来看到pgfSweave包和LyX之后，觉得纯LaTeX太麻烦了，于是把原来的内容都复制到LyX中接着写。到从村子里出关时，R的基础图形（graphics包）已经全部写完，包括常见的底层作图函数和几乎所有高层作图函数。 后来回到有网络的世界，git push一下，就同步上网了，供各位客官公开下载（见于本站“作品”页面）。过了一阵子，领导的领导们看见了，觉得这样做有点不靠谱。再过了一阵子，又有好几个人建议我不要放出来公开下载。我呢，也绝非来自石器时代、对“世风日下人心不古”一无所知，佛曰“我不下地狱那哪个来下地狱呢？”佛敢下地狱，那是因为他是佛，是佛又咋地？佛有核心竞争力啊。现在这个忙碌年代，我们（别人）想尽办法折腾别人（我们），折腾的途径就是评价。网站不看内容要看备案，活人不看要看KPI，百姓生活不看要看GDP……而混学界的人就得靠著作来评价，于是使出浑身解数去发表，自己努力也好，坑蒙拐骗也好。我这样赤果果把作品放在网上供任何人下载，说出来真是一件很恐怖的事情，娘亲呐，多少豺狼虎豹盯着呢。 本来想继续扯到李一、马云等人，似乎有点扯远了，我是在想像马云这样伟大的宗教领袖式人物为何需要道教思想的支撑。俺们这个时代的人，真的越来越没底气了？打住打住。 最后我接受了腾飞的意见，把原本公开的书稿撤下来了。倒不是怕盗版抄袭，主要是一本不完整的书稿，对读者似乎不是一件好事，等正式完成之后，再集中发给大家提意见，这样效用会大一些；再想一想，出版之前公开下载也会对出版社带来一些麻烦，于是撤销下载。当然，目前我仍然内部开放书稿，我熟悉放心的人以及答应我在COS论坛帮别人回答图形方面100帖的人（鼓励为别人做贡献的人），皆可获得我的书稿。这本书的目录部分可以公开浏览： 各位客官若有任何建议，请随时与我联系，我会在完稿前尽量多采纳读者的意见。 &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; 注1：平民老百姓。 爷还想看：2010/08/30 -- useR! 2010会议流水账回顾 (9)2010/08/28 -- SAS与WPL之争以及我对开源的简单考虑 (8)2010/08/08 -- 随机艺术一则：用R画点 (20)2010/07/30 -- 第三届中国R语言会议（北京） (1)2010/07/30 -- 统计图形和模拟视角下的模型理论解析 (4)]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/"><span class="dropcap-red">暑</span></a>假回国，办完一堆事情，回家躲在小村子里悠哉悠哉，无丝竹之乱耳，无案牍之劳形，谈笑木有鸿儒，往来全是白丁<sup>注1</sup>。那古人云“春困秋乏夏打盹，冬日漫漫睡不醒”。本小子虽然贪睡，但在闭关写书这件事情上不含糊。其实与其说在写，不如说在复制，因为以前已经用纯LaTeX写了很多内容，后来看到pgfSweave包和LyX之后，觉得纯LaTeX太麻烦了，于是把原来的内容都复制到LyX中接着写。到从村子里出关时，R的基础图形（graphics包）已经全部写完，包括常见的底层作图函数和几乎所有高层作图函数。</p>
<p>后来回到有网络的世界，<code>git push</code>一下，就同步上网了，供各位客官公开下载（见于本站“<a title="http://yihui.name/cn/publication/" href="http://yihui.name/cn/publication/">作品</a>”页面）。过了一阵子，领导的领导们看见了，觉得这样做有点不靠谱。再过了一阵子，又有好几个人建议我不要放出来公开下载。我呢，也绝非来自石器时代、对“世风日下人心不古”一无所知，佛曰“我不下地狱那哪个来下地狱呢？”佛敢下地狱，那是因为他是佛，是佛又咋地？佛有核心竞争力啊。现在这个忙碌年代，我们（别人）想尽办法折腾别人（我们），折腾的途径就是评价。网站不看内容要看备案，活人不看要看KPI，百姓生活不看要看GDP……而混学界的人就得靠著作来评价，于是使出浑身解数去发表，自己努力也好，坑蒙拐骗也好。我这样赤果果把作品放在网上供任何人下载，说出来真是一件很恐怖的事情，娘亲呐，多少豺狼虎豹盯着呢。</p>
<p>本来想继续扯到李一、马云等人，似乎有点扯远了，我是在想像马云这样伟大的宗教领袖式人物为何需要道教思想的支撑。俺们这个时代的人，真的越来越没底气了？打住打住。</p>
<p>最后我接受了腾飞的意见，把原本公开的书稿撤下来了。倒不是怕盗版抄袭，主要是一本不完整的书稿，对读者似乎不是一件好事，等正式完成之后，再集中发给大家提意见，这样效用会大一些；再想一想，出版之前公开下载也会对出版社带来一些麻烦，于是撤销下载。当然，目前我仍然内部开放书稿，我熟悉放心的人以及答应我在COS论坛帮别人回答图形方面100帖的人（鼓励为别人做贡献的人），皆可获得我的书稿。这本书的目录部分可以公开浏览：</p>
<p><span class="download"><a title="http://yihui.name/cn/docs/StatGraphics/Modern-Stat-Graphics.pdf" href="http://yihui.name/cn/docs/StatGraphics/Modern-Stat-Graphics.pdf">《现代统计图形》目录下载（PDF）</a></span>
<p>各位客官若有任何建议，请随时与我联系，我会在完稿前尽量多采纳读者的意见。</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
注1：平民老百姓。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/30 -- <a href="http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/" title="useR! 2010会议流水账回顾">useR! 2010会议流水账回顾</a> (9)</li><li>2010/08/28 -- <a href="http://yihui.name/cn/2010/08/sas-against-wpl-and-my-thoughts-on-open-source/" title="SAS与WPL之争以及我对开源的简单考虑">SAS与WPL之争以及我对开源的简单考虑</a> (8)</li><li>2010/08/08 -- <a href="http://yihui.name/cn/2010/08/art-of-points-in-r/" title="随机艺术一则：用R画点">随机艺术一则：用R画点</a> (20)</li><li>2010/07/30 -- <a href="http://yihui.name/cn/2010/07/3rd-chinese-r-conference-beijing/" title="第三届中国R语言会议（北京）">第三届中国R语言会议（北京）</a> (1)</li><li>2010/07/30 -- <a href="http://yihui.name/cn/2010/07/master-thesis-graphics-and-simulation-in-stat-models/" title="统计图形和模拟视角下的模型理论解析">统计图形和模拟视角下的模型理论解析</a> (4)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/feed/</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>显示beamer幻灯片中的图形和表格编号</title>
		<link>http://yihui.name/cn/2010/08/show-caption-numbers-in-beamer/</link>
		<comments>http://yihui.name/cn/2010/08/show-caption-numbers-in-beamer/#comments</comments>
		<pubDate>Sun, 22 Aug 2010 21:04:45 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[计算机应用]]></category>
		<category><![CDATA[beamer]]></category>
		<category><![CDATA[LaTeX]]></category>
		<category><![CDATA[图形编号]]></category>
		<category><![CDATA[幻灯片]]></category>
		<category><![CDATA[表格编号]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1469</guid>
		<description><![CDATA[不夸张地说，我看过的几乎所有人的beamer幻灯片都有一个明显的问题：图形和表格的编号缺失了。也就是它们看起来是这样： Figure: 标题内容 或者 Table: 标题内容 在（挑剔的）我看来，这是难以容忍的缺陷。图表怎么能没有编号呢？既不好看，又不方便交叉引用。beamer自身默认图表是没有编号的，如果需要把编号调出来，只需要在导言区加上： \setbeamertemplate{caption}[numbered] 爷还想看：2010/07/27 -- 中国群众大学的毕业论文格式 (15)2010/04/19 -- 2010 John Chambers奖得主及评奖感想 (2)2010/02/08 -- 关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题 (37)2009/12/31 -- 统计之都新年构想（杂碎篇） (33)2009/04/13 -- 世上最痛苦的事 (9)]]></description>
			<content:encoded><![CDATA[<p>不夸张地说，我看过的<strong>几乎所有</strong>人的beamer幻灯片都有一个明显的问题：图形和表格的编号缺失了。也就是它们看起来是这样：</p>
<p style="text-align: center;">Figure: 标题内容</p>
<p>或者</p>
<p style="text-align: center;">Table: 标题内容</p>
<p>在（挑剔的）我看来，这是难以容忍的缺陷。图表怎么能没有编号呢？既不好看，又不方便交叉引用。beamer自身默认图表是没有编号的，如果需要把编号调出来，只需要在导言区加上：</p>
<pre>\setbeamertemplate{caption}[numbered]</pre>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/07/27 -- <a href="http://yihui.name/cn/2010/07/shitizen-university-of-china-thesis/" title="中国群众大学的毕业论文格式">中国群众大学的毕业论文格式</a> (15)</li><li>2010/04/19 -- <a href="http://yihui.name/cn/2010/04/2010-john-chambers-winner-and-my-comments/" title="2010 John Chambers奖得主及评奖感想">2010 John Chambers奖得主及评奖感想</a> (2)</li><li>2010/02/08 -- <a href="http://yihui.name/cn/2010/02/misc-issues-in-latex-lyx-r-sweave-pgfsweave/" title="关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题">关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题</a> (37)</li><li>2009/12/31 -- <a href="http://yihui.name/cn/2009/12/cos-in-2010/" title="统计之都新年构想（杂碎篇）">统计之都新年构想（杂碎篇）</a> (33)</li><li>2009/04/13 -- <a href="http://yihui.name/cn/2009/04/bitterness-from-latex-to-word/" title="世上最痛苦的事">世上最痛苦的事</a> (9)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/08/show-caption-numbers-in-beamer/feed/</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>鱼兮鱼兮奈若何</title>
		<link>http://yihui.name/cn/2010/08/fisher-in-the-ada-hayden-lake/</link>
		<comments>http://yihui.name/cn/2010/08/fisher-in-the-ada-hayden-lake/#comments</comments>
		<pubDate>Sat, 14 Aug 2010 04:50:32 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[Ada Hayden]]></category>
		<category><![CDATA[民以食为上帝]]></category>
		<category><![CDATA[钓鱼]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1449</guid>
		<description><![CDATA[年买了两根鱼竿，一直放家里没用，这次暑假去办了钓鱼证，开始启用这两根鱼竿。到现在为止，本渔夫一共去钓了四次鱼，钓鱼的湖离家不到两公里，蹬着自行车10分钟就到了。第一次去，啥经验都没有，偌大一片湖，不知在哪儿钓好（围着湖转啊转），而且有一根鱼竿还没搞清楚怎么甩出去，鱼饵也是用的假饵，鱼根本理都不理，最后以钩了几把水草收场。第二次去，选了个阴凉处，树多草厚，换了真饵（人造蚯蚓），弄明白另一根鱼竿如何甩了，熬了两个多小时，到准备回家的时候不小心钓上一条不知道叫什么名字的鱼，眼珠子贼亮贼亮，嘴里还有几颗尖牙，看着挺恐怖。不过到最后还是进了肚子……顺便说一下，这美帝的鱼果然如传说中一样，太难刮鳞。三小时钓鱼，一小时刮鳞，半小时烧鱼。 第三次去钓鱼，为了节省蚯蚓，就用了上次用过的蚯蚓，结果可能因为不新鲜的缘故，没有鱼来咬。又是熬了两三个小时，差点被蚊子抬走，这湖边从晚上八点开始，蚊子就乌泱乌泱的，第二次钓鱼被咬了五十多个包，这次不敢呆久，赶紧收拾家伙回家。因为站了太久想运动运动，于是决定朝湖的另一边绕圈骑回家，结果没走多远就发现路当中有个黑乎乎的东西，我就犹豫着要不要下车去看看，最终还是决定回去仔细看看。当时天已经黑得快看不清了，那团黑乎乎的东西原来是只巨大的乌龟。我滴个亲娘啊，本小子这是第一次在路上看到活乌龟（这美帝就像个动物园啥都有），那乌龟看起来有把年纪了。操起电话请示领导，得到指示“活捉回来”，好嘛，拿着塑料袋上前去套它，结果……结果被这乌龟吓了一大跳！这龟老大本来在路上伸开四脚趴着，见我前来就把脚收回去了，在我靠近它的时候，它一直张着血盆大嘴冲我龇牙，我心里有点发毛（提示：天已经黑得差不多了，在路上遇到这么个怪物），乌龟急了大概也咬人吧……继续接近，结果那龟老大猛然跳起来，这个动作可是把我吓得不轻，要不是路还算宽，我都被吓到湖里去了。最后落荒而逃。噫，这胆量……人都用“乌龟胆子”来形容胆小，老夫这次算是比乌龟胆子还小了。 第四次去钓鱼是今天的事情，这几天Ames发洪水，湖里水位也涨了很多，前天晚上去湖边视察了一下，发现湖边的路有多处被淹，有下图为证：车到水前疑无路。 今天过去换了新鲜蚯蚓，不到20分钟就钓到一条大鲶鱼，我费了老半天劲才把这家伙拽上来，各位客官看鱼竿的弯曲程度就知道了（由于本图中渔夫是配角，所以隐去）。接着和这条鱼斗争了半天才把鱼钩取出来——它把钩吞得太深了，在岸上又拼命挣扎。 明天准备烤鱼。善哉善哉…… 爷还想看：2010/05/09 -- Keep on Eating (3)2009/12/22 -- 冬至饺子 (18)2009/10/03 -- 学院网站、考试、月饼、排骨及其它 (12)2009/09/27 -- 美国农村生活一月汇报 (29)2009/08/28 -- 暑假轨迹 (19)]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2010/08/fisher-in-the-ada-hayden-lake/"><span class="dropcap-none">去</span></a>年买了两根鱼竿，一直放家里没用，这次暑假去办了钓鱼证，开始启用这两根鱼竿。到现在为止，本渔夫一共去钓了四次鱼，钓鱼的湖离家不到两公里，蹬着自行车10分钟就到了。第一次去，啥经验都没有，偌大一片湖，不知在哪儿钓好（围着湖转啊转），而且有一根鱼竿还没搞清楚怎么甩出去，鱼饵也是用的假饵，鱼根本理都不理，最后以钩了几把水草收场。第二次去，选了个阴凉处，树多草厚，换了真饵（人造蚯蚓），弄明白另一根鱼竿如何甩了，熬了两个多小时，到准备回家的时候不小心钓上一条不知道叫什么名字的鱼，眼珠子贼亮贼亮，嘴里还有几颗尖牙，看着挺恐怖。不过到最后还是进了肚子……顺便说一下，这美帝的鱼果然如传说中一样，太难刮鳞。三小时钓鱼，一小时刮鳞，半小时烧鱼。</p>
<p><div id="attachment_1452" class="wp-caption aligncenter" style="width: 510px"><a href="http://yihui.name/cn/wp-content/uploads/2010/08/first-fish-1.jpg"><img class="size-full wp-image-1452" title="池鱼" src="http://yihui.name/cn/wp-content/uploads/2010/08/first-fish-1.jpg" alt="池鱼" width="500" height="375" /></a><p class="wp-caption-text">池鱼</p></div>
<div id="attachment_1450" class="wp-caption aligncenter" style="width: 510px"><a href="http://yihui.name/cn/wp-content/uploads/2010/08/first-fish-2.jpg"><img class="size-full wp-image-1450" title="人为刀俎我为鱼肉" src="http://yihui.name/cn/wp-content/uploads/2010/08/first-fish-2.jpg" alt="人为刀俎我为鱼肉" width="500" height="375" /></a><p class="wp-caption-text">人为刀俎我为鱼肉</p></div>
<div id="attachment_1451" class="wp-caption aligncenter" style="width: 510px"><a href="http://yihui.name/cn/wp-content/uploads/2010/08/first-fish-3.jpg"><img class="size-full wp-image-1451" title="热锅上的鱼" src="http://yihui.name/cn/wp-content/uploads/2010/08/first-fish-3.jpg" alt="热锅上的鱼" width="500" height="375" /></a><p class="wp-caption-text">热锅上的鱼</p></div>
<p>第三次去钓鱼，为了节省蚯蚓，就用了上次用过的蚯蚓，结果可能因为不新鲜的缘故，没有鱼来咬。又是熬了两三个小时，差点被蚊子抬走，这湖边从晚上八点开始，蚊子就乌泱乌泱的，第二次钓鱼被咬了五十多个包，这次不敢呆久，赶紧收拾家伙回家。因为站了太久想运动运动，于是决定朝湖的另一边绕圈骑回家，结果没走多远就发现路当中有个黑乎乎的东西，我就犹豫着要不要下车去看看，最终还是决定回去仔细看看。当时天已经黑得快看不清了，那团黑乎乎的东西原来是只巨大的乌龟。我滴个亲娘啊，本小子这是第一次在路上看到活乌龟（这美帝就像个动物园啥都有），那乌龟看起来有把年纪了。操起电话请示领导，得到指示“活捉回来”，好嘛，拿着塑料袋上前去套它，结果……结果被这乌龟吓了一大跳！这龟老大本来在路上伸开四脚趴着，见我前来就把脚收回去了，在我靠近它的时候，它一直张着血盆大嘴冲我龇牙，我心里有点发毛（提示：天已经黑得差不多了，在路上遇到这么个怪物），乌龟急了大概也咬人吧……继续接近，结果那龟老大猛然跳起来，这个动作可是把我吓得不轻，要不是路还算宽，我都被吓到湖里去了。最后落荒而逃。噫，这胆量……人都用“乌龟胆子”来形容胆小，老夫这次算是比乌龟胆子还小了。</p>
<p>第四次去钓鱼是今天的事情，这几天Ames发洪水，湖里水位也涨了很多，前天晚上去湖边视察了一下，发现湖边的路有多处被淹，有下图为证：车到水前疑无路。</p>
<div id="attachment_1453" class="wp-caption aligncenter" style="width: 510px"><a href="http://yihui.name/cn/wp-content/uploads/2010/08/flood-in-the-lake.jpg"><img class="size-full wp-image-1453" title="视察洪水" src="http://yihui.name/cn/wp-content/uploads/2010/08/flood-in-the-lake.jpg" alt="视察洪水" width="500" height="375" /></a><p class="wp-caption-text">视察洪水（左起第一位是我，第二位是我的自行车）</p></div>
<p>今天过去换了新鲜蚯蚓，不到20分钟就钓到一条大鲶鱼，我费了老半天劲才把这家伙拽上来，各位客官看鱼竿的弯曲程度就知道了（由于本图中渔夫是配角，所以隐去）。接着和这条鱼斗争了半天才把鱼钩取出来——它把钩吞得太深了，在岸上又拼命挣扎。</p>
<div id="attachment_1454" class="wp-caption aligncenter" style="width: 510px"><a href="http://yihui.name/cn/wp-content/uploads/2010/08/second-fish.jpg"><img class="size-full wp-image-1454" title="上钩的鲶鱼" src="http://yihui.name/cn/wp-content/uploads/2010/08/second-fish.jpg" alt="上钩的鲶鱼" width="500" height="666" /></a><p class="wp-caption-text">上钩的鲶鱼</p></div>
<p>明天准备烤鱼。善哉善哉……</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/05/09 -- <a href="http://yihui.name/cn/2010/05/keep-on-eating/" title="Keep on Eating">Keep on Eating</a> (3)</li><li>2009/12/22 -- <a href="http://yihui.name/cn/2009/12/winter-solstice-dumplings/" title="冬至饺子">冬至饺子</a> (18)</li><li>2009/10/03 -- <a href="http://yihui.name/cn/2009/10/website-exam-mooncake-rib-etc/" title="学院网站、考试、月饼、排骨及其它">学院网站、考试、月饼、排骨及其它</a> (12)</li><li>2009/09/27 -- <a href="http://yihui.name/cn/2009/09/september-life-in-ames/" title="美国农村生活一月汇报">美国农村生活一月汇报</a> (29)</li><li>2009/08/28 -- <a href="http://yihui.name/cn/2009/08/trace-in-summer/" title="暑假轨迹">暑假轨迹</a> (19)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/08/fisher-in-the-ada-hayden-lake/feed/</wfw:commentRss>
		<slash:comments>21</slash:comments>
		</item>
		<item>
		<title>随机艺术一则：用R画点</title>
		<link>http://yihui.name/cn/2010/08/art-of-points-in-r/</link>
		<comments>http://yihui.name/cn/2010/08/art-of-points-in-r/#comments</comments>
		<pubDate>Sun, 08 Aug 2010 07:20:34 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[怪哉怪哉]]></category>
		<category><![CDATA[统计图示]]></category>
		<category><![CDATA[points()]]></category>
		<category><![CDATA[R语言]]></category>
		<category><![CDATA[彩蛋]]></category>
		<category><![CDATA[点]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1440</guid>
		<description><![CDATA[丰同学建议在《现代统计图形》书稿中插入一些彩蛋，我想第一颗蛋就用这些杂乱无章的彩色点线吧。不过小的实在拿不定哪一幅图看着更“艺术”一些，因此请路人帮忙挑选一下。下图只是众多可能的随机图中的一幅，更多图形请下载查看后面的PDF文件。挑好之后把图中的起始数字告诉小的，小的会在书稿的致谢部分说明您的贡献。 如果客观关心这些图是如何画出来的，这里有代码有真相： devAskNewPage(TRUE) par(mar = c(0.2, 0.2, 0.2, 0.2), mfrow = c(2, 2)) for (n in 41:200) { set.seed(711) plot.new() size = c(replicate(n, 1/rbeta(2, 1.5, 4))) center = t(replicate(n, runif(2))) center = center[rep(1:n, each = 2), ] color = apply(replicate(2 * n, sample(c(0:9, LETTERS[1:6]), 8, replace = TRUE)), 2, function(x) sprintf("#%s", paste(x, collapse = ""))) [...]]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2010/08/art-of-points-in-r/"><span class="dropcap-grey">李</span></a>丰同学建议在《现代统计图形》书稿中插入一些彩蛋，我想第一颗蛋就用这些杂乱无章的彩色点线吧。不过小的实在拿不定哪一幅图看着更“艺术”一些，因此请路人帮忙挑选一下。下图只是众多可能的随机图中的一幅，更多图形请下载查看后面的PDF文件。挑好之后把图中的起始数字告诉小的，小的会在书稿的致谢部分说明您的贡献。</p>
<p><div id="attachment_1441" class="wp-caption aligncenter" style="width: 610px"><a href="http://yihui.name/cn/wp-content/uploads/2010/08/art-of-points-in-R.png"><img class="size-full wp-image-1441" title="用随机大小和颜色画点" src="http://yihui.name/cn/wp-content/uploads/2010/08/art-of-points-in-R.png" alt="用随机大小和颜色画点" width="600" height="600" /></a><p class="wp-caption-text">用随机大小和颜色画点</p></div>
<span class="download">下载<a title="http://yihui.name/cn/wp-content/uploads/2010/08/art-of-points-in-R.pdf" href="http://yihui.name/cn/wp-content/uploads/2010/08/art-of-points-in-R.pdf">全部40页PDF图形文件</a>（2.7Mb）</span>
<p><span id="more-1440"></span>如果客观关心这些图是如何画出来的，这里有代码有真相：</p>
<pre>devAskNewPage(TRUE)
par(mar = c(0.2, 0.2, 0.2, 0.2), mfrow = c(2, 2))
for (n in 41:200) {
    set.seed(711)
    plot.new()
    size = c(replicate(n, 1/rbeta(2, 1.5, 4)))
    center = t(replicate(n, runif(2)))
    center = center[rep(1:n, each = 2), ]
    color = apply(replicate(2 * n, sample(c(0:9, LETTERS[1:6]),
        8, replace = TRUE)), 2, function(x) sprintf("#%s", paste(x,
        collapse = "")))
    points(center, cex = size, pch = rep(20:21, n), col = color)
    box()
    text(0.5, 0.5, n)
}
</pre>
<h2>用作桌面</h2>
<p>如果有客观想用这样的图形作桌面的话，也不是件难事：用png()设备把图形记录下来，然后将图形文件设为桌面即可。以我的显示器为例，我的分辨率是1366&#215;768，那么：</p>
<pre># 为了保证高质量的PNG图片，这里用附加包cairoDevice
# 如果读者对图片质量要求不高，也可以用R自带的png()设备
# 即png("points-desktop.png", width = 1366, height = 768)
library(cairoDevice)
Cairo_png("points-desktop.png", width = 13.66 * 1.39,
    height = 7.68 * 1.39)
par(mar = c(0, 0, 0, 0))
n = 76
set.seed(711)
plot.new()
size = c(replicate(n, 1/rbeta(2, 1.5, 4)))
center = t(replicate(n, runif(2)))
center = center[rep(1:n, each = 2), ]
color = apply(replicate(2 * n, sample(c(0:9, LETTERS[1:6]),
    8, replace = TRUE)), 2, function(x) sprintf("#%s", paste(x,
    collapse = "")))
points(center, cex = size, pch = rep(20:21, n), col = color)
dev.off()
</pre>
<p>这样，我们打开文件<code>points-desktop.png</code>（它在当前工作目录下<code>getwd()</code>），设定为桌面就可以了。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/30 -- <a href="http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/" title="useR! 2010会议流水账回顾">useR! 2010会议流水账回顾</a> (9)</li><li>2010/08/28 -- <a href="http://yihui.name/cn/2010/08/sas-against-wpl-and-my-thoughts-on-open-source/" title="SAS与WPL之争以及我对开源的简单考虑">SAS与WPL之争以及我对开源的简单考虑</a> (8)</li><li>2010/08/25 -- <a href="http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/" title="关于《现代统计图形》书稿的说明">关于《现代统计图形》书稿的说明</a> (13)</li><li>2010/02/08 -- <a href="http://yihui.name/cn/2010/02/misc-issues-in-latex-lyx-r-sweave-pgfsweave/" title="关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题">关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题</a> (37)</li><li>2009/12/31 -- <a href="http://yihui.name/cn/2009/12/cos-in-2010/" title="统计之都新年构想（杂碎篇）">统计之都新年构想（杂碎篇）</a> (33)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/08/art-of-points-in-r/feed/</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>第三届中国R语言会议（北京）</title>
		<link>http://yihui.name/cn/2010/07/3rd-chinese-r-conference-beijing/</link>
		<comments>http://yihui.name/cn/2010/07/3rd-chinese-r-conference-beijing/#comments</comments>
		<pubDate>Sat, 31 Jul 2010 03:17:03 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[R 语言]]></category>
		<category><![CDATA[R语言会议]]></category>
		<category><![CDATA[现代统计图形]]></category>
		<category><![CDATA[第三届中国R语言会议]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1422</guid>
		<description><![CDATA[三届中国R语言会议的北京会场已经在6月轰轰隆隆召开完了，可能是由于今年的会议时间接近期末考试，会后的民间报道不如去年多，估计开完会都拍拍屁股去复习考试了。开会这种活动的目的也不在于能现场学到多少东西，能知道什么事情是可行的就可以了，再顺便围观一下闻名未见面的活人们，混个脸熟以后好办事。这次开会也认识了不少新面孔，像攻城师阿稳啊，明星小朋友啊，上海来的啊，香港来的啊，当然大部分还是老面孔，诸如潘主席啊小邱啊关大总管啊刘思喆李舰二位师兄啊等等。用郭德刚的话说，“不错，我们今天来的观众挺多，楼上楼下来了有两三万人。”这两三万人多亏有会议组委会安排，群众们普遍表示情绪稳定，会议秩序井然。我们的新成员如熊熹谢漫錡（为了找这个名字怎么写我又上了一次校内，ft）付科宇等小盆友都挺能张罗，希望下次能有更多新的小盆友加入进来。 我第一天讲的统计图形讲稿后来已经更新传上来了，由于麦克风的不平稳性，估计很多人都没听清我在说什么，不过这也没啥，因为我讲的内容都已经出现在我的《现代统计图形》书稿中了，想要详细了解的读者可以去作品页面中下载不完整的书稿。第二天的演讲幻灯片和代码也都发布在统计之都上的第三届中国R语言会议纪要中了。 尽管中国R语言会议还未形成燎原之势，但八卦的R core们其实还是在偷偷关注的。我这次去马里兰NIST参加useR! 2010找机会又跟Martin Machaeler提了提我们的“山寨会议”，这位老大一边摆弄着手里的Emacs一边听我忽悠，到最后走出会场我才发现他其实没有真正想起来我是谁，因为他最后猛然想起来R Journal上貌似有一篇中国R会议的报道……老大们表示他们个人还是很有兴趣去一趟中国的，不过要把这三四百观众都带去恐怕有点困难，路费啊签证啊都麻烦。所以呢，我们下次可以考虑请一些有影响力的R core们去中国，办一届英文会议也未尝不可。 回头来看，这次会议的主要问题还是准备仓促（难道是我留下的病根？），收到的演讲不够覆盖R的功能；其次就是交流时间不够，没有有意制造足够的交流机会，当然这与会议时间长度有关，但会议日程安排上应该可以改进，用制度促进交流；最后，会议的产出也不明确，有个出版相关的小组就好了，即使不出版，发表在COS主站上也好，开完会就散伙，可惜了儿了。回头再线下商量。 会议T恤是这次会议的一个小亮点，下次要保持。顺便附图一张：某童鞋把这次R语言会议的T恤穿到了美帝农村钓鱼（其实一条鱼都没钓到）。 下期预告：《现代统计图形》书稿。这两天忙着搬家，估计要等几天了。 爷还想看：2010/08/25 -- 关于《现代统计图形》书稿的说明 (13)2010/05/23 -- 通知两则：第三届R会议培训及统计人才招聘 (12)2009/05/31 -- 第一期The R Journal和第一届中国R语言会议 (9)2009/03/22 -- 去年R会议的报告 (7)]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2010/07/3rd-chinese-r-conference-beijing/"><span class="dropcap-none">第</span></a>三届中国R语言会议的北京会场已经在6月轰轰隆隆召开完了，可能是由于今年的会议时间接近期末考试，会后的民间报道不如去年多，估计开完会都拍拍屁股去复习考试了。开会这种活动的目的也不在于能现场学到多少东西，能知道什么事情是可行的就可以了，再顺便围观一下闻名未见面的活人们，混个脸熟以后好办事。这次开会也认识了不少新面孔，像攻城师阿稳啊，明星小朋友啊，上海来的啊，香港来的啊，当然大部分还是老面孔，诸如潘主席啊小邱啊关大总管啊刘思喆李舰二位师兄啊等等。用郭德刚的话说，“不错，我们今天来的观众挺多，楼上楼下来了有两三万人。”这两三万人多亏有会议组委会安排，群众们普遍表示情绪稳定，会议秩序井然。我们的新成员如熊熹谢漫錡（为了找这个名字怎么写我又上了一次校内，ft）付科宇等小盆友都挺能张罗，希望下次能有更多新的小盆友加入进来。</p>
<p>我第一天讲的统计图形讲稿后来<a title="http://yihui.name/cn/2010/05/chinar-tutorial-and-sas-experts-wanted/" href="http://yihui.name/cn/2010/05/chinar-tutorial-and-sas-experts-wanted/" target="_blank">已经更新传上来了</a>，由于麦克风的不平稳性，估计很多人都没听清我在说什么，不过这也没啥，因为我讲的内容都已经出现在我的<a title="http://yihui.name/cn/publication/#MSG" href="http://yihui.name/cn/publication/#MSG">《现代统计图形》</a>书稿中了，想要详细了解的读者可以去<a title="http://yihui.name/cn/publication/" href="http://yihui.name/cn/publication/">作品页面</a>中下载不完整的书稿。第二天的演讲幻灯片和代码也都发布在统计之都上的<a title="http://cos.name/2010/06/3rd-china-r-beijing-summary/" href="http://cos.name/2010/06/3rd-china-r-beijing-summary/" target="_blank">第三届中国R语言会议纪要</a>中了。</p>
<p>尽管中国R语言会议还未形成燎原之势，但八卦的R core们其实还是在偷偷关注的。我这次去马里兰NIST参加useR! 2010找机会又跟Martin Machaeler提了提我们的“山寨会议”，这位老大一边摆弄着手里的Emacs一边听我忽悠，到最后走出会场我才发现他其实没有真正想起来我是谁，因为他最后猛然想起来R Journal上貌似有一篇中国R会议的报道……老大们表示他们个人还是很有兴趣去一趟中国的，不过要把这三四百观众都带去恐怕有点困难，路费啊签证啊都麻烦。所以呢，我们下次可以考虑请一些有影响力的R core们去中国，办一届英文会议也未尝不可。</p>
<p>回头来看，这次会议的主要问题还是准备仓促（难道是我留下的病根？），收到的演讲不够覆盖R的功能；其次就是交流时间不够，没有有意制造足够的交流机会，当然这与会议时间长度有关，但会议日程安排上应该可以改进，用制度促进交流；最后，会议的产出也不明确，有个出版相关的小组就好了，即使不出版，发表在COS主站上也好，开完会就散伙，可惜了儿了。回头再线下商量。</p>
<p>会议T恤是这次会议的一个小亮点，下次要保持。顺便附图一张：某童鞋把这次R语言会议的T恤穿到了美帝农村钓鱼（其实一条鱼都没钓到）。</p>
<p><div id="attachment_1431" class="wp-caption aligncenter" style="width: 610px"><a href="http://yihui.name/cn/wp-content/uploads/2010/07/fishing-in-ames.jpg"><img class="size-full wp-image-1431 " title="中国R语言会议T恤与Ada Hayden湖边的渔夫" src="http://yihui.name/cn/wp-content/uploads/2010/07/fishing-in-ames.jpg" alt="R会议T恤与Ada Hayden湖边的渔夫" width="600" height="398" /></a><p class="wp-caption-text">中国R语言会议T恤与Ada Hayden湖边的渔夫</p></div>
<p>下期预告：《现代统计图形》书稿。这两天忙着搬家，估计要等几天了。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/25 -- <a href="http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/" title="关于《现代统计图形》书稿的说明">关于《现代统计图形》书稿的说明</a> (13)</li><li>2010/05/23 -- <a href="http://yihui.name/cn/2010/05/chinar-tutorial-and-sas-experts-wanted/" title="通知两则：第三届R会议培训及统计人才招聘">通知两则：第三届R会议培训及统计人才招聘</a> (12)</li><li>2009/05/31 -- <a href="http://yihui.name/cn/2009/05/1st-volume-the-r-journal-and-1st-chinese-r-conference/" title="第一期The R Journal和第一届中国R语言会议">第一期The R Journal和第一届中国R语言会议</a> (9)</li><li>2009/03/22 -- <a href="http://yihui.name/cn/2009/03/1st-chinese-r-conference-report/" title="去年R会议的报告">去年R会议的报告</a> (7)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/07/3rd-chinese-r-conference-beijing/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>统计图形和模拟视角下的模型理论解析</title>
		<link>http://yihui.name/cn/2010/07/master-thesis-graphics-and-simulation-in-stat-models/</link>
		<comments>http://yihui.name/cn/2010/07/master-thesis-graphics-and-simulation-in-stat-models/#comments</comments>
		<pubDate>Fri, 30 Jul 2010 06:30:40 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[统计图示]]></category>
		<category><![CDATA[统计学]]></category>
		<category><![CDATA[统计计算]]></category>
		<category><![CDATA[硕士毕业论文]]></category>
		<category><![CDATA[统计图形]]></category>
		<category><![CDATA[统计模型]]></category>
		<category><![CDATA[统计模拟]]></category>
		<category><![CDATA[统计理论]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1410</guid>
		<description><![CDATA[前在群众大学给一些客官承诺过我会把我的硕士毕业论文发上来，其实早就在网上了，只不过没吱声而已，用Git同步一下容易，但写几个字介绍一下就花时间了。感兴趣的客官可以去本站作品页面内下载：http://yihui.name/cn/publication/#GSM 这论文呢，自我评价可以给个80分。最大的问题在于没有花时间去整理文章的结构，所以构架上稍微有点散乱（俗称“意识流”）。内容上熟悉我的博客的客官一眼就能看出来，其实都是些博客文章的汇总，只不过用LaTeX让它们变得“人模狗样”一些而已，好在本小子平时也积攒了这些鸡零狗碎的东西，动过自己的脑子。我觉得群众大学的毕业论文，很多都是一个套路：经济/金融数据套一个神奇的模型，直到最后整个世界一片和谐，读者在最后一章都能隐约看到上帝老爷子在朝你挥手。其实也没啥，找工作不容易，地球人也都知道写论文就是忽悠——漫漫人生路上一道工序。 由于本小子是个小人（小小的活人），所以总关心小人关心的事情（俗称“人本主义”）。这论文嘛，窃以为也没什么上下高低之分，说出你怎么想的就可以了，而不要总说“他们”怎么想怎么做。一定要有数学上的创新？一定要有人家看不懂的公式才是好论文？一定要有综述？一定要有长长的参考文献列表才是好论文？一定要板起脸？不能写八卦？不准幽默？……嗨，作茧自缚。几年前看到一篇好文章，颇具恶搞性质，建议各位客官收藏：How to write Consistently Boring Scientific Literature。 言归正传：本文是厌倦八股文和数学理论的产物，从理论角度来说，几乎没什么价值，不过这篇文章是用Sweave写的，完全具有可重复性和100%透明度，对文中结果有怀疑的客官可以自行运行代码；其次，统计模拟和图形的声音在界内太微弱，大家都很忙，有人在忙着推公式，有人在忙着编数据，有人在忙着把公式用到不知道是不是编出来的数据上，本小子跟着瞎掺和了点别的东西，仅此而已。甭管有用没用，敬请拍砖。 －－－－－－－－－－外一篇：坛霸是怎样练成的－－－－－－－－－－ 曾经有童鞋称呼在下为“坛霸”，这个……有时候确实有那么点意思，无图无真相（两个多月没怎么回帖了，一鼓作气）： 接下来我会陆续写第三届中国R语言会议、《现代统计图形》书稿和useR! 2010，若时间允许，我考虑一下电视剧《九阴真经》（93版）。 爷还想看：2010/08/30 -- useR! 2010会议流水账回顾 (9)2010/08/25 -- 关于《现代统计图形》书稿的说明 (13)2010/05/23 -- 通知两则：第三届R会议培训及统计人才招聘 (12)2010/05/19 -- 渐近理想国：McNemar检验的两种统计量 (0)2010/04/15 -- 知识与常识：分析大学生挂科因素？ (17)]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2010/07/master-thesis-graphics-and-simulation-in-stat-models/"><span class="dropcap-blue">之</span></a>前在群众大学给一些客官承诺过我会把我的<a title="http://yihui.name/cn/docs/StatGraphics/Graphics-in-Stat-Models.pdf" href="http://yihui.name/cn/docs/StatGraphics/Graphics-in-Stat-Models.pdf">硕士毕业论文</a>发上来，其实早就在网上了，只不过没吱声而已，用Git同步一下容易，但写几个字介绍一下就花时间了。感兴趣的客官可以去本站<a title="http://yihui.name/cn/publication/" href="http://yihui.name/cn/publication/" target="_blank">作品页面</a>内下载：<a title="统计图形和模拟视角下的模型理论解析" href="http://yihui.name/cn/publication/#GSM" target="_blank">http://yihui.name/cn/publication/#GSM</a></p>
<p>这论文呢，自我评价可以给个80分。最大的问题在于没有花时间去整理文章的结构，所以构架上稍微有点散乱（俗称“意识流”）。内容上熟悉我的博客的客官一眼就能看出来，其实都是些博客文章的汇总，只不过用LaTeX让它们变得“人模狗样”一些而已，好在本小子平时也积攒了这些鸡零狗碎的东西，动过自己的脑子。我觉得群众大学的毕业论文，很多都是一个套路：经济/金融数据套一个神奇的模型，直到最后整个世界一片和谐，读者在最后一章都能隐约看到上帝老爷子在朝你挥手。其实也没啥，找工作不容易，地球人也都知道写论文就是忽悠——漫漫人生路上一道工序。</p>
<p>由于本小子是个小人（小小的活人），所以总关心小人关心的事情（俗称“人本主义”）。这论文嘛，窃以为也没什么上下高低之分，说出你怎么想的就可以了，而不要总说“他们”怎么想怎么做。一定要有数学上的创新？一定要有人家看不懂的公式才是好论文？一定要有综述？一定要有长长的参考文献列表才是好论文？一定要板起脸？不能写八卦？不准幽默？……嗨，作茧自缚。几年前看到一篇好文章，颇具恶搞性质，建议各位客官收藏：<a title="http://www.philippeweil.com/links/BoringWriting.pdf" href="http://www.philippeweil.com/links/BoringWriting.pdf">How to write Consistently Boring Scientific Literature</a>。</p>
<p>言归正传：本文是厌倦八股文和数学理论的产物，从理论角度来说，几乎没什么价值，不过这篇文章是用Sweave写的，完全具有可重复性和100%透明度，对文中结果有怀疑的客官可以自行运行代码；其次，统计模拟和图形的声音在界内太微弱，大家都很忙，有人在忙着推公式，有人在忙着编数据，有人在忙着把公式用到不知道是不是编出来的数据上，本小子跟着瞎掺和了点别的东西，仅此而已。甭管有用没用，敬请拍砖。</p>
<p style="text-align: center;">－－－－－－－－－－外一篇：坛霸是怎样练成的－－－－－－－－－－</p>
<p>曾经有童鞋称呼在下为“坛霸”，这个……有时候确实有那么点意思，无图无真相（两个多月没怎么回帖了，一鼓作气）：</p>
<p><div id="attachment_1414" class="wp-caption aligncenter" style="width: 610px"><a href="http://yihui.name/cn/wp-content/uploads/2010/07/cos-bbs-landlord.gif"><img class="size-full wp-image-1414 " title="坛霸是怎样练成的" src="http://yihui.name/cn/wp-content/uploads/2010/07/cos-bbs-landlord.gif" alt="坛霸是怎样练成的" width="600" /></a><p class="wp-caption-text">坛霸是怎样练成的</p></div>
<p>接下来我会陆续写第三届中国R语言会议、《现代统计图形》书稿和useR! 2010，若时间允许，我考虑一下电视剧《九阴真经》（93版）。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/30 -- <a href="http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/" title="useR! 2010会议流水账回顾">useR! 2010会议流水账回顾</a> (9)</li><li>2010/08/25 -- <a href="http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/" title="关于《现代统计图形》书稿的说明">关于《现代统计图形》书稿的说明</a> (13)</li><li>2010/05/23 -- <a href="http://yihui.name/cn/2010/05/chinar-tutorial-and-sas-experts-wanted/" title="通知两则：第三届R会议培训及统计人才招聘">通知两则：第三届R会议培训及统计人才招聘</a> (12)</li><li>2010/05/19 -- <a href="http://yihui.name/cn/2010/05/asymptotia-mcnemar-test-statistics/" title="渐近理想国：McNemar检验的两种统计量">渐近理想国：McNemar检验的两种统计量</a> (0)</li><li>2010/04/15 -- <a href="http://yihui.name/cn/2010/04/knowledge-and-common-sense/" title="知识与常识：分析大学生挂科因素？">知识与常识：分析大学生挂科因素？</a> (17)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/07/master-thesis-graphics-and-simulation-in-stat-models/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>中国群众大学的毕业论文格式</title>
		<link>http://yihui.name/cn/2010/07/shitizen-university-of-china-thesis/</link>
		<comments>http://yihui.name/cn/2010/07/shitizen-university-of-china-thesis/#comments</comments>
		<pubDate>Wed, 28 Jul 2010 04:42:32 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[LaTeX]]></category>
		<category><![CDATA[Word]]></category>
		<category><![CDATA[中国群众大学]]></category>
		<category><![CDATA[官僚]]></category>
		<category><![CDATA[毕业论文]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1377</guid>
		<description><![CDATA[阵子没更新了，五月初回国，先是办群众大学里一些没办完的手续，然后是签证，再是结婚，火车一趟又一趟满地跑，好在最后基本搞定了要办的事情，回美国没两天，又去马里兰开useR! 2010会议，飞机上搬着指头一数，从第一次飞德国算起，一共坐了22次飞机，阿弥陀佛。现在回到大农村尘埃落定，该补的废话都可以补上了，按时间序一篇一篇来，先说群众大学的毕业论文。 今年年初的张磊给耶鲁捐款的事件想必各位客官都已经听说，张磊乃我中国群众大学毕业生，历尽千辛万苦从这个官僚机构到了耶鲁，享受了美帝的各种优厚待遇，二者一对比，就不难理解为何能给耶鲁如此巨额回馈。本小子对群众大学的小领导阶层也是非常不满意，所谓小领导，就是看着像个领导实际上只是办事员（诸如盖章的、审核材料的），这一群体实在是很难对付，虽然不是大领导，但掌握着学生的生杀大权，这就让人没办法了。这一群体的典型代表就是研究僧院，按理说，研究生应该是最具创新思想的学生群体，但那研究僧院你走进去在楼道里简直都能闻到迂腐味。拿这硕博毕业论文的格式规定来说（地址），首先这格式显然是按Micro$oft Word的“标准”来规定的，比如“固定行间距20pt”，我等LaTeX顽固分子当然对此颇有微辞；其次这格式规定本身也体现了格式制定者本人的某些特征，比如规定正文用小四号字，我想知道世界上还有哪本正式期刊会用这么大的字排版，对此我的解释只有一点：领导爱看大字；至于每一页的页眉都雷同这一点，更是迂腐，LaTeX本身经过简单的设置，可以让每一页的页眉都显示相应章节的小标题，这样对读者来说导航更方便，而由于Word本身的白痴（不是不可实现），活活让打印机浪费了墨水。 这些问题我试图去争论和解释，可是根本没有任何结果。我向学院一位常用LaTeX的老师反映了一下，也是劝我按那些规定行事，曰：“Word能做到的LaTeX都能做到！”我有句话在心里想了想，还是没说出来：“LaTeX实在是难以做到Word那么丑！”注1 过了些日子，本小子又听到另外一件事情，更加让我对这些论文格式制定者以及某些机构的迂腐无言以对。我们优秀的本科毕业生左辰sama，在学识上大家有目共睹，本来论文被选为优秀毕业论文，最后却因为论文不是用Word写的（很不幸又是LaTeX）、而“优秀论文”必须被建议应该是Word格式而放弃延迟了评奖。这种蠢事都能在群众大学发生，让我们说些什么好呢？ 本小子在群众大学办的最后一道手续是退宿舍，就这么简单一件事情，那宿舍管理科的小领导愣是让我来回跑了三次，先是去了要求我到学院开证明盖章说我的确要离开（其实看毕业证就行了）、到宿舍管楼的阿姨那里写证明签字我的确是住在那栋楼里（你拿我的学生证在你面前的系统上查一下不就行了）、办完手续还要拿着他们的一张没有盖章没有签字的破纸到财务处通知他们（学校的管理系统就烂成这样：高速网络系统的结果是需要不断的人工跑腿）。本小子在这里从不写“中国人民大学”字样，就是因为不知道所谓的“人民、人本、人文”在哪里，我们都是群众，不是人民。 作为群众大学的毕业生，本小子对群大真难有什么感情，这话不是过河拆桥，本小子仅对统计学院有深厚感情，像这些年林老太太的关心、赵老师的指导等，那是不能忘的。 －－－－－－－－－－－－－－－－－－－ 注1：我看过的LaTeX生成的PDF文章中，可能有一篇真的比Word文档难看，真是可惜了（念liao三声）儿了，作者花了这么大功夫去写了一千多页，却没利用好LaTeX的排版功能。 爷还想看：2010/04/19 -- 2010 John Chambers奖得主及评奖感想 (2)2009/04/13 -- 世上最痛苦的事 (9)2010/08/22 -- 显示beamer幻灯片中的图形和表格编号 (7)2010/02/08 -- 关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题 (37)2009/12/31 -- 统计之都新年构想（杂碎篇） (33)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2010/07/shitizen-university-of-china-thesis/"><span class="dropcap-orange">有</span></a>阵子没更新了，五月初回国，先是办群众大学里一些没办完的手续，然后是签证，再是结婚，火车一趟又一趟满地跑，好在最后基本搞定了要办的事情，回美国没两天，又去马里兰开useR! 2010会议，飞机上搬着指头一数，从第一次飞德国算起，一共坐了22次飞机，阿弥陀佛。现在回到大农村尘埃落定，该补的废话都可以补上了，按时间序一篇一篇来，先说群众大学的毕业论文。</p>
<p>今年年初的张磊给耶鲁捐款的事件想必各位客官都已经听说，张磊乃我中国群众大学毕业生，历尽千辛万苦从这个官僚机构到了耶鲁，享受了美帝的各种优厚待遇，二者一对比，就不难理解为何能给耶鲁如此巨额回馈。本小子对群众大学的小领导阶层也是非常不满意，所谓小领导，就是看着像个领导实际上只是办事员（诸如盖章的、审核材料的），这一群体实在是很难对付，虽然不是大领导，但掌握着学生的生杀大权，这就让人没办法了。这一群体的典型代表就是研究僧院，按理说，研究生应该是最具创新思想的学生群体，但那研究僧院你走进去在楼道里简直都能闻到迂腐味。拿这硕博毕业论文的格式规定来说（<a href="http://grs.ruc.edu.cn/shownews.asp?newsid=1167" target="_blank">地址</a>），首先这格式显然是按Micro$oft Word的“标准”来规定的，比如“固定行间距20pt”，我等LaTeX顽固分子当然对此颇有微辞；其次这格式规定本身也体现了格式制定者本人的某些特征，比如规定正文用小四号字，我想知道世界上还有哪本正式期刊会用这么大的字排版，对此我的解释只有一点：领导爱看大字；至于每一页的页眉都雷同这一点，更是迂腐，LaTeX本身经过简单的设置，可以让每一页的页眉都显示相应章节的小标题，这样对读者来说导航更方便，而由于Word本身的白痴（不是不可实现），活活让打印机浪费了墨水。</p>
<p>这些问题我试图去争论和解释，可是根本没有任何结果。我向学院一位常用LaTeX的老师反映了一下，也是劝我按那些规定行事，曰：“Word能做到的LaTeX都能做到！”我有句话在心里想了想，还是没说出来：“LaTeX实在是难以做到Word那么丑！”<sup>注1</sup></p>
<p>过了些日子，本小子又听到另外一件事情，更加让我对这些论文格式制定者以及某些机构的迂腐无言以对。我们优秀的本科毕业生左辰sama，在学识上大家有目共睹，本来论文被选为优秀毕业论文，最后却因为论文不是用Word写的（很不幸又是LaTeX）、而“优秀论文”<del datetime="2010-07-29T04:11:46+00:00">必须</del>被建议应该是Word格式而<del datetime="2010-07-29T04:11:46+00:00">放弃</del>延迟了评奖。这种蠢事都能在群众大学发生，让我们说些什么好呢？</p>
<p>本小子在群众大学办的最后一道手续是退宿舍，就这么简单一件事情，那宿舍管理科的小领导愣是让我来回跑了三次，先是去了要求我到学院开证明盖章说我的确要离开（其实看毕业证就行了）、到宿舍管楼的阿姨那里写证明签字我的确是住在那栋楼里（你拿我的学生证在你面前的系统上查一下不就行了）、办完手续还要拿着他们的一张没有盖章没有签字的破纸到财务处通知他们（学校的管理系统就烂成这样：高速网络系统的结果是需要不断的人工跑腿）。本小子在这里从不写“中国人民大学”字样，就是因为不知道所谓的“人民、人本、人文”在哪里，我们都是群众，不是人民。</p>
<p>作为群众大学的毕业生，本小子对群大真难有什么感情，这话不是过河拆桥，本小子仅对统计学院有深厚感情，像这些年林老太太的关心、赵老师的指导等，那是不能忘的。</p>
<p>－－－－－－－－－－－－－－－－－－－</p>
<p>注1：我看过的LaTeX生成的PDF文章中，可能<a href="http://cran.r-project.org/doc/contrib/Xu-Statistics_and_R.rar">有一篇</a>真的比Word文档难看，真是可惜了（念liao三声）儿了，作者花了这么大功夫去写了一千多页，却没利用好LaTeX的排版功能。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/04/19 -- <a href="http://yihui.name/cn/2010/04/2010-john-chambers-winner-and-my-comments/" title="2010 John Chambers奖得主及评奖感想">2010 John Chambers奖得主及评奖感想</a> (2)</li><li>2009/04/13 -- <a href="http://yihui.name/cn/2009/04/bitterness-from-latex-to-word/" title="世上最痛苦的事">世上最痛苦的事</a> (9)</li><li>2010/08/22 -- <a href="http://yihui.name/cn/2010/08/show-caption-numbers-in-beamer/" title="显示beamer幻灯片中的图形和表格编号">显示beamer幻灯片中的图形和表格编号</a> (7)</li><li>2010/02/08 -- <a href="http://yihui.name/cn/2010/02/misc-issues-in-latex-lyx-r-sweave-pgfsweave/" title="关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题">关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题</a> (37)</li><li>2009/12/31 -- <a href="http://yihui.name/cn/2009/12/cos-in-2010/" title="统计之都新年构想（杂碎篇）">统计之都新年构想（杂碎篇）</a> (33)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/07/shitizen-university-of-china-thesis/feed/</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>吾婚</title>
		<link>http://yihui.name/cn/2010/07/married/</link>
		<comments>http://yihui.name/cn/2010/07/married/#comments</comments>
		<pubDate>Wed, 07 Jul 2010 15:51:04 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[结婚]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1392</guid>
		<description><![CDATA[写下这个标题，想起《孟子》中有一句“吾昏”，也许是现代版“我晕”的起源…… 曰：“然則小固不可以敵大，寡固不可以敵眾，弱固不可以敵彊。海內之地方千里者九，齊集有其一。以一服八，何以異於鄒敵楚哉？蓋亦反其本矣。今王發政施仁，使天下仕者皆欲立於王之朝，耕者皆欲耕於王之野，商賈皆欲藏於王之市，行旅皆欲出於王之塗，天下之欲疾其君者皆欲赴愬於王。其若是，孰能禦之？” 王曰：“吾惛，不能進於是矣。願夫子輔吾志，明以教我。我雖不敏，請嘗試之。” 跑题完毕。由于现在有若干不明真相的群众短信询问，现特地昭告一下：吾今日下午婚了。本事件纯属临时安排，吾昨日抵京，明日离京，行程如同打仗。该给各位客官的东西只能他日再补。钦此~~ rho=0的文章：2007/12/16 -- 两则打电话的故事，不怕绕的就来看 (4)2007/11/12 -- 关于动画包接下来要做的几件事情 (4)2008/05/12 -- 地震鸟 (4)2008/08/08 -- 计量经济学与R (0)2008/05/02 -- 不再接受关于结构方程模型的咨询 (8)]]></description>
			<content:encoded><![CDATA[<p>写下这个标题，想起《孟子》中有一句“吾昏”，也许是现代版“我晕”的起源……</p>
<blockquote><p>曰：“然則小固不可以敵大，寡固不可以敵眾，弱固不可以敵彊。海內之地方千里者九，齊集有其一。以一服八，何以異於鄒敵楚哉？蓋亦反其本矣。今王發政施仁，使天下仕者皆欲立於王之朝，耕者皆欲耕於王之野，商賈皆欲藏於王之市，行旅皆欲出於王之塗，天下之欲疾其君者皆欲赴愬於王。其若是，孰能禦之？”</p>
<p>王曰：“<strong>吾惛</strong>，不能進於是矣。願夫子輔吾志，明以教我。我雖不敏，請嘗試之。”</p></blockquote>
<p>跑题完毕。由于现在有若干不明真相的群众短信询问，现特地昭告一下：吾今日下午婚了。本事件纯属临时安排，吾昨日抵京，明日离京，行程如同打仗。该给各位客官的东西只能他日再补。钦此~~</p>
<h2  class="related_post_title">rho=0的文章：</h2><ul class="related_post"><li>2008/10/29 -- <a href="http://yihui.name/cn/2008/10/demonstrate-geometric-growth-in-graphics/" title="几何级数增长应该怎样用图形表达">几何级数增长应该怎样用图形表达</a> (2)</li><li>2007/09/06 -- <a href="http://yihui.name/cn/2007/09/expensive-pork/" title="猪肉涨价、查证的保安">猪肉涨价、查证的保安</a> (2)</li><li>2008/09/27 -- <a href="http://yihui.name/cn/2008/09/animation-in-classes/" title="有谁在课上用统计动画">有谁在课上用统计动画</a> (3)</li><li>2010/04/10 -- <a href="http://yihui.name/cn/2010/04/no-advertisement/" title="不宣传，就是不宣传">不宣传，就是不宣传</a> (17)</li><li>2010/05/19 -- <a href="http://yihui.name/cn/2010/05/asymptotia-mcnemar-test-statistics/" title="渐近理想国：McNemar检验的两种统计量">渐近理想国：McNemar检验的两种统计量</a> (0)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/07/married/feed/</wfw:commentRss>
		<slash:comments>26</slash:comments>
		</item>
		<item>
		<title>通知两则：第三届R会议培训及统计人才招聘</title>
		<link>http://yihui.name/cn/2010/05/chinar-tutorial-and-sas-experts-wanted/</link>
		<comments>http://yihui.name/cn/2010/05/chinar-tutorial-and-sas-experts-wanted/#comments</comments>
		<pubDate>Sun, 23 May 2010 10:20:03 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[R 语言]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[R语言会议]]></category>
		<category><![CDATA[培训]]></category>
		<category><![CDATA[招聘]]></category>
		<category><![CDATA[统计图形]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1361</guid>
		<description><![CDATA[先说培训。若一切顺利，我们将在6月14日进行第三届中国R语言会议的会前培训，暂定由刘思喆和我来讲。本次培训计划上下午各3小时，培训费用=R的费用（即：free as in beer）。我的计划如下： 几点说明： 培训能够免费，仰仗于应用统计科学研究中心的经费支持，我们要感谢金勇进老师和赵彦云老师的支持，还有会务组同志们的劳动，当然，刘思喆版主和我对培训费都没太大兴趣，这年头，啥事儿不是先拼服务再考虑“别的”？ 要是觉得培训有用呢，可以考虑给统计之都捐赠：http://cos.name/donate/；觉得讲得不好浪费时间呢，也欢迎前来臭骂、督促我们进步。这次会议的经费确实让我们紧张了一把，所幸最后还是有了着落。 我讲的内容暂不顾及商务人士的美观需要，所以图的美丑不会是重点，我要介绍的是可能性，也就是图的内容和统计学优先。但我还是会部分介绍一下外观问题。 听众不必把所有内容都学会（对初学者来说几乎不可能），你知道什么事情可以做之后，可以找别人做（比如码农），如果自己要钻研，心里大概也有个谱了。 再说一则招聘。我的一位朋友所在的公司（http://www.crfchina.com/）现在在招高水平的统计分析人才，分析项目很多，需要有很好的分析问题解决问题的能力和人品，工具为SAS。有兴趣的请联系王超，Email：andy_wang(at)crfchina.com。本来我计划登门拜访，不过由于马上要回家，所以未能去了解细节，待哪天有机会了解之后再向各位客官汇报。细心的客官应该能了解到这公司的老总乃一统计学博士…… 爷还想看：2010/08/30 -- useR! 2010会议流水账回顾 (9)2010/08/25 -- 关于《现代统计图形》书稿的说明 (13)2010/07/30 -- 第三届中国R语言会议（北京） (1)2010/07/30 -- 统计图形和模拟视角下的模型理论解析 (4)2009/05/31 -- 第一期The R Journal和第一届中国R语言会议 (9)]]></description>
			<content:encoded><![CDATA[<p>先说培训。若一切顺利，我们将在6月14日进行第三届中国R语言会议的会前培训，暂定由刘思喆和我来讲。本次培训计划上下午各3小时，培训费用=R的费用（即：free as in beer）。我的计划如下：</p>
<span class="download">下载：<a href="http://yihui.name/cn/wp-content/uploads/2010/06/3rd-ChinaR-tutorial-Yihui-Xie.pdf">幻灯片《现代统计图形》</a></span>
<span class="notice">培训时间：2010年6月14日下午2:00至5:00</p>
<p>培训目标：1、了解图形的构成元素，初级用户可以知道作图的诸多可能性，高级用户可以任意自定义图形；2、了解统计图形的基本类型和适用情形，跳出单调的“饼图+条形图+折线图”的范围；3、了解R的四种图形系统，即基础图形系统、grid、 lattice和ggplot2；4、学会用图形辅助模型去探索和分析数据；5、了解其它靠谱或不靠谱的应用，如统计动画和交互式动态图形</p>
<p>培训内容：R语言是统计计算和统计作图的强有力工具，本次培训着重介绍后者，内容包括：对统计图形历史的简要回顾，说明统计图形的功能（约5分钟）；介绍R语言的基础图形系统的基本构成，包括各种图形参数和基本图形元素（约40分钟）；介绍R自身的 graphics包中的各种统计图形函数，包括直方图、等高线图、散点图矩阵等（约1小时）；R附加包中的各种图形函数，包括地图、脸谱图、平行坐标图等（约20分钟）；R的其它三种图形系统：grid、lattice和ggplot2（约20分钟）；基于统计模型的图形应用，包括回归模型、主成分分析、光滑方法、分类与回归树等（约25分钟）；其它图形应用，包括动画和交互式图形等（约10分钟）。本次培训的大纲主要遵循本人正在编写的《现代统计图形》一书，该书的不完整书稿可以从这里下载：http://yihui.name/cn/publication/</p>
<p>适合听众：推荐以下四类听众前来听课（1）英语阅读能力较好，对编程感兴趣（2）公司企业的数据分析人员，尤其是咨询公司（3）教数据分析相关课程的高校老师（4）领导的秘书</p>
<p>不适合听众：本培训为实用性质的培训，可能不适合以发表学术论文为目标的听众，统计图形看似过于浅显，在统计学术界非主流研究方向</span>
<p><span id="more-1361"></span>几点说明：</p>
<ol>
<li>培训能够免费，仰仗于应用统计科学研究中心的经费支持，我们要感谢金勇进老师和赵彦云老师的支持，还有会务组同志们的劳动，当然，刘思喆版主和我对培训费都没太大兴趣，这年头，啥事儿不是先拼服务再考虑“别的”？</li>
<li>要是觉得培训有用呢，可以考虑给统计之都捐赠：<a href="http://cos.name/donate/" target="_blank">http://cos.name/donate/</a>；觉得讲得不好浪费时间呢，也欢迎前来臭骂、督促我们进步。这次会议的经费确实让我们紧张了一把，所幸最后还是有了着落。</li>
<li>我讲的内容暂不顾及商务人士的美观需要，所以图的美丑不会是重点，我要介绍的是可能性，也就是图的内容和统计学优先。但我还是会部分介绍一下外观问题。</li>
<li>听众不必把所有内容都学会（对初学者来说几乎不可能），你知道什么事情可以做之后，可以找别人做（比如码农），如果自己要钻研，心里大概也有个谱了。</li>
</ol>
<p>再说一则招聘。我的一位朋友所在的公司（<a href="http://www.crfchina.com/" target="_blank">http://www.crfchina.com/</a>）现在在招高水平的统计分析人才，分析项目很多，需要有很好的分析问题解决问题的能力和人品，工具为SAS。有兴趣的请联系王超，Email：andy_wang(at)crfchina.com。本来我计划登门拜访，不过由于马上要回家，所以未能去了解细节，待哪天有机会了解之后再向各位客官汇报。细心的客官应该能了解到这公司的老总乃一统计学博士……</p>
<span class="notice">公司发展需要，急需分析人才。<br />
需要：重点大学本科以上学位，统计学专业，擅长将所学理论与实践相结合者。<br />
我公司所在行业：零售信贷风险管理<br />
主要客户：个贷部门（房贷，车贷）、信用卡中心等银行零售部门。<br />
经营模式：以培训打开市场，启发客户需求；基于数据为客户提供各种数学模型；客户在我们提供模型后，形成新需求，购买公司软件。<br />
分析人员岗位描述：对银行积累的业务数据进行数据挖掘，按照一定的成熟模式建立数学模型，为银行零售部门提供风险管理工具，并总结出新软件需求，指导后续软件开发。</span>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/30 -- <a href="http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/" title="useR! 2010会议流水账回顾">useR! 2010会议流水账回顾</a> (9)</li><li>2010/08/25 -- <a href="http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/" title="关于《现代统计图形》书稿的说明">关于《现代统计图形》书稿的说明</a> (13)</li><li>2010/07/30 -- <a href="http://yihui.name/cn/2010/07/3rd-chinese-r-conference-beijing/" title="第三届中国R语言会议（北京）">第三届中国R语言会议（北京）</a> (1)</li><li>2010/07/30 -- <a href="http://yihui.name/cn/2010/07/master-thesis-graphics-and-simulation-in-stat-models/" title="统计图形和模拟视角下的模型理论解析">统计图形和模拟视角下的模型理论解析</a> (4)</li><li>2009/05/31 -- <a href="http://yihui.name/cn/2009/05/1st-volume-the-r-journal-and-1st-chinese-r-conference/" title="第一期The R Journal和第一届中国R语言会议">第一期The R Journal和第一届中国R语言会议</a> (9)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/05/chinar-tutorial-and-sas-experts-wanted/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>渐近理想国：McNemar检验的两种统计量</title>
		<link>http://yihui.name/cn/2010/05/asymptotia-mcnemar-test-statistics/</link>
		<comments>http://yihui.name/cn/2010/05/asymptotia-mcnemar-test-statistics/#comments</comments>
		<pubDate>Wed, 19 May 2010 15:11:35 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[统计图示]]></category>
		<category><![CDATA[统计计算]]></category>
		<category><![CDATA[KS检验]]></category>
		<category><![CDATA[McNemar检验]]></category>
		<category><![CDATA[列联表]]></category>
		<category><![CDATA[卡方统计量]]></category>
		<category><![CDATA[渐近理论]]></category>
		<category><![CDATA[统计模拟]]></category>
		<category><![CDATA[配对数据]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1353</guid>
		<description><![CDATA[同经济学家不讲道德一样（学过经济学的人都知道这句话的意思），理论统计学家从某种程度上来说也不讲道德。我们常用的一些统计量通常都渐近服从某种分布（以卡方和正态为典型），看起来做理论的人对这些渐近理论都非常骄傲和自豪，我们在学习过程中也要一代一代传承下去。数学公式摆出来当然能唬人，也许唬到最后大家都为光着屁股的皇帝欢呼。坦白说，我对这些东西感到非常厌倦。 近日来收到邮件少了，但各个问题都不太好直接回答。比如这则关于McNemar检验的问题：McNemar检验可以有两种形式的统计量，一为(b &#8211; c)2/(b + c)，一为2b*log(2b/(b+c)) + 2c*log(2c/(b+c))，其中b和c是列联表非对角线上的频数。前者是McNemar检验本身的统计量，可以根据渐近正态分布得来（然后平方得到卡方），后者是似然比统计量（不带约束的似然除以带约束的，取对数，乘2）。McNemar检验看似复杂，实际上可以简化为检验b = c，或等价于检验一个n = b+c的二项分布中，是否p = 1/2（观察到X = b或c）。现在的问题是，这两种统计量有没有优劣之分？ 作为一个懒得推公式的人，我向来喜欢用模拟回答问题，因为模拟的结果非常直截了当。我的考虑是，要看渐近统计量的优劣，那就看随着n增大，统计量和渐近分布有多接近好了。一个自然而然的想法当然是对若干统计量的观测值做分布检验了，比如KS检验。我们知道这两个统计量都是自由度为1的卡方分布，剩下的事情就是计算： set.seed(123) nmax = 1000 p = matrix(nrow = nmax, ncol = 2) for (n in 2:nmax) { # 生成服从二项分布的随机数，分别计算两种统计量并作KS检验、记录P值 b = rbinom(500, n, 0.5) x1 = (b - (n - b))^2/n x2 = 2 * b * log(2 [...]]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2010/05/asymptotia-mcnemar-test-statistics/"><span class="dropcap-orange">如</span></a>同经济学家不讲道德一样（学过经济学的人都知道这句话的意思），理论统计学家从某种程度上来说也不讲道德。我们常用的一些统计量通常都渐近服从某种分布（以卡方和正态为典型），看起来做理论的人对这些渐近理论都非常骄傲和自豪，我们在学习过程中也要一代一代传承下去。数学公式摆出来当然能唬人，也许唬到最后大家都为光着屁股的皇帝欢呼。坦白说，我对这些东西感到非常厌倦。</p>
<p>近日来收到邮件少了，但各个问题都不太好直接回答。比如这则关于McNemar检验的问题：McNemar检验可以有两种形式的统计量，一为(b &#8211; c)<sup>2</sup>/(b + c)，一为2b*log(2b/(b+c)) + 2c*log(2c/(b+c))，其中b和c是列联表非对角线上的频数。前者是McNemar检验本身的统计量，可以根据渐近正态分布得来（然后平方得到卡方），后者是似然比统计量（不带约束的似然除以带约束的，取对数，乘2）。McNemar检验看似复杂，实际上可以简化为检验b = c，或等价于检验一个n = b+c的二项分布中，是否p = 1/2（观察到X = b或c）。现在的问题是，这两种统计量有没有优劣之分？</p>
<p>作为一个懒得推公式的人，我向来喜欢用模拟回答问题，因为模拟的结果非常直截了当。我的考虑是，要看渐近统计量的优劣，那就看随着n增大，统计量和渐近分布有多接近好了。一个自然而然的想法当然是对若干统计量的观测值做分布检验了，比如KS检验。我们知道这两个统计量都是自由度为1的卡方分布，剩下的事情就是计算：</p>
<pre>set.seed(123)
nmax = 1000
p = matrix(nrow = nmax, ncol = 2)
for (n in 2:nmax) {
    # 生成服从二项分布的随机数，分别计算两种统计量并作KS检验、记录P值
    b = rbinom(500, n, 0.5)
    x1 = (b - (n - b))^2/n
    x2 = 2 * b * log(2 * b/n) + 2 * (n - b) * log(2 * (n - b)/n)
    p[n, 1] = ks.test(x1, "pchisq", df = 1)$p.value
    p[n, 2] = ks.test(x2, "pchisq", df = 1)$p.value
}
# 调整一下数据格式，画图：随着n增大，P值如何变化？
library(ggplot2)
d = melt(p, varnames = c("n", "method"))
d$method = factor(d$method, labels = c("McNemar", "LRT"))
colnames(d)[3] = "p.value"
qplot(n, p.value, data = d, shape = method, geom = c("smooth", "point")) +
    scale_shape_manual(values = c(2, 3))
</pre>
<p><div id="attachment_1354" class="wp-caption aligncenter" style="width: 610px"><a href="http://yihui.name/cn/wp-content/uploads/2010/05/McNemar-test.png"><img class="size-full wp-image-1354" title="McNemar检验统计量与卡方分布拟合的好坏" src="http://yihui.name/cn/wp-content/uploads/2010/05/McNemar-test.png" alt="McNemar检验统计量与卡方分布拟合的好坏" width="600" height="400" /></a><p class="wp-caption-text">McNemar检验统计量与卡方分布拟合的好坏</p></div>
<p><span id="more-1353"></span>实际上，两种统计量与卡方分布的接近程度几乎是一样的，对于每一个n，KS检验得到的P值都差不多，可以看见图上两种方法检验得到的P值基本上是重叠的（其实也意味着统计量的值差不多），而n过了200之后，统计量基本上和卡方分布拟合比较好，即P值较大，但这种关系并不严格。</p>
<p>渐近理想国（asymptotia），来自Little (2006)在The American Statistician的文章，这词在英语词典中查不到，我将它翻译为“渐近理想国”。该文章是讲频率学派与贝叶斯学派的争论，提到人们对“渐近”的无奈：一个步履蹒跚的旅人，心想这理想国嘛时候才能到达呢？</p>
<p>至少在McNemar检验中，这个问题有了一个模糊的答案。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/07/30 -- <a href="http://yihui.name/cn/2010/07/master-thesis-graphics-and-simulation-in-stat-models/" title="统计图形和模拟视角下的模型理论解析">统计图形和模拟视角下的模型理论解析</a> (4)</li><li>2010/04/14 -- <a href="http://yihui.name/cn/2010/04/stat-computation-math-logic/" title="统计计算与数学推导及逻辑分析">统计计算与数学推导及逻辑分析</a> (2)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/05/asymptotia-mcnemar-test-statistics/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Keep on Eating</title>
		<link>http://yihui.name/cn/2010/05/keep-on-eating/</link>
		<comments>http://yihui.name/cn/2010/05/keep-on-eating/#comments</comments>
		<pubDate>Mon, 10 May 2010 04:50:57 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[民以食为上帝]]></category>
		<category><![CDATA[菜谱]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1343</guid>
		<description><![CDATA[话说今早起来，收到一封群发邮件，名曰“菜谱之葵花宝典”，我兴冲冲打开一看，哪妮？！这些个菜啷个儿看着这么眼熟呢？鼠标一拖到底，附件名赫然是“谢益辉的菜谱.doc”……再扳着指头一数抄送名单，四十来口人。顿时昏厥过去。 本来领导不在家，懒得做饭，看这邮件之后两股战战，老老实实按菜谱做了顿饭。 做饭这事呢，在忙碌的时候是一种很好的休息方式，让你珍爱生命远离键盘，闲暇时反而没有兴趣。那643的期末考试考得简直让人万念俱灰，求生不得求死不能，高度紧张之后突然一放松，瘫在家里看了两天儿时的武侠片，都一把年纪了，还看那些鬼打架的老片子，说出来好像挺丢人的，不过呢，经典就是经典，现在的片子，重特技而不重人情，拼力量而不拼道义，看着大同小异，个个都是缩水的神仙。 爷还想看：2010/08/13 -- 鱼兮鱼兮奈若何 (21)2009/12/22 -- 冬至饺子 (18)2009/10/03 -- 学院网站、考试、月饼、排骨及其它 (12)2009/09/27 -- 美国农村生活一月汇报 (29)2009/08/28 -- 暑假轨迹 (19)]]></description>
			<content:encoded><![CDATA[<p>话说今早起来，收到一封群发邮件，名曰“菜谱之葵花宝典”，我兴冲冲打开一看，哪妮？！这些个菜啷个儿看着这么眼熟呢？鼠标一拖到底，附件名赫然是“<strong>谢益辉的菜谱.doc</strong>”……再扳着指头一数抄送名单，四十来口人。顿时昏厥过去。</p>
<p>本来领导不在家，懒得做饭，看这邮件之后两股战战，老老实实按菜谱做了顿饭。</p>
<p>做饭这事呢，在忙碌的时候是一种很好的休息方式，让你珍爱生命远离键盘，闲暇时反而没有兴趣。那643的期末考试考得简直让人万念俱灰，求生不得求死不能，高度紧张之后突然一放松，瘫在家里看了两天儿时的武侠片，都一把年纪了，还看那些鬼打架的老片子，说出来好像挺丢人的，不过呢，经典就是经典，现在的片子，重特技而不重人情，拼力量而不拼道义，看着大同小异，个个都是缩水的神仙。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/13 -- <a href="http://yihui.name/cn/2010/08/fisher-in-the-ada-hayden-lake/" title="鱼兮鱼兮奈若何">鱼兮鱼兮奈若何</a> (21)</li><li>2009/12/22 -- <a href="http://yihui.name/cn/2009/12/winter-solstice-dumplings/" title="冬至饺子">冬至饺子</a> (18)</li><li>2009/10/03 -- <a href="http://yihui.name/cn/2009/10/website-exam-mooncake-rib-etc/" title="学院网站、考试、月饼、排骨及其它">学院网站、考试、月饼、排骨及其它</a> (12)</li><li>2009/09/27 -- <a href="http://yihui.name/cn/2009/09/september-life-in-ames/" title="美国农村生活一月汇报">美国农村生活一月汇报</a> (29)</li><li>2009/08/28 -- <a href="http://yihui.name/cn/2009/08/trace-in-summer/" title="暑假轨迹">暑假轨迹</a> (19)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/05/keep-on-eating/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>知觉力、判断力、行动力</title>
		<link>http://yihui.name/cn/2010/05/sense-judgement-action/</link>
		<comments>http://yihui.name/cn/2010/05/sense-judgement-action/#comments</comments>
		<pubDate>Mon, 03 May 2010 03:49:48 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[Joshua Bell]]></category>
		<category><![CDATA[判断力]]></category>
		<category><![CDATA[孙振耀]]></category>
		<category><![CDATA[李青龙]]></category>
		<category><![CDATA[江麒]]></category>
		<category><![CDATA[潘岚锋]]></category>
		<category><![CDATA[王丰]]></category>
		<category><![CDATA[知觉力]]></category>
		<category><![CDATA[行动力]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1338</guid>
		<description><![CDATA[009年春，吾师王丰点评牛年十大事件，以一支股票开篇，对吾辈提出“三力”期望，即“知觉力、判断力、行动力”。这三力是我时常在心里琢磨的事情，王丰老大是个聪明绝顶的人，他点出这三力，应该也是他自己的经验总结。我等小辈要练就这等功力，恐怕是冰冻三尺非一日之寒。近日几点小事，让我再次联想起这三力。 先说这知觉力。老大讲的是中兵光电，这种股价暴涨的机会可能遍地都是，但不是每个人都看得到。现代人一个个都越来越忙，越是忙越是急功近利，越是无法练就知觉力。前日看到一则消息，很是有趣。华盛顿邮报于2007年做了个试验，让著名的小提琴演奏家Joshua Bell在DC的一个地铁口演奏，45分钟过去了，1097个匆匆过客中只有7个人停下来听，27个过客给了他32.17美元（其中一个认出了他，给了$20），而在两周前，Bell同样是演奏——只不过地点是在音乐厅——票价$100却让人疯抢。这篇文章的作者后来获了普利策奖。说你浮躁没眼力你还不信么？或曰：爷听的不是音乐，是**。【华盛顿邮报原文】 再说这判断力。现在信息爆炸，炸得谁都不知道真相是什么，大家也不愿意费力去判断，或许这就是这几年出现无数的“**门”事件的原因吧，一有风吹草动，大家就开始声讨、掐架、跟风、膜拜。去年一篇孙振耀退休感言被广为转载，当时我没太在意，近日这文章又被转到邮箱里来，于是操起鼠标看了一遍，当我看到文中这样的字句时，心里极为怀疑这是不是他本人写的： ……天涯上愤怒的人很多，你有没有想过，你为什么不快乐？你为什么愤怒？…… ……当初微软有个唐骏，很多大学里的年轻人觉得这才是他们向往的职业生涯，我在清华bbs里发的帖子被这些学子们所不屑。…… ……“很多事情就像看A片，看的人觉得很爽，做的人未必。”…… 惠普中国的CEO会写出这样的话么？这年头CEO都上天涯看痴男怨女？还在清华BBS发帖？作为退休感言，他引用什么话都可以，他会无聊到引用看A片这样的话来作为论据？这篇文章，就是《心灵老鸭汤》（武林外传语）或《读者》风格，肯定不会出自CEO之手。给不明真相的群众看看倒也无妨，但我认为这文章讲的道理一点都体现不出他本人的水准。【真相】 最后说行动力。第三届中国R语言会议，即将登场，这一片“况且况且况况且”中，啥都不缺，最缺行动力，我们将重任交托给潘岚锋，这担子不轻，咱拭目以待。兵马不少，看将领怎么调配了。这行动力，说起来轻巧，做起来万般艰难。（剧透：本届R会议有些低年级本科小盆友想参与组织，本小子前几天得知有本小子的一位明星本家，善哉善哉，真是天上掉下个形象大使，唔哈哈哈） ~~~~~~~~~~~~~~~~跑题分割线~~~~~~~~~~~~~~~~ 昨日看学院网站，得知江麒童鞋获了ACM竞赛一等奖，可喜可贺。 另话说这李青龙童鞋也是个人才。本小子得好好琢磨琢磨。 rho=0的文章：2007/11/19 -- Friedrich Leisch评&#8221;The R Book&#8221; (3)2009/12/26 -- 杯具欣赏：他们眼中的统计学 (13)2008/01/03 -- 睡眠质量明显下降 (14)2007/12/27 -- 听力对发音的纠正比记音标还是好一些 (3)2008/05/02 -- 不再接受关于结构方程模型的咨询 (8)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2010/05/sense-judgement-action/"><span class="dropcap-purple">2</span></a>009年春，吾师<a href="http://www.hjcn.com.cn/about/team/88416680.html" target="_blank">王丰</a>点评牛年十大事件，以一支股票开篇，对吾辈提出“三力”期望，即“知觉力、判断力、行动力”。这三力是我时常在心里琢磨的事情，王丰老大是个聪明绝顶的人，他点出这三力，应该也是他自己的经验总结。我等小辈要练就这等功力，恐怕是冰冻三尺非一日之寒。近日几点小事，让我再次联想起这三力。</p>
<p>先说这知觉力。老大讲的是中兵光电，这种股价暴涨的机会可能遍地都是，但不是每个人都看得到。现代人一个个都越来越忙，越是忙越是急功近利，越是无法练就知觉力。前日看到一则消息，很是有趣。华盛顿邮报于2007年做了个试验，让著名的小提琴演奏家<a title="http://en.wikipedia.org/wiki/Joshua_Bell" href="http://en.wikipedia.org/wiki/Joshua_Bell" target="_blank">Joshua Bell</a>在DC的一个地铁口演奏，45分钟过去了，1097个匆匆过客中只有7个人停下来听，27个过客给了他32.17美元（其中一个认出了他，给了$20），而在两周前，Bell同样是演奏——只不过地点是在音乐厅——票价$100却让人疯抢。这篇文章的作者后来获了普利策奖。说你浮躁没眼力你还不信么？或曰：爷听的不是音乐，是**。【<a href="http://www.washingtonpost.com/wp-dyn/content/article/2007/04/04/AR2007040401721.html" target="_blank">华盛顿邮报原文</a>】</p>
<p>再说这判断力。现在信息爆炸，炸得谁都不知道真相是什么，大家也不愿意费力去判断，或许这就是这几年出现无数的“**门”事件的原因吧，一有风吹草动，大家就开始声讨、掐架、跟风、膜拜。去年一篇<a href="http://it.sohu.com/20080507/n256719972_4.shtml" target="_blank">孙振耀退休感言</a>被广为转载，当时我没太在意，近日这文章又被转到邮箱里来，于是操起鼠标看了一遍，当我看到文中这样的字句时，心里极为怀疑这是不是他本人写的：</p>
<blockquote><p>……天涯上愤怒的人很多，你有没有想过，你为什么不快乐？你为什么愤怒？……</p></blockquote>
<blockquote><p>……当初微软有个唐骏，很多大学里的年轻人觉得这才是他们向往的职业生涯，我在清华bbs里发的帖子被这些学子们所不屑。……</p></blockquote>
<blockquote><p>……“很多事情就像看A片，看的人觉得很爽，做的人未必。”……</p></blockquote>
<p>惠普中国的CEO会写出这样的话么？这年头CEO都上天涯看痴男怨女？还在清华BBS发帖？作为退休感言，他引用什么话都可以，他会无聊到引用看A片这样的话来作为论据？这篇文章，就是《心灵老鸭汤》（武林外传语）或《读者》风格，肯定不会出自CEO之手。给不明真相的群众看看倒也无妨，但我认为这文章讲的道理一点都体现不出他本人的水准。【<a href="http://it.sohu.com/20090320/n262919003.shtml" target="_blank">真相</a>】</p>
<p>最后说行动力。第三届中国R语言会议，即将登场，这一片“况且况且况况且”中，啥都不缺，最缺行动力，我们将重任交托给潘岚锋，这担子不轻，咱拭目以待。兵马不少，看将领怎么调配了。这行动力，说起来轻巧，做起来万般艰难。（剧透：本届R会议有些低年级本科小盆友想参与组织，本小子前几天得知有本小子的一位明星本家，善哉善哉，真是天上掉下个形象大使，唔哈哈哈）<span id="more-1338"></span></p>
<p style="text-align: center;">~~~~~~~~~~~~~~~~跑题分割线~~~~~~~~~~~~~~~~</p>
<p>昨日看学院网站，得知江麒童鞋获了ACM竞赛一等奖，可喜可贺。</p>
<p>另话说这李青龙童鞋也是个人才。本小子得好好琢磨琢磨。</p>
<h2  class="related_post_title">rho=0的文章：</h2><ul class="related_post"><li>2008/05/02 -- <a href="http://yihui.name/cn/2008/05/no-more-consultation-about-structural-equation-models/" title="不再接受关于结构方程模型的咨询">不再接受关于结构方程模型的咨询</a> (8)</li><li>2007/12/02 -- <a href="http://yihui.name/cn/2007/12/flash-game-bloxorz/" title="发一个（无聊的）搬砖头Flash游戏：Bloxorz">发一个（无聊的）搬砖头Flash游戏：Bloxorz</a> (19)</li><li>2007/12/19 -- <a href="http://yihui.name/cn/2007/12/finished-reading-lady-tasting-tea/" title="终于把《女士品茶》完整看了一遍">终于把《女士品茶》完整看了一遍</a> (10)</li><li>2010/08/25 -- <a href="http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/" title="关于《现代统计图形》书稿的说明">关于《现代统计图形》书稿的说明</a> (13)</li><li>2008/01/20 -- <a href="http://yihui.name/cn/2008/01/going-home/" title="准备回家">准备回家</a> (6)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/05/sense-judgement-action/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>Conditional CAPTCHA：进一步阻拦垃圾评论</title>
		<link>http://yihui.name/cn/2010/04/conditional-captcha-stops-spam-comments/</link>
		<comments>http://yihui.name/cn/2010/04/conditional-captcha-stops-spam-comments/#comments</comments>
		<pubDate>Sat, 24 Apr 2010 21:20:05 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[网站和网页]]></category>
		<category><![CDATA[Akismet]]></category>
		<category><![CDATA[Conditional CAPTCHA]]></category>
		<category><![CDATA[Wordpress]]></category>
		<category><![CDATA[垃圾评论]]></category>
		<category><![CDATA[插件]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1330</guid>
		<description><![CDATA[WordPress的都知道，Akismet是个不错的防垃圾评论的插件，判断的准确率还比较高，但长期以来我一直很恼火一件事，就是Akismet把那些判为垃圾评论的评论都放在垃圾队列中，最快也要一个月才自动删除，这样如果偶尔出现误判，我就得从几百条垃圾评论中眼巴巴去把误判的评论恢复过来。这些广告机器人每天都不厌其烦地发呀发，一天就是两三百条广告，我大多数时候都懒得看垃圾队列中有没有误判的，直接一键清空，所以有时候可能会殃及无辜。 昨天终于厌倦了，心想算了，还是去找个插件吧，肯定存在解决办法的。于是乎找到了一个叫Conditional CAPTCHA的插件，这个插件是Akismet之后的第二道防线：如果Akismet放行，它就不再过问，如果Akismet判为垃圾评论，它就继续弹出一个reCAPTCHA框让评论者输入验证码，这样的话，那些垃圾机器人压根儿就无法把评论发到我的数据库中，直接被删除了。 这下整个世界清净了。 爷还想看：2009/06/10 -- 用R语言和Flash以及JavaScript生成标签云 (7)2009/05/30 -- 用Google Chart API展示简单的数据以及WordPress示例 (5)2009/05/24 -- PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作） (5)2009/05/15 -- 超长文章在Wordpress中不能显示的解决办法（与shortcode有关） (2)2009/05/10 -- 我也想转WP啊…… (19)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2010/04/conditional-captcha-stops-spam-comments/"><span class="dropcap-red">用</span></a>WordPress的都知道，Akismet是个不错的防垃圾评论的插件，判断的准确率还比较高，但长期以来我一直很恼火一件事，就是Akismet把那些判为垃圾评论的评论都放在垃圾队列中，最快也要一个月才自动删除，这样如果偶尔出现误判，我就得从几百条垃圾评论中眼巴巴去把误判的评论恢复过来。这些广告机器人每天都不厌其烦地发呀发，一天就是两三百条广告，我大多数时候都懒得看垃圾队列中有没有误判的，直接一键清空，所以有时候可能会殃及无辜。</p>
<p>昨天终于厌倦了，心想算了，还是去找个插件吧，肯定存在解决办法的。于是乎找到了一个叫Conditional CAPTCHA的插件，这个插件是Akismet之后的第二道防线：如果Akismet放行，它就不再过问，如果Akismet判为垃圾评论，它就继续弹出一个reCAPTCHA框让评论者输入验证码，这样的话，那些垃圾机器人压根儿就无法把评论发到我的数据库中，直接被删除了。</p>
<p>这下整个世界清净了。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/06/10 -- <a href="http://yihui.name/cn/2009/06/creating-tag-cloud-using-r-and-flash-javascript/" title="用R语言和Flash以及JavaScript生成标签云">用R语言和Flash以及JavaScript生成标签云</a> (7)</li><li>2009/05/30 -- <a href="http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/" title="用Google Chart API展示简单的数据以及WordPress示例">用Google Chart API展示简单的数据以及WordPress示例</a> (5)</li><li>2009/05/24 -- <a href="http://yihui.name/cn/2009/05/php-301-redirect-from-bo-blog-to-wordpress/" title="PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作）">PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作）</a> (5)</li><li>2009/05/15 -- <a href="http://yihui.name/cn/2009/05/blank-long-post-in-wordpress-and-shortcode/" title="超长文章在Wordpress中不能显示的解决办法（与shortcode有关）">超长文章在Wordpress中不能显示的解决办法（与shortcode有关）</a> (2)</li><li>2009/05/10 -- <a href="http://yihui.name/cn/2009/05/turning-to-wordpress/" title="我也想转WP啊……">我也想转WP啊……</a> (19)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/04/conditional-captcha-stops-spam-comments/feed/</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>2010 John Chambers奖得主及评奖感想</title>
		<link>http://yihui.name/cn/2010/04/2010-john-chambers-winner-and-my-comments/</link>
		<comments>http://yihui.name/cn/2010/04/2010-john-chambers-winner-and-my-comments/#comments</comments>
		<pubDate>Mon, 19 Apr 2010 20:57:01 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[数据展示]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[bigmemory]]></category>
		<category><![CDATA[John Chambers]]></category>
		<category><![CDATA[John Chambers奖]]></category>
		<category><![CDATA[LaTeX]]></category>
		<category><![CDATA[Word]]></category>
		<category><![CDATA[表达]]></category>
		<category><![CDATA[评奖]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1325</guid>
		<description><![CDATA[上和其他两位评委Simon Urbanek以及Hadley Wickham进行了电话会议，我们将今年的Chambers奖授给Michael J. Kane和他的bigmemory包（剧透了剧透了）。通过看今年提交的参赛作品，我觉得拿下这个奖的困难并没有想象中那么大，国内的客官们努力努力，也是很有希望获奖的（比如我相信精于C++的颜大站长能独立写出bigmemory包的概率大于95%）。此前在COS论坛上呼吁大家踊跃参加，估计大家都觉得这是天方夜谭，明年我以95%的概率不会做评委了，不过这评奖过程给我几点感想可供后来人借鉴： 严格按照主办方的规则行事。主办方的评奖规则中怎么写，我们就对照这一条一条规则检查自己的作品是否都符合了要求。比如Chambers奖的规则描述是： The entries will be judged on a variety of dimensions, including the importance and relevance for statistical practice of the tasks performed by the software, ease of use, clarity of description, elegance and availability for use by the statistical community. Preference will be given to those entries that are [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2010/04/2010-john-chambers-winner-and-my-comments/"><span class="dropcap-grey">早</span></a>上和其他两位评委Simon Urbanek以及Hadley Wickham进行了电话会议，我们将今年的<a title="http://stat-computing.org/awards/jmc/" href="http://stat-computing.org/awards/jmc/" target="_blank">Chambers奖</a>授给Michael J. Kane和他的<a title="http://cran.r-project.org/web/packages/bigmemory/index.html" href="http://cran.r-project.org/web/packages/bigmemory/index.html" target="_blank">bigmemory</a>包（剧透了剧透了）。通过看今年提交的参赛作品，我觉得拿下这个奖的困难并没有想象中那么大，国内的客官们努力努力，也是很有希望获奖的（比如我相信精于C++的颜大站长能独立写出bigmemory包的概率大于95%）。此前在COS论坛上呼吁大家踊跃参加，估计大家都觉得这是天方夜谭，明年我以95%的概率不会做评委了，不过这评奖过程给我几点感想可供后来人借鉴：</p>
<ol>
<li>严格按照主办方的规则行事。主办方的评奖规则中怎么写，我们就对照这一条一条规则检查自己的作品是否都符合了要求。比如Chambers奖的规则描述是：</li>
<blockquote><p>The entries will be judged on a variety of dimensions, including the <strong>importance and relevance</strong> for statistical practice of the tasks performed by the software, <strong>ease of use</strong>, <strong>clarity of description</strong>, <strong>elegance and availability</strong> for use by the statistical community. Preference will be given to those entries that are grounded in <strong>software design</strong> rather than calculation.</p></blockquote>
<p>最终评委的评分规则便根据三原则来：<strong>重要程度和与统计学的相关程度</strong>（多数作品都有很大的专业局限性，仅仅在自己的领域里针对某一特定模型写了软件包，不够通用，我也看不懂什么生物名词或天体物理名词）、<strong>创新和软件设计</strong>（想法是否足够新颖，没人做过当然最好，有人做过则要想想如何与众不同）、<strong>易用性和文档是否清楚</strong>（如果参赛者能多提供一些例子则会让评委更快了解你的软件，可以是录像、在线演示或动画、图形）。</p>
<li>关于这些原则，如果参赛者能站在评委角度来考虑，肯定能为自己挣得不少分。也许有些作者软件写得很精妙，但缺少恰当的表现形式，所以就可能被埋没。记得有一位参赛者把自己三百多页的博士论文都发来了，满篇数学公式，想想如果自己是评委，看一篇博士论文的概率是多大呢？</li>
<p>再回头看本小子去年的申请，估计很大程度上得益于本小子的动画网站，以及每个动画函数下都有例子展示，评委不用动脑子去仔细研究函数的每一个参数怎么用，只需要端着咖啡看演示就可以了。另外，本小子处心积虑套用了John Chambers那句名言&#8220;To turn ideas into software, quickly and faithfully&#8221;（我把software换成了animations），这主要是为了体现软件包与统计学思想的联系，另一方面，一眼看去这和竞赛的主题切合得甚为紧密。</p>
<li>包装很重要。由此又不得不说LaTeX与Word……呃，各位把本小子看作技术愤青的大人们，这真的不是技术问题，除非是Word高手，普通人用Word做出来的任何文档的排版质量跟LaTeX一比，评论只有两个字：垃圾。没得商量。LaTeX生产出来的论文，即使内容连垃圾都不如，其形式看起来也是正儿八经能唬住人的。拿着Word写的灰头土脸的PDF文档交上来，首先给人印象就是这童鞋以95%的概率不是高手，否则怎么连LaTeX都不会用呢。</li>
<p>去年我在申请的时候还没接触到LyX，所以老老实实写LaTeX源代码然后老老实实编译，而且用的是和R News文章一样的字体（这也是评委之一Hadley常用的字体），呈上去给大佬们一看，嘿，眼熟，我看这小子和R有一定关系。</ol>
<p>最后，这获奖者比其他选手还占一点优势，就是他在去年的JSM大会上做过Data Expo的poster，硕大的宣传板，我们三人都在那里看过，回头一想，脸熟啊。这一点呢，也和我去年类似，三位评委我见过两位，一位七分熟，一位三分熟（你煎牛排呢？），剩下一位未曾近距离接触，但我曾给他的一本书提过一处勘误。所以混圈子也是有用的。</p>
<p>这些不是告诉各位客官可以不劳而获或投机取巧，世上没那么多好事，而是用一个例子说明怎样小心地铺路，把自己能控制的因素都一步步做到最佳状态，剩下的事，或水到则渠成，或听天而由命……理想情况下，呔！手起刀落，砍他个人仰马翻。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/07/27 -- <a href="http://yihui.name/cn/2010/07/shitizen-university-of-china-thesis/" title="中国群众大学的毕业论文格式">中国群众大学的毕业论文格式</a> (15)</li><li>2009/04/13 -- <a href="http://yihui.name/cn/2009/04/bitterness-from-latex-to-word/" title="世上最痛苦的事">世上最痛苦的事</a> (9)</li><li>2010/08/22 -- <a href="http://yihui.name/cn/2010/08/show-caption-numbers-in-beamer/" title="显示beamer幻灯片中的图形和表格编号">显示beamer幻灯片中的图形和表格编号</a> (7)</li><li>2010/02/08 -- <a href="http://yihui.name/cn/2010/02/misc-issues-in-latex-lyx-r-sweave-pgfsweave/" title="关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题">关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题</a> (37)</li><li>2009/12/31 -- <a href="http://yihui.name/cn/2009/12/cos-in-2010/" title="统计之都新年构想（杂碎篇）">统计之都新年构想（杂碎篇）</a> (33)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/04/2010-john-chambers-winner-and-my-comments/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>知识与常识：分析大学生挂科因素？</title>
		<link>http://yihui.name/cn/2010/04/knowledge-and-common-sense/</link>
		<comments>http://yihui.name/cn/2010/04/knowledge-and-common-sense/#comments</comments>
		<pubDate>Thu, 15 Apr 2010 05:08:03 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[数据收集]]></category>
		<category><![CDATA[常识]]></category>
		<category><![CDATA[知识]]></category>
		<category><![CDATA[统计分析]]></category>
		<category><![CDATA[统计模型]]></category>
		<category><![CDATA[问卷调查]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1317</guid>
		<description><![CDATA[流浪荡云儿提到： 又及： 再及： 原本这是一个如何保护受访者隐私的问题。这种问题有一些经典的解决办法，比如让受访者自己抛硬币，如果正面就回答“是否挂过科”，反面就回答“宿舍电话最后一位数字是否是奇数”，访员不干涉受访者填问卷的过程，最终我们也不知道受访者的硬币是正面还是反面（从而不知道他们究竟回答的是哪个问题），只知道他们回答了多少“是”和“否”。只要样本量充分大，我们就知道挂科的比例了。 至于变量间的相关性，这不是问题，因为世上完全独立的变量似乎还没生出来。即使再独立，不还存在所谓的“蝴蝶效应”么？退一步讲，回归也没有要求自变量相互独立，相关性太强也有解决办法。 我看到问题的第一个反应并非如何建模，而是在想这个问题真的需要模型来解决么？首先，挂科属于稀有事件，采集样本会比较困难（除非遭遇超级严厉的老师……灭绝师太？……）；其次，在调查之前我们可不可以先考虑一下这个问题本身，在脑子里回放几遍：“为什么会挂科？什么会挂科？么会挂科？会挂科？挂科？科？……”看看能想到的主要答案是否只有一种：受试者没认真学习。要是果真如此，那么本来稀有的样本就更没太多分析价值了，辛辛苦苦调查了50个挂科学生（就算他们愿意承认挂科），发现49个都在玩，剩下1个在看别人玩，到那时，是否想找块豆腐撞死算了呢？ 所以我推荐直接访谈。此时建模可能只具有脱离实际问题的数学意义，当然我们可以像模像样走完统计分析的整个流程，最终得出结论说“同志们呐，表再玩了”，如果是这样，没牙的老太太恐怕都能想出这种结论。而访谈呢，一方面能让我们接触到“血淋淋的真相”（语出自电视剧《武林外传》），免得我们肤浅猜测，另一方面，和活人接触，万一发现挂科的因素多种多样，超出想象，那时再设计一份更贴近实际的问卷也不迟。为啥小温要亲民？为啥有皇帝觉得百姓饥荒时可以喝肉粥？ 统计模型就像把锤子，拿到锤子的人觉得到处都是钉子（金锤子定理）。我理解这种“诱惑”，但事实是生活不全是由抡锤子构成的。这个挂科问题本身是个很好的问题，看起来也很有意思，做好了对大学教育有很大贡献，但它是否能通过回归的方式解决则值得三思。访谈花时间，但也许窥一斑而知全豹。 这个老笑话想必多数人都看过了： “知识”越来越多，会不会真的让我们变得“有知识没常识”？ 那么我们打听一下在座的各位客官，你挂过科么，若挂过，原因是什么？（“考前没拜春哥/曾哥”这个原因除外） 爷还想看：2010/07/30 -- 统计图形和模拟视角下的模型理论解析 (4)2009/12/31 -- 统计之都新年构想（杂碎篇） (33)2007/12/28 -- 统计变得没有意义的两个条件 (8)2007/11/13 -- Type III Error（第三类错误） (2)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/guestbook/#comment-5021">流浪荡云儿提到</a>：</p>
<span class="note">我最近想做下关于大学生挂科率影响因素。但是我感觉在出调查问卷的时候，很多人不会将自己的挂科情况如实反应，这该怎么办？还有变量之间或多或少都有一定的相关性，这该怎么办啊？</span>
<p>又及：</p>
<span class="note">只是老师布置的期末作业——选择合适的题目，收集相应的数据，建立统计模型，进行统计分析，直到你认为满意为止（咱们老师的原话）。是不是我的题目选的不好啊？</span>
<p>再及：</p>
<span class="note">如果直接访谈的话，我感觉暨很费时间，而且结果也不一定准确（其中也会受很多因素的影响），如果用回归的话，做问卷我可以改成匿名形式，只是变量的选取和设定变的有难度（对于我来说）</span>
<p>原本这是一个如何保护受访者隐私的问题。这种问题有一些经典的解决办法，比如让受访者自己抛硬币，如果正面就回答“是否挂过科”，反面就回答“宿舍电话最后一位数字是否是奇数”，访员不干涉受访者填问卷的过程，最终我们也不知道受访者的硬币是正面还是反面（从而不知道他们究竟回答的是哪个问题），只知道他们回答了多少“是”和“否”。只要样本量充分大，我们就知道挂科的比例了。</p>
<p>至于变量间的相关性，这不是问题，因为世上完全独立的变量似乎还没生出来。即使再独立，不还存在所谓的“蝴蝶效应”么？退一步讲，回归也没有要求自变量相互独立，相关性太强也有解决办法。<span id="more-1317"></span></p>
<p>我看到问题的第一个反应并非如何建模，而是在想这个问题真的需要模型来解决么？首先，挂科属于稀有事件，采集样本会比较困难（除非遭遇超级严厉的老师……灭绝师太？……）；其次，在调查之前我们可不可以先考虑一下这个问题本身，在脑子里回放几遍：“为什么会挂科？什么会挂科？么会挂科？会挂科？挂科？科？……”看看能想到的主要答案是否只有一种：受试者没认真学习。要是果真如此，那么本来稀有的样本就更没太多分析价值了，辛辛苦苦调查了50个挂科学生（就算他们愿意承认挂科），发现49个都在玩，剩下1个在看别人玩，到那时，是否想找块豆腐撞死算了呢？</p>
<p>所以我推荐直接访谈。此时建模可能只具有脱离实际问题的数学意义，当然我们可以像模像样走完统计分析的整个流程，最终得出结论说“同志们呐，表再玩了”，如果是这样，没牙的老太太恐怕都能想出这种结论。而访谈呢，一方面能让我们接触到“血淋淋的真相”（语出自电视剧《武林外传》），免得我们肤浅猜测，另一方面，和活人接触，万一发现挂科的因素多种多样，超出想象，那时再设计一份更贴近实际的问卷也不迟。为啥小温要亲民？为啥有皇帝觉得百姓饥荒时可以喝肉粥？</p>
<p>统计模型就像把锤子，拿到锤子的人觉得到处都是钉子（金锤子定理）。我理解这种“诱惑”，但事实是生活不全是由抡锤子构成的。这个挂科问题本身是个很好的问题，看起来也很有意思，做好了对大学教育有很大贡献，但它是否能通过回归的方式解决则值得三思。访谈花时间，但也许窥一斑而知全豹。</p>
<p>这个老笑话想必多数人都看过了：</p>
<span class="attention">联合利华引进了一条香皂包装生产线，结果发现这条生产线有个缺陷：常常会有盒子里没装入香皂。总不能把空盒子卖给顾客啊，他们只得请了一个学自动化的博士后设计一个方案来分拣空的香皂盒。博士后拉起了一个十几人的科研攻关小组，综合采用了机械、微电子、自动化、X射线探测等技术，花了几十万，成功解决了问题。每当生产线上有空香皂盒通过，两旁的探测器会检测到，并且驱动一只机械手把空皂盒推走。</p>
<p>中国南方有个乡镇企业也买了同样的生产线，老板发现这个问题后大为发火，找了个小工来说：“你他妈给老子把这个搞定，不然你给老子爬走。”</p>
<p>小工很快想出了办法：他花了90块钱在生产线旁边放了一台大功率电风扇猛吹，于是空皂盒都被吹走了。</span>
<p>“知识”越来越多，会不会真的让我们变得“有知识没常识”？</p>
<p>那么我们打听一下在座的各位客官，你挂过科么，若挂过，原因是什么？（“考前没拜春哥/曾哥”这个原因除外）</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/07/30 -- <a href="http://yihui.name/cn/2010/07/master-thesis-graphics-and-simulation-in-stat-models/" title="统计图形和模拟视角下的模型理论解析">统计图形和模拟视角下的模型理论解析</a> (4)</li><li>2009/12/31 -- <a href="http://yihui.name/cn/2009/12/cos-in-2010/" title="统计之都新年构想（杂碎篇）">统计之都新年构想（杂碎篇）</a> (33)</li><li>2007/12/28 -- <a href="http://yihui.name/cn/2007/12/when-statistics-makes-no-sense/" title="统计变得没有意义的两个条件">统计变得没有意义的两个条件</a> (8)</li><li>2007/11/13 -- <a href="http://yihui.name/cn/2007/11/type-iii-error/" title="Type III Error（第三类错误）">Type III Error（第三类错误）</a> (2)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/04/knowledge-and-common-sense/feed/</wfw:commentRss>
		<slash:comments>17</slash:comments>
		</item>
		<item>
		<title>统计计算与数学推导及逻辑分析</title>
		<link>http://yihui.name/cn/2010/04/stat-computation-math-logic/</link>
		<comments>http://yihui.name/cn/2010/04/stat-computation-math-logic/#comments</comments>
		<pubDate>Thu, 15 Apr 2010 00:01:21 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[统计计算]]></category>
		<category><![CDATA[Sweave]]></category>
		<category><![CDATA[数学推导]]></category>
		<category><![CDATA[经济学论文]]></category>
		<category><![CDATA[统计模拟]]></category>
		<category><![CDATA[自动化]]></category>
		<category><![CDATA[计算机]]></category>
		<category><![CDATA[逻辑分析]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1308</guid>
		<description><![CDATA[陈丽云这篇博客“真的是只大狐狸吗？对江西财经陈军昌博士的探究”让我想起一个长期以来我关心的一个话题。我对陈军昌这个人本身不如我对他的摘要的兴趣大，此君提到： 本文预言：在不久的未来，计算机技术将会借助非线性问题的进展彻底占据经济学的主流地位。这项技术不再是简单的用于经验数据的回归预测，而将成为主流形式化逻辑。 本文作者甚至计划在将来使用纯计算机程序的形式化逻辑写作一篇经济学论文。 我完全相信这段预言。倒不是说我觉得这种做法是对的，只是在目前可见的范围内，我严重怀疑堆积如山的经济学论文是否还需要人的脑子，我甚至想象，给一个Sweave模板，提供几个参数（如欲选择用什么模型、生成什么样式的图形），然后把数据读进来用R跑一遍，一篇论文就自动生成了，加上LaTeX本身就显得正式，这种论文一定人模狗样的，很能忽悠人。比如： \Sexpr{names(dat)[1]} 的均值为 \Sexpr{mean(dat[ ,1])}，标准差为 xxx。图 \ref{...} 为 \Sexpr{figname[1]}： …… \Sexpr{modname[1]}模型显示，斜率项为\Sexpr{coef(dat.lm)[2]}（t 检验结果为\Sexpr{ifelse{coef(summary(dat.lm))[2,4]&#60;0.05, '显著', '不显著'}}）。 把目前主流杂志上的经济学论文遍历一下，总结一个八股规则，生成统计分析部分。至于结尾嘛，就把所有论文的结论部分分条存在一个数据库中，随机抽取5条就可以了，反正大家的结论都很NB，都对社会主义建设有重大意义。 调侃归调侃。如果这位陈博士的论文真的能被广为接受的话，我估摸着将来大多数期刊是不是要去喝西北风了。以上是经济学界的事情，与我没啥关系，暂不多说。还是回头说统计。 统计计算和模拟在统计界一直都是小弟，大佬仍然是搞数学的，而且似乎数学搞得越深越瞧不起做计算的。可以理解，学术跟宗教其实没有太多区别，人人都有信仰，而且只要有江湖，就一定会有名门正派和歪门邪道旁门左道之分。不过我倒是有两个有趣的例子： Andrew Gelman在他的论文&#8220;A Bayesian Formulation of Exploratory Data Analysis and Goodness-of-fit Testing&#8221;中提到Efron &#38; Tibshirani的&#8220;An Introduction to the Bootstrap&#8221;。论文374页说： [...] This is related to the idea from the bootstrap literature that simulation can replace mathematical analysis. 我没考证原书，不过我没想到两位作者能放出这样的话（也许被Gelman夸大了，也许是断章取义）。 [...]]]></description>
			<content:encoded><![CDATA[<span class="alert">本文论点在于计算机自动化的可能性以及对长久以来的数学推导传统的疑惑，并非为了贬低经济学论文。</span>
<p>陈丽云这篇博客“<a href="http://www.loyhome.cn/928.html">真的是只大狐狸吗？对江西财经陈军昌博士的探究</a>”让我想起一个长期以来我关心的一个话题。我对陈军昌这个人本身不如我对他的摘要的兴趣大，此君提到：</p>
<blockquote><p>本文预言：在不久的未来，计算机技术将会借助非线性问题的进展彻底占据经济学的主流地位。这项技术不再是简单的用于经验数据的回归预测，而将成为主流形式化逻辑。 本文作者甚至计划在将来使用纯计算机程序的形式化逻辑写作一篇经济学论文。</p></blockquote>
<p>我完全相信这段预言。倒不是说我觉得这种做法是对的，只是在目前可见的范围内，我严重怀疑堆积如山的经济学论文是否还需要人的脑子，我甚至想象，给一个Sweave模板，提供几个参数（如欲选择用什么模型、生成什么样式的图形），然后把数据读进来用R跑一遍，一篇论文就自动生成了，加上LaTeX本身就显得正式，这种论文一定人模狗样的，很能忽悠人。比如：</p>
<blockquote><p><code>\Sexpr{names(dat)[1]}</code> 的均值为 <code>\Sexpr{mean(dat[  ,1])}</code>，标准差为 xxx。图 <code>\ref{...} </code>为 <code>\Sexpr{figname[1]}</code>：</p>
<p>……</p>
<p><code>\Sexpr{modname[1]}</code>模型显示，斜率项为<code>\Sexpr{coef(dat.lm)[2]}</code>（t 检验结果为<code>\Sexpr{ifelse{coef(summary(dat.lm))[2,4]&lt;0.05, '显著',  '不显著'}}</code>）。</p></blockquote>
<p>把目前主流杂志上的经济学论文遍历一下，总结一个八股规则，生成统计分析部分。至于结尾嘛，就把所有论文的结论部分分条存在一个数据库中，随机抽取5条就可以了，反正大家的结论都很NB，都对社会主义建设有重大意义。</p>
<p>调侃归调侃。如果这位陈博士的论文真的能被广为接受的话，我估摸着将来大多数期刊是不是要去喝西北风了。以上是经济学界的事情，与我没啥关系，暂不多说。还是回头说统计。<span id="more-1308"></span></p>
<p>统计计算和模拟在统计界一直都是小弟，大佬仍然是搞数学的，而且似乎数学搞得越深越瞧不起做计算的。可以理解，学术跟宗教其实没有太多区别，人人都有信仰，而且只要有江湖，就一定会有名门正派和歪门邪道旁门左道之分。不过我倒是有两个有趣的例子：</p>
<ol>
<li>Andrew Gelman在他的论文&#8220;A Bayesian Formulation of Exploratory Data  Analysis and Goodness-of-fit Testing&#8221;中提到Efron &amp; Tibshirani的&#8220;An  Introduction to the Bootstrap&#8221;。论文374页说：</li>
<blockquote><p>[...] This is related to the idea from the bootstrap  literature that simulation can replace mathematical analysis.</p></blockquote>
<p>我没考证原书，不过我没想到两位作者能放出这样的话（也许被Gelman夸大了，也许是断章取义）。</p>
<li>有个人叫Julian L. Simon，他在他的书&#8220;<a title="http://www.resample.com/content/text/index.shtml" href="http://www.resample.com/content/text/index.shtml" target="_blank">Resampling: the New  Statistics</a>&#8221;（该书可下载）序言中放出一个赌注，愿意下注$5000赌一位以传统统计理论教学方式教统计学的老师，他自己以统计模拟的方式教同一个主题，看各自的学生在解决相关的数值问题谁更快得到答案。到现在为止没有人能应接这场赌局。也许是这本书太不出名了，也许是数学真的有某些方面的弱势。</li>
</ol>
<p>统计计算之于传统统计学，就如同那位陈博士的想法之于传统经济学一样。人的逻辑思维未必是最有效的解决问题的方式，只不过在远古时代，人只有自己的脑子可用，所以就一直用一直用，总不肯承认除了脑子之外有其它替代方式来解决问题。不过也许若干年后，计算机的方式也会落后于时代。后之视今，犹如今之视昔。谁知道呢？</p>
<p>话说回来，我觉得计算机不可能完全替代经济学论文中的逻辑分析，但是用计算机做一些常规性的自动化报告也未尝不可。</p>
<p>附：本文中“经济学论文”大约可以推广到“社会科学论文”。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/07/30 -- <a href="http://yihui.name/cn/2010/07/master-thesis-graphics-and-simulation-in-stat-models/" title="统计图形和模拟视角下的模型理论解析">统计图形和模拟视角下的模型理论解析</a> (4)</li><li>2010/05/19 -- <a href="http://yihui.name/cn/2010/05/asymptotia-mcnemar-test-statistics/" title="渐近理想国：McNemar检验的两种统计量">渐近理想国：McNemar检验的两种统计量</a> (0)</li><li>2010/02/08 -- <a href="http://yihui.name/cn/2010/02/misc-issues-in-latex-lyx-r-sweave-pgfsweave/" title="关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题">关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题</a> (37)</li><li>2010/01/05 -- <a href="http://yihui.name/cn/2010/01/unequal-variance-in-t-test/" title="t检验方差不齐有多重要">t检验方差不齐有多重要</a> (6)</li><li>2009/12/08 -- <a href="http://yihui.name/cn/2009/12/meeting-r-core-members/" title="最近跟R core们经常打照面">最近跟R core们经常打照面</a> (9)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/04/stat-computation-math-logic/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>不宣传，就是不宣传</title>
		<link>http://yihui.name/cn/2010/04/no-advertisement/</link>
		<comments>http://yihui.name/cn/2010/04/no-advertisement/#comments</comments>
		<pubDate>Sat, 10 Apr 2010 05:54:57 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[程序开发]]></category>
		<category><![CDATA[animation]]></category>
		<category><![CDATA[COS论坛]]></category>
		<category><![CDATA[Dirk Eddelbuettel]]></category>
		<category><![CDATA[iBUGS]]></category>
		<category><![CDATA[OpenBUGS]]></category>
		<category><![CDATA[R2WinBUGS]]></category>
		<category><![CDATA[WinBUGS]]></category>
		<category><![CDATA[宣传]]></category>
		<category><![CDATA[统计之都]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1305</guid>
		<description><![CDATA[家真是牟想到啊，Dirk Eddelbuettel居然也会给我发邮件问animation问题。关注R与金融的人应该知道这个人，不过这一点可能只是他的副业，更多工作在于研究R的高性能计算以及维护Debian上的R以及其它Debian包。蓬荜生辉啊。本小子的动画包，自打一开始就没做任何宣传，后来中奖了也没在R里吱声。前些日子某波兰童鞋来信问动画问题，我忍不住回问了一下你们从哪儿获知的消息，结果该童鞋说，老师布置作业，班上一共30来人，每个人分50来个R包去研究，CRAN上所有的R包就差不多研究遍了，我晕。 前两天，中国群众大学校报小记者来信，要采访统计之都的“幕后黑手”，据说是校报办公室老师安排来采访的，我一看心里大概就明白咋回事了：八成可能跟群众大学的某大领导有关……其实COS早在办旧版的时候就已经惊动党中央，院领导对我提起过几次说上面对COS赞赏有加，你娃儿要好好办，本小子连声“嗻”。 宣传这事儿，我一直认为没太大必要，理由是自身不够牛的时候把别人引来会让别人失望（宣传提高了别人的预期），而采取小步渗透的方式则会让用户有足够的惊喜，并且以这种方式聚集的人群关系会比较紧密。 现在用Google搜“统计学网站”排名第一是统计之都，搜“统计学论坛”排名第一是COS论坛，而我们从未用任何手段（如邪恶的积分制度）引诱任何会员在任何地方宣传。说到底，踏实做事才是王道。不过既然台风来了猪都会飞，这次有了机会，飞它一把也无妨。 ~~~~~~~~~~~~~~自相矛盾的分隔线~~~~~~~~~~~~~~ 最近又写了个跟WinBUGS（或者OpenBUGS）有关的R包，取一很俗的名字，叫iBUGS，之所以加个i，是因为我想让它尽量智能。目前实现了以下几点智能： 智能找WinBUGS或OpenBUGS的安装路径，免得手工填写； 智能分析BUGS模型，找出参数列表，可用鼠标点选，免得手工填写； 分析R工作空间，提出数据变量列表，可用鼠标点选； 这个包主要是为了提供一个（聪明的）图形界面，它包括了R2WinBUGS包中bugs()函数的所有功能。可在图形界面中写BUGS模型，然后点“执行”按钮就可以跑MCMC了。向不做贝叶斯的童鞋们特别声明一下，BUGS和bug没有任何联系。 话说暑假里的R会议该正式进入议事日程了…… 爷还想看：2010/03/17 -- 蓬荜生辉及其它 (16)2010/02/02 -- 特别致谢颜林林对COS的贡献 (6)2009/12/31 -- 统计之都新年构想（杂碎篇） (33)2009/04/23 -- 新论坛太复杂了 (5)2009/04/07 -- 得力干将 (10)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2010/04/no-advertisement/"><span class="dropcap-orange">洒</span></a>家真是牟想到啊，Dirk Eddelbuettel居然也会给我发邮件问animation问题。关注R与金融的人应该知道这个人，不过这一点可能只是他的副业，更多工作在于研究R的高性能计算以及维护Debian上的R以及其它Debian包。蓬荜生辉啊。本小子的动画包，自打一开始就没做任何宣传，后来<a title="http://yihui.name/cn/2009/04/won-john-chambers-award/" href="http://yihui.name/cn/2009/04/won-john-chambers-award/" target="_blank">中奖了</a>也没在R里吱声。前些日子某波兰童鞋来信问动画问题，我忍不住回问了一下你们从哪儿获知的消息，结果该童鞋说，老师布置作业，班上一共30来人，每个人分50来个R包去研究，CRAN上所有的R包就差不多研究遍了，我晕。</p>
<p>前两天，中国群众大学校报小记者来信，要采访统计之都的“幕后黑手”，据说是校报办公室老师安排来采访的，我一看心里大概就明白咋回事了：八成可能跟群众大学的某大领导有关……其实COS早在办旧版的时候就已经惊动党中央，院领导对我提起过几次说上面对COS赞赏有加，你娃儿要好好办，本小子连声“嗻”。</p>
<p>宣传这事儿，我一直认为没太大必要，理由是自身不够牛的时候把别人引来会让别人失望（宣传提高了别人的预期），而采取小步渗透的方式则会让用户有足够的惊喜，并且以这种方式聚集的人群关系会比较紧密。</p>
<p>现在用Google搜“统计学网站”排名第一是统计之都，搜“统计学论坛”排名第一是COS论坛，而我们从未用任何手段（如邪恶的积分制度）引诱任何会员在任何地方宣传。说到底，踏实做事才是王道。不过既然台风来了猪都会飞，这次有了机会，飞它一把也无妨。</p>
<p style="text-align: center;">~~~~~~~~~~~~~~自相矛盾的分隔线~~~~~~~~~~~~~~</p>
<p>最近又写了个跟WinBUGS（或者OpenBUGS）有关的R包，取一很俗的名字，叫<a title="http://cran.at.r-project.org/package=iBUGS" href="http://cran.at.r-project.org/package=iBUGS" target="_blank"><strong>iBUGS</strong></a>，之所以加个i，是因为我想让它尽量智能。目前实现了以下几点智能：</p>
<ol>
<li>智能找WinBUGS或OpenBUGS的安装路径，免得手工填写；</li>
<li>智能分析BUGS模型，找出参数列表，可用鼠标点选，免得手工填写；</li>
<li>分析R工作空间，提出数据变量列表，可用鼠标点选；</li>
</ol>
<p>这个包主要是为了提供一个（聪明的）图形界面，它包括了<strong>R2WinBUGS</strong>包中<em>bugs()</em>函数的所有功能。可在图形界面中写BUGS模型，然后点“执行”按钮就可以跑MCMC了。向不做贝叶斯的童鞋们特别声明一下，BUGS和bug没有任何联系。</p>
<p>话说暑假里的R会议该正式进入议事日程了……</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/03/17 -- <a href="http://yihui.name/cn/2010/03/feel-charmed-etc/" title="蓬荜生辉及其它">蓬荜生辉及其它</a> (16)</li><li>2010/02/02 -- <a href="http://yihui.name/cn/2010/02/a-big-thank-you-to-linlin-yan/" title="特别致谢颜林林对COS的贡献">特别致谢颜林林对COS的贡献</a> (6)</li><li>2009/12/31 -- <a href="http://yihui.name/cn/2009/12/cos-in-2010/" title="统计之都新年构想（杂碎篇）">统计之都新年构想（杂碎篇）</a> (33)</li><li>2009/04/23 -- <a href="http://yihui.name/cn/2009/04/complicated-cos-forum/" title="新论坛太复杂了">新论坛太复杂了</a> (5)</li><li>2009/04/07 -- <a href="http://yihui.name/cn/2009/04/capable-manager-in-cos/" title="得力干将">得力干将</a> (10)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/04/no-advertisement/feed/</wfw:commentRss>
		<slash:comments>17</slash:comments>
		</item>
		<item>
		<title>formatR：格式化R代码的R包</title>
		<link>http://yihui.name/cn/2010/03/new-r-package-formatr/</link>
		<comments>http://yihui.name/cn/2010/03/new-r-package-formatr/#comments</comments>
		<pubDate>Thu, 25 Mar 2010 19:08:04 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[程序开发]]></category>
		<category><![CDATA[formatR]]></category>
		<category><![CDATA[gWidgets]]></category>
		<category><![CDATA[gWidgetsRGtk2]]></category>
		<category><![CDATA[R代码]]></category>
		<category><![CDATA[tidy.source()]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1294</guid>
		<description><![CDATA[邱童鞋眼尖，我刚往CRAN发了个R包没几天就被发现了。很久很久以前，source()函数是可以输出干净整齐的R代码的，但从某个R版本开始，这项功能被去掉了，让我感到很不爽，于是乎，研究了一下前一个版本的R源文件，悟出了整理代码的本质，于是操刀写了一个清理代码的函数；很久以前，小邱想出了一个聪明的办法，使得这个函数可以保留某些注释语句（以前这个函数只能去掉所有注释）；几天前，我在看gWidgets包的同时，为这个函数写了个界面。一个新的R包formatR就诞生了。 很多人写R代码都不管代码是否整齐可读，也许是没有受够读代码的折磨：本来读别人的代码就是很痛苦的事情，如果代码写得不整齐，就更要命了。幸好R可以自己处理自己的代码，以R攻R，就可以得到自动整理的整齐代码了。 这个包的界面很简略，就是一个文本框加上若干按钮。以下是效果图： 感兴趣的客官可以从svn获得最新源代码自行编译安装，注意这个包依赖于gWidgetsRGtk2包： svn checkout svn://svn.r-forge.r-project.org/svnroot/animation/pkg/formatR R CMD INSTALL formatR 初级用户可以从CRAN安装（CRAN上的版本取决于我的提交，可能会有延迟）： ## 启动R，然后 install.packages('formatR') library(formatR) ## 将自动启动界面 第二个版本中加入了执行代码、字体设置以及其它选项。需要提醒的有两点： 这个代码清理功能只能保留整行的注释（也就是单独占一行的注释），行内注释会被删掉。 目前暂时还没搞清楚中文编码的问题，所以暂不支持中文，如果代码中有中文，将会被转换为乱码。有谁熟悉gWidgets的话可以帮帮我。 爷还想看：2009/03/08 -- 以其人之道 (3)]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2010/03/new-r-package-formatr/"><span class="dropcap-brown">小</span></a>邱童鞋眼尖，我刚往CRAN发了个R包没几天就被发现了。很久很久以前，<code>source()</code>函数是可以输出干净整齐的R代码的，但从某个R版本开始，这项功能被去掉了，让我感到很不爽，于是乎，研究了一下前一个版本的R源文件，悟出了整理代码的本质，于是操刀写了一个清理代码的函数；很久以前，小邱想出了一个聪明的办法，使得这个函数可以保留某些注释语句（以前这个函数只能去掉所有注释）；几天前，我在看<strong>gWidgets</strong>包的同时，为这个函数写了个界面。一个新的R包<strong>formatR</strong>就诞生了。</p>
<p>很多人写R代码都不管代码是否整齐可读，也许是没有受够读代码的折磨：本来读别人的代码就是很痛苦的事情，如果代码写得不整齐，就更要命了。幸好R可以自己处理自己的代码，以R攻R，就可以得到自动整理的整齐代码了。</p>
<p>这个包的界面很简略，就是一个文本框加上若干按钮。以下是效果图：</p>
<p><div id="attachment_1295" class="wp-caption aligncenter" style="width: 469px"><a href="http://yihui.name/cn/wp-content/uploads/2010/03/before-tidy.gif"><img class="size-full wp-image-1295" title="R代码整容前" src="http://yihui.name/cn/wp-content/uploads/2010/03/before-tidy.gif" alt="R代码整容前" width="459" height="326" /></a><p class="wp-caption-text">R代码整容前</p></div>
<div id="attachment_1296" class="wp-caption aligncenter" style="width: 469px"><a href="http://yihui.name/cn/wp-content/uploads/2010/03/after-tidy.gif"><img class="size-full wp-image-1296" title="R代码整容后" src="http://yihui.name/cn/wp-content/uploads/2010/03/after-tidy.gif" alt="R代码整容后" width="459" height="323" /></a><p class="wp-caption-text">R代码整容后</p></div>
<p>感兴趣的客官可以从svn获得最新源代码自行编译安装，注意这个包依赖于<strong>gWidgetsRGtk2</strong>包：</p>
<pre>svn checkout svn://svn.r-forge.r-project.org/svnroot/animation/pkg/formatR
R CMD INSTALL formatR
</pre>
<p>初级用户可以从CRAN安装（CRAN上的版本取决于我的提交，可能会有延迟）：</p>
<pre>## 启动R，然后
install.packages('formatR')
library(formatR)
## 将自动启动界面
</pre>
<p>第二个版本中加入了执行代码、字体设置以及其它选项。需要提醒的有两点：</p>
<ol>
<li>这个代码清理功能只能保留<strong>整行</strong>的注释（也就是单独占一行的注释），行内注释会被删掉。</li>
<li>目前暂时还没搞清楚中文编码的问题，所以暂不支持中文，如果代码中有中文，将会被转换为乱码。有谁熟悉<strong>gWidgets</strong>的话可以帮帮我。</li>
</ol>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/03/08 -- <a href="http://yihui.name/cn/2009/03/smart-trick-to-tidy-r-source/" title="以其人之道">以其人之道</a> (3)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/03/new-r-package-formatr/feed/</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
		<item>
		<title>蓬荜生辉及其它</title>
		<link>http://yihui.name/cn/2010/03/feel-charmed-etc/</link>
		<comments>http://yihui.name/cn/2010/03/feel-charmed-etc/#comments</comments>
		<pubDate>Wed, 17 Mar 2010 05:36:57 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[animation]]></category>
		<category><![CDATA[COS论坛]]></category>
		<category><![CDATA[Paul Murrell]]></category>
		<category><![CDATA[St Patrick Day]]></category>
		<category><![CDATA[专注]]></category>
		<category><![CDATA[厨房]]></category>
		<category><![CDATA[宏能畅然]]></category>
		<category><![CDATA[德梅因]]></category>
		<category><![CDATA[泡椒]]></category>
		<category><![CDATA[统计之都]]></category>
		<category><![CDATA[考研]]></category>
		<category><![CDATA[陈丽云]]></category>
		<category><![CDATA[高德纳]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1289</guid>
		<description><![CDATA[眼又是一月无话。前两天又一位R core成员Paul Murrell老大来信报告了一个animation包的bug，受宠若惊，蓬荜生辉。宏能公司的老大之一颠颠儿跑到COS论坛发帖，蓬荜生辉。话说COS论坛改版也是轰轰隆隆，有失有得（这事儿思来想去有点对不住fan大版主），现在开始尘埃落定，新老面孔，冒泡的冒泡，潜水的潜水；统计之都新年构想实现了重要一步，颜大站长功不可没。 《现代统计图形》一书重新提笔，论坛上的帖子将会收录相当一部分补充进这本书，尽量实现“用实例而不用模拟”的原则。春假窝在家，集中写第7章。陈丽云童鞋最近“祖国未统一，心情很郁闷”，计量经济学的书稿不知啥时候能多凑几个人一起捣鼓，这题目设大了确实觉得压力很大。转而想到高德纳——一个我提过几次的天外飞仙级人物，最近看到关于他的一则报道（其实都是“旧闻”，而且标题的选取显示出该撰稿者很无聊），我觉得世上专注的极致代表就是这位高老头了，可惜我们都是凡人。 偶尔也学习一下菜谱，见那川菜菜谱几乎处处（a.e.）需要泡椒，于是去Cub Foods抱得泡椒一罐回家待试验。目前自己满意的菜有四样：红烧排骨、香辣虾、酸菜鱼和醋溜土豆丝，走过路过的客官欢迎来俺家蹭饭（临时有效期：春假期间）。话说厨房其实真的是一个休息的好地方，管它甚鸟测度、鸟信息量、鸟混合效应。诗云：两耳不闻窗外事，一心只弄圣贤锅。 今日COS论坛上见一帖“专业课出乎意料”；又是一年考研出分时，几家欢乐几家愁。考研这事儿，几年前我就表达了我的怀疑：它是不是一个随机选择过程呢？同样是花了很大功夫，有人考上了，有人考不上；同样也是没下大功夫，依旧是有人考上了。“追梦”这一个词，就像个美丽童话。无论如何，能有毅力考两年研的人，已经从某种程度上表明了他/她的（优良的）“先验分布”，此后的路走向何方（“后验分布”），也不必过于担心。是非成败，往往不在表象。 明日庆祝St Patrick Day，从本农村进城去（德梅因）暴走——尽管都不知道这节日是个啥节。子曰：学而暴走之，不亦乐乎？ 爷还想看：2010/04/10 -- 不宣传，就是不宣传 (17)2010/02/02 -- 特别致谢颜林林对COS的贡献 (6)2009/12/31 -- 统计之都新年构想（杂碎篇） (33)2009/04/23 -- 新论坛太复杂了 (5)2009/04/07 -- 得力干将 (10)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2010/03/feel-charmed-etc/"><span class="dropcap-brown">转</span></a>眼又是一月无话。前两天又一位R core成员Paul Murrell老大来信报告了一个animation包的bug，受宠若惊，蓬荜生辉。宏能公司的老大之一颠颠儿跑到<a title="http://cos.name/cn/" href="http://cos.name/cn/">COS论坛</a>发<a title="http://cos.name/cn/topic/101091" href="http://cos.name/cn/topic/101091">帖</a>，蓬荜生辉。话说COS论坛改版也是轰轰隆隆，有失有得（这事儿思来想去有点对不住fan大版主），现在开始尘埃落定，新老面孔，冒泡的冒泡，潜水的潜水；<a title="统计之都新年构想（杂碎篇）" href="http://yihui.name/cn/2009/12/cos-in-2010/">统计之都新年构想</a>实现了重要一步，颜大站长功不可没。</p>
<p><a title="http://yihui.name/cn/publication/" href="http://yihui.name/cn/publication/">《现代统计图形》</a>一书重新提笔，论坛上的帖子将会收录相当一部分补充进这本书，尽量实现“用实例而不用模拟”的原则。春假窝在家，集中写第7章。陈丽云童鞋最近“祖国未统一，心情很郁闷”，<a title="http://github.com/cloudly/Play-Econometrics-with-R" href="http://github.com/cloudly/Play-Econometrics-with-R">计量经济学的书稿</a>不知啥时候能多凑几个人一起捣鼓，这题目设大了确实觉得压力很大。转而想到高德纳——一个我提过几次的天外飞仙级人物，最近看到<a title="http://www.cnbeta.com/articles/106172.htm" href="http://www.cnbeta.com/articles/106172.htm" target="_blank">关于他的一则报道</a>（其实都是“旧闻”，而且标题的选取显示出该撰稿者很无聊），我觉得世上专注的极致代表就是这位高老头了，可惜我们都是凡人。</p>
<p>偶尔也学习一下菜谱，见那川菜菜谱几乎处处（a.e.）需要泡椒，于是去Cub Foods抱得泡椒一罐回家待试验。目前自己满意的菜有四样：红烧排骨、香辣虾、酸菜鱼和醋溜土豆丝，走过路过的客官欢迎来俺家蹭饭（临时有效期：春假期间）。话说厨房其实真的是一个休息的好地方，管它甚鸟测度、鸟信息量、鸟混合效应。诗云：两耳不闻窗外事，一心只弄圣贤锅。</p>
<p>今日COS论坛上见一帖“<a title="http://cos.name/cn/topic/101092" href="http://cos.name/cn/topic/101092">专业课出乎意料</a>”；又是一年考研出分时，几家欢乐几家愁。考研这事儿，几年前我就表达了我的怀疑：它是不是一个随机选择过程呢？同样是花了很大功夫，有人考上了，有人考不上；同样也是没下大功夫，依旧是有人考上了。“<a href="http://www.iiee.cn/RecordOnline/matianyu/ygss/pic/d7.mp3">追梦</a>”这一个词，就像个美丽童话。无论如何，能有毅力考两年研的人，已经从某种程度上表明了他/她的（优良的）“先验分布”，此后的路走向何方（“后验分布”），也不必过于担心。是非成败，往往不在表象。</p>
<p>明日庆祝St Patrick Day，从本农村进城去（德梅因）暴走——尽管都不知道这节日是个啥节。子曰：学而暴走之，不亦乐乎？</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/04/10 -- <a href="http://yihui.name/cn/2010/04/no-advertisement/" title="不宣传，就是不宣传">不宣传，就是不宣传</a> (17)</li><li>2010/02/02 -- <a href="http://yihui.name/cn/2010/02/a-big-thank-you-to-linlin-yan/" title="特别致谢颜林林对COS的贡献">特别致谢颜林林对COS的贡献</a> (6)</li><li>2009/12/31 -- <a href="http://yihui.name/cn/2009/12/cos-in-2010/" title="统计之都新年构想（杂碎篇）">统计之都新年构想（杂碎篇）</a> (33)</li><li>2009/04/23 -- <a href="http://yihui.name/cn/2009/04/complicated-cos-forum/" title="新论坛太复杂了">新论坛太复杂了</a> (5)</li><li>2009/04/07 -- <a href="http://yihui.name/cn/2009/04/capable-manager-in-cos/" title="得力干将">得力干将</a> (10)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/03/feel-charmed-etc/feed/</wfw:commentRss>
		<slash:comments>16</slash:comments>
<enclosure url="http://www.iiee.cn/RecordOnline/matianyu/ygss/pic/d7.mp3" length="2844803" type="audio/mpeg" />
		</item>
		<item>
		<title>关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题</title>
		<link>http://yihui.name/cn/2010/02/misc-issues-in-latex-lyx-r-sweave-pgfsweave/</link>
		<comments>http://yihui.name/cn/2010/02/misc-issues-in-latex-lyx-r-sweave-pgfsweave/#comments</comments>
		<pubDate>Mon, 08 Feb 2010 06:04:49 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[R 语言]]></category>
		<category><![CDATA[推荐]]></category>
		<category><![CDATA[计算机应用]]></category>
		<category><![CDATA[ctex]]></category>
		<category><![CDATA[EPS]]></category>
		<category><![CDATA[LaTeX]]></category>
		<category><![CDATA[Lyx]]></category>
		<category><![CDATA[MikTeX]]></category>
		<category><![CDATA[PDF]]></category>
		<category><![CDATA[pgfSweave]]></category>
		<category><![CDATA[R语言]]></category>
		<category><![CDATA[Sweave]]></category>
		<category><![CDATA[UTF-8编码]]></category>
		<category><![CDATA[中文]]></category>
		<category><![CDATA[动态文档]]></category>
		<category><![CDATA[可复制粘贴]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1269</guid>
		<description><![CDATA[我不确定这是不是R和Sweave能达到的最漂亮的境界： 这两天花了点时间，把跟LaTeX、LyX、Sweave有关的一系列中文问题从头到脚翻了个遍，目前为止，明白并解决了如下问题（基于带有MikTeX 2.8的CTeX 2.8.0.125、LyX 1.6.5、R 2.10.1、R包pgfSweave 1.0.3，操作系统Win XP，从头到尾一直用UTF-8编码）： （LaTeX说中文了）LaTeX生成可复制粘贴的中文PDF文档：由于我的惰性，还用着N年前的CTeX，那个老版本CTeX中的MikTeX貌似一直有问题，比如无法更新LaTeX宏包，更不必说那些dvipdfmx之类的程序了，估计人家作者都已经更新了无数个版本我还不知道。在我陈旧的印象中，要用LaTeX生成可复制粘贴的中文只有一种办法，就是用dvipdfmx把dvi转为pdf，而我陈旧的印象又记得dvi文件只能由latex命令生成，并且用latex编译的文档必须用EPS图形，这一直让我觉得很不爽，因为我实在不爱用EPS，比如R的postscript()设备（可生成EPS图形）不支持半透明色，而且图形中要用中文字符的话配置非常麻烦（N年前我请教了Paul Murrell，虽然搞明白了，但心里仍有疙瘩）。我的偏好是用pdflatex命令编译文档，图形也用PDF格式（pdflatex默认支持PDF和PNG图形），用R生成PDF图形也方便、漂亮，所以配合Sweave很容易生成一篇干净利索的PDF文档；但pdflatex命令直接编译生成的中文文档中，中文字符是不能复制粘贴的，因为复制出来就是乱码。所以呢，我陈旧的知识让我的这个“麻烦问题”一直没有得到解决。 现如今，发现CTeX已经把MikTeX更新到2.8了（其实早注意到了，就是懒得卸载几百兆的程序然后再下载几百兆的家伙装上），吭哧吭哧下下来发现自己的老问题早已不存在了……虽然我不清楚ctex宏包的细节，但总归是pdflatex可以编译生成可复制粘贴的中文文档了。 \documentclass[twoside,UTF8]{ctexart} \usepackage[T1]{fontenc} \usepackage{CJKutf8} \usepackage[letterpaper]{geometry} \usepackage{esint} \makeatletter \usepackage{Sweave} \makeatother \begin{document} \begin{CJK}{UTF8}{}% \title{你好，中文} \author{我是作者} \maketitle \setkeys{Gin}{width=.8\linewidth} &#60;&#60;setup&#62;&#62;= pdf.options(family='GB1') @ 我是正文。 \begin{figure} \begin{center} &#60;&#60;rnorm,fig=TRUE&#62;&#62;= rnorm(10) plot(rnorm(25), pch=1:25, main='中文字符', xlab='$\\alpha + \\beta$', ylab='$\\gamma$') @ \end{center} \caption{一幅pgfSweave图} \end{figure} \end{CJK} \end{document} 于是，中文文档可以嵌入PDF图形了，Sweave文档也可用中文编写了。我们要大力感谢ctex宏包的作者们为我们解决了各种中文配置问题。 有客官也许要问，可复制粘贴的中文文档有那么重要么，一份中文文档可以正常阅读不就可以了么？是滴是滴，可复制粘贴很重要，我的关注点是放在网上的中文文档能否被搜索引擎正确收录。要是它本质上都是乱码，别人就无法通过搜索引擎找到你的东西了。这年头，平民百姓自个儿的网站的访问来源大部分都是来自于搜索引擎，别人要是搜不到你的东西，咋可能来敲门呢。不来敲门，咋会有后面更多的机会呢？ （LyX基于LaTeX说中文了）LyX使用ctex系列的layout：ctex宏包提供了三种基本的文档类，即论文、书籍和报告，这让我们写中文文档更符合中文习惯，一些英文名称比如Figure会变成“图”、Abstract会变成“摘要”，等等，让我们省去了大量的重命名工夫。 我大约用了三四年时间LaTeX，辛辛苦苦敲代码啊敲代码，直到有一天发现了LyX。可以说大多数有界面的文本编辑器都跟MS Word一个德行，为了所见即所得，大大牺牲了质量，用了LaTeX的人大多会“中毒”，看别的什么排版都是垃圾，但LyX绝对是个例外，它聪明地提供了导入导出LaTeX的功能，虽说它也算是所见即所得，但它自己不干排版的事情，而是把这事儿交给LaTeX去办，排版质量当然没得说了。 要在LyX中能够通过界面点选使用ctex的文档类的话，得自己先写几个*.layout文件放在Resources/layouts/目录下，比如要用ctexart类： #% Do not [...]]]></description>
			<content:encoded><![CDATA[<p>我不确定这是不是R和Sweave能达到的最漂亮的境界：</p>
<span class="download">下载：<a href="http://yihui.name/cn/wp-content/uploads/2010/02/lyx-pgfsweave.pdf">一份由pgfSweave生成的人模狗样的动态文档</a></span>
<p>这两天花了点时间，把跟LaTeX、LyX、Sweave有关的一系列中文问题从头到脚翻了个遍，目前为止，明白并解决了如下问题（基于带有MikTeX 2.8的CTeX 2.8.0.125、LyX 1.6.5、R 2.10.1、R包pgfSweave 1.0.3，操作系统Win XP，从头到尾一直用UTF-8编码）：</p>
<ol>
<li>（<strong>LaTeX说中文了</strong>）LaTeX生成可复制粘贴的中文PDF文档：由于我的惰性，还用着N年前的CTeX，那个老版本CTeX中的MikTeX貌似一直有问题，比如无法更新LaTeX宏包，更不必说那些<code>dvipdfmx</code>之类的程序了，估计人家作者都已经更新了无数个版本我还不知道。在我陈旧的印象中，要用LaTeX生成可复制粘贴的中文只有一种办法，就是用<code>dvipdfmx</code>把dvi转为pdf，而我陈旧的印象又记得dvi文件只能由<code>latex</code>命令生成，并且用<code>latex</code>编译的文档必须用EPS图形，这一直让我觉得很不爽，因为我实在不爱用EPS，比如R的<code>postscript()</code>设备（可生成EPS图形）不支持半透明色，而且图形中要用中文字符的话配置非常麻烦（N年前我请教了Paul Murrell，虽然搞明白了，但心里仍有疙瘩）。我的偏好是用<code>pdflatex</code>命令编译文档，图形也用PDF格式（<code>pdflatex</code>默认支持PDF和PNG图形），用R生成PDF图形也方便、漂亮，所以配合Sweave很容易生成一篇干净利索的PDF文档；但<code>pdflatex</code>命令直接编译生成的中文文档中，中文字符是不能复制粘贴的，因为复制出来就是乱码。所以呢，我陈旧的知识让我的这个“麻烦问题”一直没有得到解决。<span id="more-1269"></span></li>
<p>现如今，发现CTeX已经把MikTeX更新到2.8了（其实早注意到了，就是懒得卸载几百兆的程序然后再下载几百兆的家伙装上），吭哧吭哧下下来发现自己的老问题早已不存在了……虽然我不清楚ctex宏包的细节，但总归是pdflatex可以编译生成可复制粘贴的中文文档了。</p>
<pre>\documentclass[twoside,UTF8]{ctexart}
\usepackage[T1]{fontenc}
\usepackage{CJKutf8}
\usepackage[letterpaper]{geometry}
\usepackage{esint}

\makeatletter
\usepackage{Sweave}

\makeatother

\begin{document}
\begin{CJK}{UTF8}{}%

\title{你好，中文}
\author{我是作者}
\maketitle

\setkeys{Gin}{width=.8\linewidth} 

&lt;&lt;setup&gt;&gt;=
pdf.options(family='GB1')
@

我是正文。

\begin{figure}
\begin{center}
&lt;&lt;rnorm,fig=TRUE&gt;&gt;=
rnorm(10)
plot(rnorm(25), pch=1:25, main='中文字符',
     xlab='$\\alpha + \\beta$', ylab='$\\gamma$')
@
\end{center}
\caption{一幅pgfSweave图}
\end{figure}
\end{CJK}
\end{document}</pre>
<p>于是，中文文档可以嵌入PDF图形了，Sweave文档也可用中文编写了。我们要大力感谢<code>ctex</code>宏包的作者们为我们解决了各种中文配置问题。</p>
<p>有客官也许要问，可复制粘贴的中文文档有那么重要么，一份中文文档可以正常阅读不就可以了么？是滴是滴，可复制粘贴很重要，我的关注点是放在网上的中文文档能否被搜索引擎正确收录。要是它本质上都是乱码，别人就无法通过搜索引擎找到你的东西了。这年头，平民百姓自个儿的网站的访问来源大部分都是来自于搜索引擎，别人要是搜不到你的东西，咋可能来敲门呢。不来敲门，咋会有后面更多的机会呢？</p>
<li>（<strong>LyX基于LaTeX说中文了</strong>）LyX使用ctex系列的layout：ctex宏包提供了三种基本的文档类，即论文、书籍和报告，这让我们写中文文档更符合中文习惯，一些英文名称比如Figure会变成“图”、Abstract会变成“摘要”，等等，让我们省去了大量的重命名工夫。</li>
<p>我大约用了三四年时间LaTeX，辛辛苦苦敲代码啊敲代码，直到有一天发现了LyX。可以说大多数有界面的文本编辑器都跟MS Word一个德行，为了所见即所得，大大牺牲了质量，用了LaTeX的人大多会“中毒”，看别的什么排版都是垃圾，但LyX绝对是个例外，它聪明地提供了导入导出LaTeX的功能，虽说它也算是所见即所得，但它自己不干排版的事情，而是把这事儿交给LaTeX去办，排版质量当然没得说了。</p>
<p>要在LyX中能够通过界面点选使用<code>ctex</code>的文档类的话，得自己先写几个<code>*.layout</code>文件放在<code>Resources/layouts/</code>目录下，比如要用<code>ctexart</code>类：</p>
<pre>#% Do not delete the line below; configure depends on this
#  \DeclareLaTeXClass[ctexart]{article (CTeX)}

# Read the definitions from article.layout
Input article.layout</pre>
<p>存为<code>ctex-article.layout</code>，然后Reconfigure一下LyX，重启，就可以在<code>Document--&gt;Settings</code>中选择这个类了，记得把语言设置为中文。这样，在LyX中就可以直接编译生成可复制粘贴的中文文档了。</p>
<li>（<strong>Sweave基于LaTeX和LyX说中文了</strong>）联合ctex宏包直接用LyX写中文Sweave文档：<a title="http://cran.r-project.org/contrib/extra/lyx/" href="http://cran.r-project.org/contrib/extra/lyx/" target="_blank">CRAN上有关于如何配置LyX使之支持Sweave</a>，所以很容易模仿一个新的layout文件，让LyX支持中文Sweave文件，比如就叫<code>ctex-article-sweave.layout</code>吧。</li>
<pre>#% Do not delete the line below; configure depends on this
#  \DeclareLaTeXClass[ctexart, Sweave.sty]{article (Sweave CTeX)}

# Read the definitions from literate-article.layout
Input literate-article.layout</pre>
<p>现在，我们就可以在菜单中选文档类为<code>article (Sweave CTeX)</code>了，当然我们要首先保证<code>ctexart.cls</code>和<code>Sweave.sty</code>都能被LyX找到（可以采取任何手段把R目录下的texmf下的Sweave.sty复制到LaTeX宏包的目录中去），否则这个选项会显示为unavailable。</p>
<p>接下来，我们就要遇到点麻烦了：这里的看官的Windows系统恐怕都是中文环境，codepage是936，而Sweave读文件时需要正确的编码参数，你要是直接把中文的Rnw文件扔给它，它会把所有多字节字符转化为空白或者NA。所以呢，我们要稍微配置一下R的启动选项，比如在<code>Rprofile.site</code>文件中加上<code>options(encoding = "UTF-8")</code>，这样Sweave就能正确读入UTF-8编码的文件了（实际上这影响的是<code>readLines()</code>）。</p>
<li>（<strong>动态的R图形基于Sweave、LyX和LaTeX说中文了</strong>）R的<code>pdf()</code>图形设备是可以支持中文字符的，只不过要设置<code>family = "GB1"</code>参数，比如：</li>
<pre>pdf(family = "GB1")
plot(1, main = "我是中文，哇哈哈哈", xlab = "顶楼上的！")
dev.off()</pre>
<p>这个参数可以用<code>pdf.options()</code>函数事先设定，因为我们无法用Sweave的选项去指定<code>pdf()</code>设备的family参数。</p>
<p>然而，悲剧就在于这种方式生成的R图形中，英文字体很难看，瘦高瘦高的。所以我们需要对PDF图形进行某种处理。</p>
<li>（<strong>动态的R图形基于pgfSweave、LyX和LaTeX说漂亮的中文了</strong>）pgfSweave包提供了一种解决方案，就是把PDF图形转化为tikz格式（不甚了解，应该类似于pictex吧），然后插入LaTeX文档，这样图形中的所有文本都会被当做原始的LaTeX代码处理，其后果就是PDF图形中的文本格式将会LaTeX文档完全一致，包括数学公式！！比如我最开头的那段Sweave代码中，标签用了LaTeX数学公式，这些东西会被转化为原汁原味的LaTeX公式。</li>
<p>要想让LyX支持pgfSweave，目前我只能通过暴力修改Sweave的converter，定义为<code>R --verbose --no-save --no-restore -q -e library(pgfSweave);pgfSweave('$$i',compile.tex=FALSE)</code>，这样pgfSweave负责运行R代码并生成tex文档，然后LyX会自动将tex编译为PDF。</ol>
<p>至此，我们能够在ctex、LaTeX、R和pgfSweave的支持下用LyX创建<strong>可复制粘贴中文的、动态的、能使用带有中文字符和原生LaTeX数学公式的PDF图形的</strong>PDF文档。显然，这路途颇有些曲折，不过一番周折之后，想想以后写中文的东西只需要点几下鼠标，就能用R生成漂亮的PDF文档，心里还是很舒坦的。我写东西很是受排版影响——只要版式漂亮，俺就有无穷的写作动力。</p>
<p>几点附注：</p>
<ol>
<li>我用UTF-8编码的原因是它比较通用，尤其是这次论坛搬家，要是没有颜林林想出办法解决了从GB2312到UTF-8编码的转换，我真是被编码问题愁死了。打这以后，能用UTF-8一律用UTF-8，管它占用空间大小呢。再者，后面我还想大规模使用GitHub，那网站也是UTF-8的，为了源文件在网站上能正确显示，也必须用UTF-8编码。</li>
<li>CRAN上关于LyX的配置（literate-scrap.inc）被我拿来修改了，主要是更改了Scrap的定义，我很不喜欢原作者关于换行符的定义，必须用Ctrl+Enter，使得老夫在LyX中敲R代码很不爽，而且没法跟别的编辑器互相复制粘贴，现在我可以自由自在地敲R代码了。</li>
<li>Sweave到pdfLaTeX的转换器从<code>R CMD Sweave $$i</code>改为了<code>cp $$r/*.{r,txt,pdf} ./ &amp; R --verbose --no-save --no-restore -q -e library(pgfSweave);pgfSweave('$$i',compile.tex=FALSE)</code>，原因是LyX会把文档复制到一个临时目录下编译，这一点我觉得挺不好的，尤其是写动态文档时，有些数据文件或者R代码需要在文档中使用，但LyX不会把它们全都复制过去，所以R代码运行时会出错，所以我人为加入了复制*.r/*.txt/*.pdf文件到编译的目录中去的命令，然后用命令行的方式执行R，执行的内容是<code>library(pgfSweave);pgfSweave('$$i',compile.tex=FALSE)</code>，这段代码可以用-e参数传给R；设定compile.tex=FALSE的原因是pgfSweave默认会编译LaTeX文档，而我们只需要让它走到生成LaTeX文档那一步就够了。</li>
<li>Sweave不支持给每一幅图形设定宽度，只能通过<code>\setkeys{Gin}{width=}</code>的方式统一设定文档中所有图形的宽度，这一点也让人很不爽，哪有文档能保证所有图形宽度都一样呢，因此我们让Sweave.sty不要统一设定宽度：<code>\usepackage[nogin]{Sweave}</code>；然后在每一段R代码块中分别设定width，这样pgfSweave可以根据这些宽度相应设定图形宽度。这一点也反映在对<code>literate-scrap.inc</code>文件的修改上了。</li>
<li>pgfSweave包默认有命令行执行的方式：<code>R CMD pgfSweave</code>，但这个方式是基于Rscript的，它在执行的时候并不会等程序真的运行完了才退出，而是一扫而过，该运行的程序还在后台默默运行。这一点会让LyX昏了头，LyX以为Sweave代码已经执行完毕，可以启动<code>pdflatex</code>编译了，但事实上tex文档压根儿就还没生成出来。因此我采用了<code>R -e</code>的方式，让LyX老老实实等待R运行结束再编译。</li>
<li>本文的配置对部分客官来说简单，对不常用命令行的客官可能还有好几步路要走，比如把R的bin路径放到系统的PATH环境变量中，以及阅读CRAN上关于LyX+Sweave的配置等等，装LaTeX宏包fancyvrb等（Sweave.sty依赖于它，否则layout在LyX中显示unavailable，尽管Sweave.sty存在）。</li>
</ol>
<span class="download">下载：<a href="http://yihui.name/cn/wp-content/uploads/2010/02/lyx-pgfsweave.zip">文中提到的layout文件们，以及preferences</a></span>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/12/31 -- <a href="http://yihui.name/cn/2009/12/cos-in-2010/" title="统计之都新年构想（杂碎篇）">统计之都新年构想（杂碎篇）</a> (33)</li><li>2009/03/05 -- <a href="http://yihui.name/cn/2009/03/lyx-and-sweave/" title="LyX和Sweave">LyX和Sweave</a> (3)</li><li>2008/10/12 -- <a href="http://yihui.name/cn/2008/10/open-files-with-hyperlinks-in-pdf/" title="利用超级链接直接打开文件">利用超级链接直接打开文件</a> (5)</li><li>2010/08/30 -- <a href="http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/" title="useR! 2010会议流水账回顾">useR! 2010会议流水账回顾</a> (9)</li><li>2010/08/28 -- <a href="http://yihui.name/cn/2010/08/sas-against-wpl-and-my-thoughts-on-open-source/" title="SAS与WPL之争以及我对开源的简单考虑">SAS与WPL之争以及我对开源的简单考虑</a> (8)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/02/misc-issues-in-latex-lyx-r-sweave-pgfsweave/feed/</wfw:commentRss>
		<slash:comments>37</slash:comments>
		</item>
		<item>
		<title>特别致谢颜林林对COS的贡献</title>
		<link>http://yihui.name/cn/2010/02/a-big-thank-you-to-linlin-yan/</link>
		<comments>http://yihui.name/cn/2010/02/a-big-thank-you-to-linlin-yan/#comments</comments>
		<pubDate>Wed, 03 Feb 2010 05:44:06 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[bbPress]]></category>
		<category><![CDATA[COS论坛]]></category>
		<category><![CDATA[MySQL]]></category>
		<category><![CDATA[PHP]]></category>
		<category><![CDATA[PHPWind]]></category>
		<category><![CDATA[统计之都]]></category>
		<category><![CDATA[网站]]></category>
		<category><![CDATA[颜林林]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1264</guid>
		<description><![CDATA[COS史上有几位不为人知的幕后英雄，而我从没认真记载过这些事情，时间一长，各种事情堆满了脑子，也不会再去回顾。如今，我必须记下颜林林。以下截图部分反映了他在迁移论坛过程中的贡献： 这事情起源于去年暑假，当时我提出了更换PHPWind系统到bbPress的想法，这位颜小侠很快就研究了PW和bb的数据库结构并写了一个初步的MySQL脚本发给我，而我处理邮件的速度各位客官可能也有所耳闻……过了半年，我测试了这个脚本，发现并不顺利，于是颜林林重新开始修改脚本。众IT民工都知道，即使是自己写的程序，过三个月不看，感觉也像是别人写的。不过颜林林的计算机水平在我看来已经有天外飞仙的感觉了，三下五除二，又发回了修改的版本，然后就是我无休止的改进建议以及Bug修正。截止到记者发稿为止，新的论坛已经克服了我所能想象到的主要障碍（用户名密码顺利迁移、用户权限顺利迁移、帖子id保持不变顺利同步、数据库编码从GB2312顺利转为UTF8、bbcode算是顺利转换……）。每个问题我看着都觉得头皮发麻，但他的每一种解决方案都聪明得“令人发指”。 如果没有这样一位天才存在，换系统这件事我也只能在脑子里冒泡想想而已。 既然已经剧透了这么多，现在可以给个网址开始小范围公测了：http://cos.name/cn/。注意，暂时不能注册，不能发帖。欢迎提供反馈意见。其实这系统也没什么好看的，确实没什么可看的，它只能用来看帖发帖，版主只能删帖修改移动或举报垃圾广告。换句话说，它真的是个论坛了。 COS能有发展的动力，靠的就是这样的奉献精神。而我也诚惶诚恐，怕浪费了大家的时间精力。前几天，科学松鼠会采访一位伯克利统计学博士海龟，他竟然提到了统计之都网站，此事反映出COS在民间的影响力已经有一定厚度了（尽管一直采取不主动宣传的策略）。如小邱所说，“有点意思了”。诸位老大加油吧！ 爷还想看：2009/12/31 -- 统计之都新年构想（杂碎篇） (33)2010/04/10 -- 不宣传，就是不宣传 (17)2010/03/17 -- 蓬荜生辉及其它 (16)2009/04/23 -- 新论坛太复杂了 (5)2009/04/07 -- 得力干将 (10)]]></description>
			<content:encoded><![CDATA[<p>COS史上有几位不为人知的幕后英雄，而我从没认真记载过这些事情，时间一长，各种事情堆满了脑子，也不会再去回顾。如今，我必须记下颜林林。以下截图部分反映了他在迁移论坛过程中的贡献：</p>
<p><img class="aligncenter size-full wp-image-1265" title="与颜林林的Email往来" src="http://yihui.name/cn/wp-content/uploads/2010/02/linlin-bbpress-email.jpg" alt="" width="599" height="1437" /></p>
<p>这事情起源于去年暑假，当时我提出了更换PHPWind系统到bbPress的想法，这位颜小侠很快就研究了PW和bb的数据库结构并写了一个初步的MySQL脚本发给我，而我处理邮件的速度各位客官可能也有所耳闻……过了半年，我测试了这个脚本，发现并不顺利，于是颜林林重新开始修改脚本。众IT民工都知道，即使是自己写的程序，过三个月不看，感觉也像是别人写的。不过颜林林的计算机水平在我看来已经有天外飞仙的感觉了，三下五除二，又发回了修改的版本，然后就是我无休止的改进建议以及Bug修正。截止到记者发稿为止，新的论坛已经克服了我所能想象到的主要障碍（用户名密码顺利迁移、用户权限顺利迁移、帖子id保持不变顺利同步、数据库编码从GB2312顺利转为UTF8、bbcode算是顺利转换……）。每个问题我看着都觉得头皮发麻，但他的每一种解决方案都聪明得“令人发指”。</p>
<p>如果没有这样一位天才存在，换系统这件事我也只能在脑子里冒泡想想而已。</p>
<p>既然已经剧透了这么多，现在可以给个网址开始小范围公测了：<a href="http://cos.name/cn/">http://cos.name/cn/</a>。注意，暂时不能注册，不能发帖。欢迎提供反馈意见。其实这系统也没什么好看的，确实没什么可看的，它只能用来看帖发帖，版主只能删帖修改移动或举报垃圾广告。换句话说，它真的是个论坛了。</p>
<p>COS能有发展的动力，靠的就是这样的奉献精神。而我也诚惶诚恐，怕浪费了大家的时间精力。前几天，<a title="http://songshuhui.net/archives/33007.html" href="http://songshuhui.net/archives/33007.html" target="_blank">科学松鼠会采访一位伯克利统计学博士海龟</a>，他竟然提到了统计之都网站，此事反映出COS在民间的影响力已经有一定厚度了（尽管一直采取不主动宣传的策略）。如小邱所说，“有点意思了”。诸位老大加油吧！</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/12/31 -- <a href="http://yihui.name/cn/2009/12/cos-in-2010/" title="统计之都新年构想（杂碎篇）">统计之都新年构想（杂碎篇）</a> (33)</li><li>2010/04/10 -- <a href="http://yihui.name/cn/2010/04/no-advertisement/" title="不宣传，就是不宣传">不宣传，就是不宣传</a> (17)</li><li>2010/03/17 -- <a href="http://yihui.name/cn/2010/03/feel-charmed-etc/" title="蓬荜生辉及其它">蓬荜生辉及其它</a> (16)</li><li>2009/04/23 -- <a href="http://yihui.name/cn/2009/04/complicated-cos-forum/" title="新论坛太复杂了">新论坛太复杂了</a> (5)</li><li>2009/04/07 -- <a href="http://yihui.name/cn/2009/04/capable-manager-in-cos/" title="得力干将">得力干将</a> (10)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/02/a-big-thank-you-to-linlin-yan/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>又说可重现的统计结果、扫叉打叉、高考、useR、严师</title>
		<link>http://yihui.name/cn/2010/01/reproducibility-etc/</link>
		<comments>http://yihui.name/cn/2010/01/reproducibility-etc/#comments</comments>
		<pubDate>Tue, 12 Jan 2010 06:30:33 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[数据分析]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[reproducible]]></category>
		<category><![CDATA[useR]]></category>
		<category><![CDATA[严师]]></category>
		<category><![CDATA[扫叉打叉]]></category>
		<category><![CDATA[数学]]></category>
		<category><![CDATA[高考]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1254</guid>
		<description><![CDATA[人怀着阴暗心理于今日公交车上翻IMS Bullutin的第39卷第1期，不幸看到第5页，又是一例统计结果不可重现的例子。一帮人，用可公开获得的数据获得了惊天的成功，到头来被人指责结果不可重复，而且不是一点半点不可重复，后人说的是&#8220;results are no better than chance&#8221;，嘿嘿，我心里冷笑着。你说说，他整一方法，号称威力无比，其实跟抛硬币得出来的结果没啥区别；这病人得没得癌症，抛个硬币决定吧。 难道这就是传说中的随机数发生器？又想起有些人用上百个变量做回归，这也是随机数发生器的一种，找出几个带显著性星号的系数不必欣喜若狂，要是找不出那才奇怪了呢。呜呼。 打开新闻瞅了一眼，差点笑喷，某大学生看来难逃被人肉的厄运了，举报32家XX网站，获奖万元，牛啊牛，IT民工和码农们都别敲代码了，赶紧打听XX网站的网址去吧。这次扫叉打叉，真是让广大人民群众长了不少见识，上头主动把XX网站都送上门来了。不知道到底是在打呢，还是在普及……脑残不是一点半点啊。我一直在想的是，突然掀起这么一场风暴，背后一定有更深的原因，也许过两年就知道了，看是谁在笑着数钱。 又扬言高考要取消。话说当今各社会阶层的防线越来越牢固，咸鱼翻身跳龙门本来就没几条路，要是高考取消了，看似推翻了一条不公平的路，但接下来的只能是更不公平。新闻没意思，不看了。 R官方发言人日前对我中土大唐的R会议的网址和邮箱表示了强烈不满，因为我们用了useR的字样。此事我是很不能理解，虽然我一向敬重各位老大们，但小弟们只是在网址和邮箱名中用一下useR字样（如useR-2010@cos.name），又没自称我们是useR!会议，何妨呢？某老大说，你小子懂个屁！这是基本的礼貌问题，明白？小的仍然百思不得其解，这咋就成了礼貌问题呢。于是继续弱弱地问老大们，那咱不用useR，而是用user，中不？邮件扔过去，等待老大血溅三尺的回复。 这学期几门课估计要折磨死老夫了，最崩溃的肯定是那高等统计推断，这课的老爷子原籍应该是德国，在本系“以用数学技巧折磨学生为荣”。说老实话，我不喜欢这样的老师，很是不喜欢，加上我本来就不喜欢数理统计之前的数学理论，这课我看是悬了。他的Teaching Philosophy我看着瘆得慌，每句话都像要拯救宇宙和人类灵魂。这课不发笔记，所以必须自己手抄，课程大纲在不断变动中，而且更新不会通知我们，所以要自己常看。常言道，严师出高徒，这事儿不知道是否有验证，反正有些严师我不喜欢。牢骚归牢骚，课还得上，即使是永久性脑损伤，也得先损着。我还犹豫着有些问题能不能问他，比如他某次考试中求的极限能不能直接取个大算一下结果算了，反正也差不多，为啥非得找个技巧去证明。不过我估计他听到这种话一定火冒三丈一脚把我踹飞…… 罢了罢了，本站本学期将进入极度缓慢更新期。最后顺祝某大领导一路顺利，平安归来。 爷还想看：2010/01/08 -- 有多少统计可以重来 (16)2009/03/04 -- 哇哈哈哈！金融危机与Copula (5)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2010/01/reproducibility-etc/"><span class="dropcap">本</span></a>人怀着阴暗心理于今日公交车上翻<a title="IMS Bullutin的PDF链接" href="http://bulletin.imstat.org/pdf/39/1" target="_blank">IMS Bullutin的第39卷第1期</a>，不幸看到第5页，又是一例统计结果不可重现的例子。一帮人，用可公开获得的数据获得了惊天的成功，到头来被人指责结果不可重复，而且不是一点半点不可重复，后人说的是&#8220;results are no better than chance&#8221;，嘿嘿，我心里冷笑着。你说说，他整一方法，号称威力无比，其实跟抛硬币得出来的结果没啥区别；这病人得没得癌症，抛个硬币决定吧。</p>
<p>难道这就是传说中的随机数发生器？又想起有些人用上百个变量做回归，这也是随机数发生器的一种，找出几个带显著性星号的系数不必欣喜若狂，要是找不出那才奇怪了呢。呜呼。<span id="more-1254"></span></p>
<p>打开新闻瞅了一眼，差点笑喷，某大学生看来难逃被人肉的厄运了，举报32家XX网站，获奖万元，牛啊牛，IT民工和码农们都别敲代码了，赶紧打听XX网站的网址去吧。这次扫叉打叉，真是让广大人民群众长了不少见识，上头主动把XX网站都送上门来了。不知道到底是在打呢，还是在普及……脑残不是一点半点啊。我一直在想的是，突然掀起这么一场风暴，背后一定有更深的原因，也许过两年就知道了，看是谁在笑着数钱。</p>
<p>又扬言高考要取消。话说当今各社会阶层的防线越来越牢固，咸鱼翻身跳龙门本来就没几条路，要是高考取消了，看似推翻了一条不公平的路，但接下来的只能是更不公平。新闻没意思，不看了。</p>
<p>R官方发言人日前对我中土大唐的R会议的网址和邮箱表示了强烈不满，因为我们用了useR的字样。此事我是很不能理解，虽然我一向敬重各位老大们，但小弟们只是在网址和邮箱名中用一下useR字样（如useR-2010@cos.name），又没自称我们是useR!会议，何妨呢？某老大说，你小子懂个屁！这是基本的礼貌问题，明白？小的仍然百思不得其解，这咋就成了礼貌问题呢。于是继续弱弱地问老大们，那咱不用useR，而是用user，中不？邮件扔过去，等待老大血溅三尺的回复。</p>
<p>这学期几门课估计要折磨死老夫了，最崩溃的肯定是那高等统计推断，这课的老爷子原籍应该是德国，在本系“以用数学技巧折磨学生为荣”。说老实话，我不喜欢这样的老师，很是不喜欢，加上我本来就不喜欢数理统计之前的数学理论，这课我看是悬了。他的<a href="http://www.public.iastate.edu/~vardeman/teach.html" target="_blank">Teaching Philosophy</a>我看着瘆得慌，每句话都像要拯救宇宙和人类灵魂。这课不发笔记，所以必须自己手抄，课程大纲在不断变动中，而且更新不会通知我们，所以要自己常看。常言道，严师出高徒，这事儿不知道是否有验证，反正有些严师我不喜欢。牢骚归牢骚，课还得上，即使是永久性脑损伤，也得先损着。我还犹豫着有些问题能不能问他，比如他某次考试中求<img src="http://www.forkosh.dreamhost.com/mimetex.cgi?\normalsize %28%5Ccos%28t%2F%5Csqrt%7Bn%7D%29%29%5En" title="(\cos(t/\sqrt{n}))^n" alt="(\cos(t/\sqrt{n}))^n" align="absmiddle" class="math" />的极限能不能直接取个大<img src="http://www.forkosh.dreamhost.com/mimetex.cgi?\normalsize n" title="n" alt="n" align="absmiddle" class="math" />算一下结果算了，反正也差不多，为啥非得找个技巧去证明。不过我估计他听到这种话一定火冒三丈一脚把我踹飞……</p>
<p>罢了罢了，本站本学期将进入极度缓慢更新期。最后顺祝某大领导一路顺利，平安归来。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/01/08 -- <a href="http://yihui.name/cn/2010/01/how-many-statistics-are-reproducible/" title="有多少统计可以重来">有多少统计可以重来</a> (16)</li><li>2009/03/04 -- <a href="http://yihui.name/cn/2009/03/financial-crisis-and-copula/" title="哇哈哈哈！金融危机与Copula">哇哈哈哈！金融危机与Copula</a> (5)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/01/reproducibility-etc/feed/</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>有多少统计可以重来</title>
		<link>http://yihui.name/cn/2010/01/how-many-statistics-are-reproducible/</link>
		<comments>http://yihui.name/cn/2010/01/how-many-statistics-are-reproducible/#comments</comments>
		<pubDate>Sat, 09 Jan 2010 00:15:11 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[数据分析]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[reproducible]]></category>
		<category><![CDATA[作假]]></category>
		<category><![CDATA[医学统计]]></category>
		<category><![CDATA[可重复]]></category>
		<category><![CDATA[群体非理性]]></category>
		<category><![CDATA[论文]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1248</guid>
		<description><![CDATA[几天看见这么一则报道，一直挂在我的浏览器中没有关掉：研究者称全国论文买卖去年销售额近10亿。初看这报道，心里弱弱地念了一句“骂了隔壁的”，你说说，这是谁在逼谁，这又是何苦要逼死这些“作者”们。难以理解。我觉得世上难以理解的事情只有两种，一种是纯粹的2，一种是精明之极。此处不展开。 之所以今天才写这事，主要是昨晚遇到了类似的事。有些老板要发论文，就逼学生分析数据，分析之前的结论都想好了，你就照着这个结论分析吧，还得人模狗样参考英文论文，论文三页纸，英文参考文献二三十篇。学生被逼急了只能造假，懂统计的可以高级造假（比如删掉几个数据使得检验显著），不懂统计的就低级造假（纯粹编假数）。老板可能也是被逼的，没论文没职称没钱没地位。经济方面的论文，编就编吧，反正大家都知道是假的，造个假数对大家都没影响；可这医学方面的论文，造数是不是不大好呢？如果论文跟治病救人没关系，那发论文就是堆垃圾了，何必要逼人发表；如果有关系，那这作者们良心何在？ 回到我在统计之都新年构想中关于主站的目标一节：为什么期刊有存在的必要？为什么世上只有发表论文这一种指标来衡量人的工作和贡献？论文这个泥坑，学者有学者的痴狂，南郭先生有南郭先生的狡黠。跟买房一样，群体非理性，全然不顾是谁在背后蘸着口水数钱。 统计这玩意儿，一日不形成“reproducible”的规则，一日研究不成大器。 最后看个无关的短片，看什么叫“彪悍的人生不需要解释”： 对他这样的人，有没有必要用论文证明什么呢？ 爷还想看：2010/01/12 -- 又说可重现的统计结果、扫叉打叉、高考、useR、严师 (15)2009/01/05 -- 八个月论文初审 (2)2008/07/23 -- 写论文之前要多多考察环境 (0)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2010/01/how-many-statistics-are-reproducible/"><span class="dropcap-red">前</span></a>几天看见这么一则报道，一直挂在我的浏览器中没有关掉：<a title="http://news.sina.com.cn/c/sd/2010-01-05/004319397311.shtml" href="http://news.sina.com.cn/c/sd/2010-01-05/004319397311.shtml" target="_blank">研究者称全国论文买卖去年销售额近10亿</a>。初看这报道，心里弱弱地念了一句“<a href="http://www.baidu.com/s?wd=%C2%EE%C1%CB%B8%F4%B1%DA%B5%C4" target="_blank">骂了隔壁的</a>”，你说说，这是谁在逼谁，这又是何苦要逼死这些“作者”们。难以理解。我觉得世上难以理解的事情只有两种，一种是纯粹的2，一种是精明之极。此处不展开。</p>
<p>之所以今天才写这事，主要是昨晚遇到了类似的事。有些老板要发论文，就逼学生分析数据，分析之前的结论都想好了，你就照着这个结论分析吧，还得人模狗样参考英文论文，论文三页纸，英文参考文献二三十篇。学生被逼急了只能造假，懂统计的可以高级造假（比如删掉几个数据使得检验显著），不懂统计的就低级造假（纯粹编假数）。老板可能也是被逼的，没论文没职称没钱没地位。经济方面的论文，编就编吧，反正大家都知道是假的，造个假数对大家都没影响；可这医学方面的论文，造数是不是不大好呢？如果论文跟治病救人没关系，那发论文就是堆垃圾了，何必要逼人发表；如果有关系，那这作者们良心何在？</p>
<p>回到我在<a title="http://yihui.name/cn/2009/12/cos-in-2010/" href="http://yihui.name/cn/2009/12/cos-in-2010/">统计之都新年构想</a>中关于主站的目标一节：为什么期刊有存在的必要？为什么世上只有发表论文这一种指标来衡量人的工作和贡献？论文这个泥坑，学者有学者的痴狂，南郭先生有南郭先生的狡黠。跟买房一样，群体非理性，全然不顾是谁在背后蘸着口水数钱。</p>
<p>统计这玩意儿，一日不形成“reproducible”的规则，一日研究不成大器。</p>
<p>最后看个无关的短片，看什么叫“彪悍的人生不需要解释”：</p>
<p style="text-align: center;"><object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" width="446" height="326" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="allowFullScreen" value="true" /><param name="wmode" value="transparent" /><param name="bgColor" value="#ffffff" /><param name="flashvars" value="vu=http://video.ted.com/talks/dynamic/PranavMistry_2009I-medium.flv&amp;su=http://images.ted.com/images/ted/tedindex/embed-posters/PranavMistry-2009I.embed_thumbnail.jpg&amp;vw=432&amp;vh=240&amp;ap=0&amp;ti=685&amp;introDuration=16500&amp;adDuration=4000&amp;postAdDuration=2000&amp;adKeys=talk=pranav_mistry_the_thrilling_potential_of_sixthsense_tec;year=2009;theme=design_like_you_give_a_damn;theme=tales_of_invention;theme=new_on_ted_com;theme=ted_under_30;theme=the_creative_spark;theme=a_taste_of_tedindia;theme=what_s_next_in_tech;event=TEDIndia+2009;&amp;preAdTag=tconf.ted/embed;tile=1;sz=512x288;" /><param name="src" value="http://video.ted.com/assets/player/swf/EmbedPlayer.swf" /><param name="bgcolor" value="#ffffff" /><param name="allowfullscreen" value="true" /><embed type="application/x-shockwave-flash" width="446" height="326" src="http://video.ted.com/assets/player/swf/EmbedPlayer.swf" flashvars="vu=http://video.ted.com/talks/dynamic/PranavMistry_2009I-medium.flv&amp;su=http://images.ted.com/images/ted/tedindex/embed-posters/PranavMistry-2009I.embed_thumbnail.jpg&amp;vw=432&amp;vh=240&amp;ap=0&amp;ti=685&amp;introDuration=16500&amp;adDuration=4000&amp;postAdDuration=2000&amp;adKeys=talk=pranav_mistry_the_thrilling_potential_of_sixthsense_tec;year=2009;theme=design_like_you_give_a_damn;theme=tales_of_invention;theme=new_on_ted_com;theme=ted_under_30;theme=the_creative_spark;theme=a_taste_of_tedindia;theme=what_s_next_in_tech;event=TEDIndia+2009;&amp;preAdTag=tconf.ted/embed;tile=1;sz=512x288;" bgcolor="#ffffff" wmode="transparent" allowfullscreen="true"></embed></object></p>
<p>对他这样的人，有没有必要用论文证明什么呢？</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/01/12 -- <a href="http://yihui.name/cn/2010/01/reproducibility-etc/" title="又说可重现的统计结果、扫叉打叉、高考、useR、严师">又说可重现的统计结果、扫叉打叉、高考、useR、严师</a> (15)</li><li>2009/01/05 -- <a href="http://yihui.name/cn/2009/01/paper-review-in-8-months/" title="八个月论文初审">八个月论文初审</a> (2)</li><li>2008/07/23 -- <a href="http://yihui.name/cn/2008/07/examine-the-literature-before-writing-paper/" title="写论文之前要多多考察环境">写论文之前要多多考察环境</a> (0)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/01/how-many-statistics-are-reproducible/feed/</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
		<item>
		<title>t检验方差不齐有多重要</title>
		<link>http://yihui.name/cn/2010/01/unequal-variance-in-t-test/</link>
		<comments>http://yihui.name/cn/2010/01/unequal-variance-in-t-test/#comments</comments>
		<pubDate>Tue, 05 Jan 2010 21:02:56 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[统计计算]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Satterthwaite]]></category>
		<category><![CDATA[t检验]]></category>
		<category><![CDATA[Welch校正]]></category>
		<category><![CDATA[数值模拟]]></category>
		<category><![CDATA[方差齐性]]></category>
		<category><![CDATA[自由度]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1238</guid>
		<description><![CDATA[统统计教科书大多会提及t检验中方差齐性这个问题，因为检验的假设条件是需要总体方差相等的。然而这个问题实际上可能并没有人们想象的那么重要，这里给两个简单的数值计算结果，看看方差不等对检验结果有什么影响。 par(mar = c(4, 4, 0.5, 0.5), mfrow = c(1, 2)) set.seed(123) plot(pval &#60;- t(replicate(1000, { x1 = rnorm(100, mean = 0, sd = runif(1, 0.5, 1)) x2 = rnorm(100, mean = 1, sd = runif(1, 2, 5)) c(t.test(x1, x2, var.equal = TRUE)$p.value, t.test(x1, x2, var.equal = FALSE)$p.value) })), xlab = "P-value: equal variance", ylab [...]]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2010/01/unequal-variance-in-t-test/"><span class="dropcap-blue">传</span></a>统统计教科书大多会提及t检验中方差齐性这个问题，因为检验的假设条件是需要总体方差相等的。然而这个问题实际上可能并没有人们想象的那么重要，这里给两个简单的数值计算结果，看看方差不等对检验结果有什么影响。</p>
<pre>par(mar = c(4, 4, 0.5, 0.5), mfrow = c(1, 2))
set.seed(123)
plot(pval &lt;- t(replicate(1000, {
    x1 = rnorm(100, mean = 0, sd = runif(1, 0.5, 1))
    x2 = rnorm(100, mean = 1, sd = runif(1, 2, 5))
    c(t.test(x1, x2, var.equal = TRUE)$p.value, t.test(x1, x2,
        var.equal = FALSE)$p.value)
})), xlab = "P-value: equal variance", ylab = "P-value: unequal variance",
    pch = 20, asp = 1)
abline(0, 1)
plot(pval[, 1], pval[, 2] - pval[, 1], xlab = "P-value: equal variance",
    ylab = "Diff of p-values (unequal var - equal var)", pch = 20)
</pre>
<p>过程是：从两个正态总体中生成样本，第一个总体均值为0，标准差随机取自<code>U(0.5, 1)</code>，第二个总体均值为1，标准差取自<code>U(2, 5)</code>，显然两个总体标准差不相等，那么在t检验时设定和不设定方差相等的选项对结果有多大影响？把两种情况的P值都画出来：左图是原始P值，可见基本在对角线上，说明大致相等，若眼神儿不好，可看右图，即P值的差异，可见方差不等时P值偏大（原因很简单，因为Welch校正的自由度小于等于不校正的自由度，样本量相等的时候统计量的分母即标准误一样，因此统计量完全一样，自由度越小，P值越大嘛），但大多少呢？其实也没大多少。</p>
<p><div id="attachment_1239" class="wp-caption aligncenter" style="width: 610px"><img class="size-full wp-image-1239" title="方差齐与不齐时t检验的结果对照" src="http://yihui.name/cn/wp-content/uploads/2010/01/t-test-unequal-variance.png" alt="方差齐与不齐时t检验的结果对照" width="600" height="300" /><p class="wp-caption-text">方差齐与不齐时t检验的结果对照</p></div>
<p><span id="more-1238"></span>Welch/Satterthwaite当然不是吃饱了没事干，要校正自由度当然也是有用武之地的，尤其是当样本量严重不相等时，这两者的结果就差远了。把第一个样本量改成10，然后如法炮制：</p>
<pre>par(mar = c(4, 4, 0.5, 0.5), mfrow = c(1, 2))
set.seed(123)
plot(pval &lt;- t(replicate(1000, {
    x1 = rnorm(10, mean = 0, sd = runif(1, 0.5, 1))
    x2 = rnorm(100, mean = 1, sd = runif(1, 2, 5))
    c(t.test(x1, x2, var.equal = TRUE)$p.value, t.test(x1, x2,
        var.equal = FALSE)$p.value)
})), xlab = "P-value: equal variance", ylab = "P-value: unequal variance",
    pch = 20, asp = 1)
abline(0, 1)
abline(h = 0.05, v = 0.05, col = "gray")
plot(pval[, 1], pval[, 2] - pval[, 1], xlab = "P-value: equal variance",
    ylab = "Diff of p-values (unequal var - equal var)", pch = 20)
</pre>
<div id="attachment_1240" class="wp-caption aligncenter" style="width: 610px"><img class="size-full wp-image-1240" title="方差齐与不齐时t检验的结果对照（样本量不同）" src="http://yihui.name/cn/wp-content/uploads/2010/01/t-test-unequal-variance-sample-size.png" alt="方差齐与不齐时t检验的结果对照（样本量不同）" width="600" height="300" /><p class="wp-caption-text">方差齐与不齐时t检验的结果对照（样本量不同）</p></div>
<p>这文章，上COS主站寒酸了点，有人能扩展一下就好了。不过这个过程倒是可以提醒广大人民群众避免“路见不平一声吼，吼完继续往前走”，尤其是懒得翻公式的人（像我这样），遇见问题，可以偷懒用计算的方法找答案。</p>
<p>附“大家来找茬”一则：第二次的代码和第一次有啥不一样（除了样本量变了之外）？为啥有这么个变化？这小子想干啥？</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2008/12/24 -- <a href="http://yihui.name/cn/2008/12/speed-of-computing-square-root/" title="开平方的速度">开平方的速度</a> (6)</li><li>2008/10/07 -- <a href="http://yihui.name/cn/2008/10/why-avoid-excel-in-statistics/" title="再谈为什么不用Excel做统计分析">再谈为什么不用Excel做统计分析</a> (0)</li><li>2010/04/14 -- <a href="http://yihui.name/cn/2010/04/stat-computation-math-logic/" title="统计计算与数学推导及逻辑分析">统计计算与数学推导及逻辑分析</a> (2)</li><li>2009/12/08 -- <a href="http://yihui.name/cn/2009/12/meeting-r-core-members/" title="最近跟R core们经常打照面">最近跟R core们经常打照面</a> (9)</li><li>2009/12/04 -- <a href="http://yihui.name/cn/2009/12/snow-in-ames-and-2nd-chinese-r-conference/" title="2009第一场雪和第二届中国R语言会议">2009第一场雪和第二届中国R语言会议</a> (43)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/01/unequal-variance-in-t-test/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>统计之都新年构想（杂碎篇）</title>
		<link>http://yihui.name/cn/2009/12/cos-in-2010/</link>
		<comments>http://yihui.name/cn/2009/12/cos-in-2010/#comments</comments>
		<pubDate>Fri, 01 Jan 2010 01:48:28 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[bbPress]]></category>
		<category><![CDATA[COS主站]]></category>
		<category><![CDATA[COS维基]]></category>
		<category><![CDATA[COS论坛]]></category>
		<category><![CDATA[GIT]]></category>
		<category><![CDATA[LaTeX]]></category>
		<category><![CDATA[R语言]]></category>
		<category><![CDATA[SVN]]></category>
		<category><![CDATA[发展计划]]></category>
		<category><![CDATA[文化建设]]></category>
		<category><![CDATA[服务器]]></category>
		<category><![CDATA[统计之都]]></category>
		<category><![CDATA[统计分析]]></category>
		<category><![CDATA[统计期刊]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1193</guid>
		<description><![CDATA[在家宅得快发芽了。这几天考虑着COS的发展计划，每次想这件事都觉得脑子里的想法装不下了，可每一个想法的实施往往至少要一年时间，甚至两三年都没法实现。在2010年，我希望可以实现下面这些事情。本文写得不是一般的意识流，读者慎阅： 全面提升网站功能，主要包括对三大软件的支持： SVNGIT：目的在于会员合作，大家可以共同编写一些小册子，SVNGIT使得工作可以并行而不会互相牵制、依赖。按胡子同学的IT小小鸟模式，我觉得COS的会员们根据COS论坛的帖子足以合力写出好几本统计小小鸟了。 ## need libapr, libapr-util, then subversion wget http://apache.cs.utah.edu/apr/apr-1.3.9.tar.gz wget http://apache.cs.utah.edu/apr/apr-util-1.3.9.tar.gz tar -zxf apr-1.3.9.tar.gz cd apr-1.3.9 ./configure --prefix=$HOME/bin/apache/apr make &#38; make install cd .. tar -zxf apr-util-1.3.9.tar.gz cd apr-util-1.3.9 ./configure --prefix=$HOME/bin/apache/apr-util --with-apr=$HOME/bin/apache/apr/ make &#38; make install wget http://subversion.tigris.org/downloads/subversion-1.6.6.tar.gz ## tar, cd, then ./configure –prefix=$HOME/bin/subversion –with-apr=$HOME/bin/apache/apr –with-apr-util=$HOME/bin/apache/apr-util ## SVN把老夫折腾得接近崩溃，终于痛苦地转向GIT wget http://kernel.org/pub/software/scm/git/git-1.6.6.tar.gz tar xf... &#38; [...]]]></description>
			<content:encoded><![CDATA[<p>在家宅得快发芽了。这几天考虑着COS的发展计划，每次想这件事都觉得脑子里的想法装不下了，可每一个想法的实施往往至少要一年时间，甚至两三年都没法实现。在2010年，我希望可以实现下面这些事情。本文写得不是一般的意识流，读者慎阅：</p>
<ol>
<li>全面提升网站功能，主要包括对三大软件的支持：
<ol>
<li><del datetime="2009-12-29T23:40:24+00:00">SVN</del>GIT：目的在于会员合作，大家可以共同编写一些小册子，<del datetime="2010-01-01T01:45:05+00:00">SVN</del>GIT使得工作可以并行而不会互相牵制、依赖。按胡子同学的IT小小鸟模式，我觉得COS的会员们根据COS论坛的帖子足以合力写出好几本统计小小鸟了。</li>
<pre><del datetime="2009-12-29T23:40:24+00:00">## need libapr, libapr-util, then subversion
wget http://apache.cs.utah.edu/apr/apr-1.3.9.tar.gz
wget http://apache.cs.utah.edu/apr/apr-util-1.3.9.tar.gz
tar -zxf apr-1.3.9.tar.gz
cd apr-1.3.9
./configure --prefix=$HOME/bin/apache/apr
make &amp; make install
cd ..
tar -zxf apr-util-1.3.9.tar.gz
cd apr-util-1.3.9
./configure --prefix=$HOME/bin/apache/apr-util --with-apr=$HOME/bin/apache/apr/
make &amp; make install
wget http://subversion.tigris.org/downloads/subversion-1.6.6.tar.gz
## tar, cd, then
./configure –prefix=$HOME/bin/subversion –with-apr=$HOME/bin/apache/apr –with-apr-util=$HOME/bin/apache/apr-util</del>
## SVN把老夫折腾得接近崩溃，终于痛苦地转向GIT
wget http://kernel.org/pub/software/scm/git/git-1.6.6.tar.gz
tar xf... &amp; ./configure &amp; make &amp; make install</pre>
<p>习惯了用SVN，但过去一直是用别人的服务，轮到自己架设SVN服务器才知道这叫一个崩溃，其实主要原因可能是因为自己没有root权限，未必真的那么难。由于是用别人的服务器，只好转向GIT。<span id="more-1193"></span></p>
<p>GIT安装使用都没问题<del datetime="2009-12-31T21:40:04+00:00">，而且貌似服务器上都不用装GIT……现在一个有挑战的问题是：GIT通过SSH从服务器上读写文件，而我们的服务器上貌似不能设置多种SSH登录权限，即：只要有Key，就可以SSH进去任意操作。大家要是都守规矩保证不乱动服务器当然最好，万一某天某些童鞋不小心对服务器上别的东西误操作了咋办，这个问题目前还不好解决……</del>昨晚睡觉想到一个办法，把真正的GIT服务器放到别的地方去（比如GitHub），然后在COS服务器上定时运行<code>git clone</code>，这样就解决帐户问题了。</p>
<li>LaTeX：要正儿八经写东西怎么能不用LateX呢？</li>
<pre>## install texlive from internet
wget http://mirrors.med.harvard.edu/ctan/systems/texlive/tlnet/install-tl-unx.tar.gz
tar -zxf install-tl-unx.tar.gz
cd install-tl-20091229/
## need configuration here
./install-tl
export PATH=$PATH:$HOME/bin/texlive/bin/x86_64-linux
export MANPATH=$MANPATH:$HOME/bin/texlive/texmf/doc/man
export INFOPATH=$INFOPATH:$HOME/bin/texlive/texmf/doc/info</pre>
<p>据说texlive对中文支持很好，有待测试。有了LaTeX之后，结合R/Sweave以及GIT、cron job就可以在服务器上定期生成动态PDF文档了。有一朵“云”前两天给我Email说计划写计量与R的书并免费公开发布，我心想这个事情可以作为COS书籍的第一个项目，大家有钱的捧个钱场，没钱的捧个LaTeX场。</p>
<li>R：当服务器端支持R之后，便可以实现很多想法了，上面写书是其中之一；还可以建设Rweb，或者让维基页面支持动态生成R运行的结果。</li>
<pre>## need freetype-2.3.7.tar.bz2, expat-2.0.1.tar.gz, fontconfig-2.4.2.tar.gz, cairo-1.4.14.tar.gz, glib-2.12.12.tar.bz2, pango-1.16.4.tar.bz2, libpng-1.2.29.tar.bz2
## dependency
pango &lt;-- cairo + fontconfig + glib
                      ^
                      |
             freetype + expat
## environment variable
export TMPDIR=~/tmp
export PKG_CONFIG_PATH=$HOME/bin/fontconfig/lib/pkgconfig/:$HOME/bin/freetype/lib/pkgconfig/:$HOME/bin/libpng/lib/pkgconfig/:$HOME/bin/cairo/lib/pkgconfig/:$HOME/bin/pixman/lib/pkgconfig/:$HOME/bin/glib/lib/pkgconfig/:$HOME/bin/pango/lib/pkgconfig/
./configure --prefix=$HOME/bin/R
make &amp; make install</pre>
<p>还是没有root权限的原因，装R可是费了牛鼻子劲，关键是png和cairo配不好，如果不装这两个图形设备的话，其实R还是很容易装的。现在好不容易根据一大摞依赖关系配置好了，又发现<code>png()</code>中pango的字体库貌似有问题，不能支持文本生成，再次崩溃。没有<code>yum</code>或<code>apt-get</code>的世界一片漆黑，一切都得从头编译。</ol>
</li>
<li>整顿论坛，精兵简政
<ol>
<li>大规模删帖+编辑帖子。我过去一直没有公开讲我的一个想法，就是我希望这个论坛是帖子数最少和注册人数最少的论坛（前两天写在主站的“关于”页面中了），原因同德鲁克说的公司企业管理类似，一个好的企业应该是看上去平淡无奇的，没有什么轰轰烈烈的事情发生，因为其内部已经井然有序了。我认为一个论坛如果帖子数目<strong>过多</strong>，只能说明这个论坛的管理太差，帖子质量太低。如果有强大的管理系统，帖子应该被经常整理，比如汇编成册，让后来者无需注册、无需发帖。如果一个访问者到了一个网站，被迫要注册（更恶劣的是盛行的积分制度）发帖才能解决他/她的问题，那么我并不看好这个网站的价值。大多数论坛用各种手段拼命攒人气，我想其理念绝非为访问者服务。我们要果断舍弃短期利益（如广告），放长线钓大鱼。</li>
<p>太云还有fan等编辑部成员得好好琢磨一下，然后广泛招兵买马，准备下学期有所行动。至于整理的形式，我想一方面可为主站服务（发文章），另一方面视整理的规模与内容可考虑朝出版的方向走。</p>
<li>精兵简政的意思是我一直认为目前的PHPWind论坛系统过于臃肿，想投奔bbPress，这一点半年前已经和颜林林及其他版主们沟通过，可惜我当时没顾得上测试颜林林的SQL脚本，前两天试了一下，发现还是有问题，等他考研结束再说（在此顺带为他烧高香愿考研顺利）。</li>
<p>当今网上的论坛系统都有个特点，就是越做越复杂，进了后台一看铺天盖地的选项简直他娘的昏了头，论坛就是个发帖的地方，整那些回帖才能看帖的东西干嘛，还有那山寨校内系统，搞得论坛成了四不像，还有各种论坛币，我最不愿看见的帖子就是问各种积分怎么挣，有这时间，找本书自己都能想出问题的答案了。</p>
<p>bbPress是一套极度简练的系统，在前台基本上除了发帖就什么功能都没有了，后台则可以有Askimet等插件支持，注册的时候有判断机器人的程序，注册的密码会发送邮箱，这几大杀手锏应该足够杀掉大多数广告。bbPress的会员身份只有有限的几种：普通会员和版主及管理员，版主不分是哪个版的版主，这样所有的版主都可以管理任意版块的帖子，这一点便可提升管理人员的效率。它默认没有bbcode，这一点我也很喜欢，我现在觉得bbcode是人类代码史上最糟糕的发明，有写那代码的功夫，用原始的HTML早写出来了。</p>
<li>论坛数据库应该dump下来做做统计分析，我们天天用统计解决别人的问题，为什么不统计一下自身呢？总是不知道该怎样任命版主，其实分析一下会员数据库，看看谁发帖多、在线时间长、登录最频繁，候选人也就很明了了，剩下的便只是“人际公关”问题；当数据积累多的时候，也许能分析出很重要的信息，地球人都知道统计里面有大数定律，但面对海量信息就想不起来这“大数”有什么用。像bit.ly等提供网址缩写服务的网站，它们没法打广告，靠什么吃饭？只能靠分析大家缩写了哪些网址看大家在关心什么，有了信息就有了财富（几乎是单变量的数据啊）。我们能否通过分析R版块的帖子IP来寻找一个合适的明年R会议的地点？能否文本挖掘一下大家关心的统计方法，成立一个相应的专门的统计咨询小团队（给自己挣点口粮或完全免费只当锻炼自己了）？能否统计出会员登录时间的规律，专门安排定期的网上答疑？……</li>
</ol>
</li>
<li>加强与主站作者的联系，让大家有主人意识，并挖掘更多稿件来源
<ol>
<li>目前主站看起来像模像样（某几位领导数次大赞之），但没达到我的预期，这里面的原因我想还是和作者们没有建立常态联系，大家没有自觉写作的意识，这是管理的问题。我对人的假定是，不贡献是对的，但不去挖掘他可能的贡献的话则就是管理者的不对了。我知道作者们并非写不出文章，只是没有人去给出这种“刺激”。谁（们）来做这件事呢？</li>
<li>关于文章的方向与内容，我一直在思考松鼠会的模式。但统计这种“科学”，有多少内容能和人民大众的生活联系起来并引起他们的兴趣？现在提起统计，人们的反应就是“tmd都是假的”。Numb3rs这种剧肯定远比不上那越狱之类的剧流行，但我们的目标也不必定位在广大人民群众，没必要真做到老妪能懂的地步。技术文、科普文都得抓。从论坛到主站的渠道一定要打通（如同“营销4P”中的“渠道”），还得有几双眼睛观察身边的统计。</li>
<li>我相信主站文章的水平超越期刊是迟早的事情，看看现在那《统计研究》整个儿就是本《经济研究》，苏联模式的统计对我中原统计的影响真是根深蒂固。很早以前我就对经济类统计论文形成了一个阅读观点：翻开论文，直接看最后一节，如果那里面的结论和建议看起来就像某届某中全会的讲稿，或者宏观得不着边际，或者压根儿就是常识，那就不要看了，里面的统计方法只是找借口的工具而已，可惜以我坐井观天的阅读，很多论文貌似都属于这一类。当你看一篇论文，用了一大堆你懂或不懂的模型，这边际弹性啊，那N阶段最小二乘法啊，最后说（我不给出处了，客官也勿搜，我只是随便举一例）：</li>
<blockquote><p>本研究的实证结果表明，改善这些地方的营养状况和医疗卫生条件，将会极大地有助于这些地方农民收入的增加。</p></blockquote>
<p>你老实说，你有没有想抽他的冲动？MD，农民有钱吃燕窝有钱看病了，他收入能不增加么？</p>
<p>纸质期刊的诞生历史原因之一是印刷太贵，只能选择一些论文来印刷、分发，如今期刊的功能发生了本质性变化，我们要重新考虑纸质期刊究竟有多大的存在必要性？之所以想到这些问题是因为前些日子看到这篇文章<a title="Why Journals?" rel="bookmark" href="http://blog.repec.org/2009/12/16/why-journals/">Why Journals?</a>，甚合我意。</p>
<p>主站文章不仅要力争超越期刊，而且应该充分发挥网络平台的优势，即：可随时修改、改进，有无数的匿名“评委”在读这篇文章，有用没用大家可以马上反馈。</p>
<li>我作为捣鼓了几年网站的人，眼睛对网页比较挑剔，有点容不得不规范的格式。主站的文章一定要有一个熟悉HTML的编辑队伍，把文章打理得漂漂亮亮、干净利落。</li>
</ol>
</li>
<li>维基新模式
<ol>
<li>维基站是COS中最难打通的关节，这玩意儿必定起步困难，而且运营起来也会很费力，要不然那Wikipedia怎么天天喊着募捐几百万呢。过去的一年多里大家也看到了，COS维基几乎没有任何动作。原因之一是到现在还没设计好发展方向，过去陆陆续续有些会员对此表示了兴趣，但我自己都不知道该请他们做什么。最近与一位Yifan老兄邮件往来，渐渐有了些启发。既然Wikipedia已经发展很成熟了，我们就没太大必要去按那种传统的词条解释的道路去走，我的想法是，也许可以把R嵌入这个维基，发挥它的统计计算与作图功能，把那些词条用一些计算和图示来解释（比如置信区间），并提供相应的R代码，读者甚至可以动态编辑代码看演示。</li>
<li>关于内容，过去想把R的函数帮助都翻译进来，现在看来没有这个必要，因为我觉得这个工作的价值有限；另外，翻译软件Manual还不如重写，对翻译的东西，大多数读者恐怕永远只有一条意见，就是“tmd翻译得太差了，还不如看英文”。我们仍然可以从论坛中挖掘会员关心的概念，比如标准差/标准误什么的，当这些帖子的问题被回答之后，就应该有人将它收录到维基中。问题依然是，谁（们）来做这件事呢？</li>
</ol>
</li>
<li>高校联系人何去何从</li>
<p>本来这个想法是为了促进国内高校统计专业之间的交流，现在看来恐怕是很困难。一来，善用网络的老师不太多，老爷子老太太就甭指望了，年轻老师貌似也很忙，哪顾得上来这小庙发发帖；二来，我们至今没有找到一个领头羊，改革开放还得先有试验呢，咱这小庙要发起一项行动，必然也得先建好一个模板。高校联系人报名人不少，但我疏于管理和安排事情，各位参加的童鞋可能就更不知道该干啥了。咋个办。</p>
<li>英文论坛暂缓</li>
<p>这论坛起步啊，就一个字：难。</p>
<li>整个网站的文化建设</li>
<p>耐着性子看到这里的客官一定最终忍不住了，是不是在默念“丫一定疯了”或者“丫太扯淡了”……我也不是纯粹扯淡（意即：有扯淡成分）。世上能人有很多，让能人能聚到一起并创造价值，靠什么？长远来看，只能靠文化。短期可以以利益驱动，可我们这一小破穷网站，拿啥给人家，啥都木有。人家凭什么要在这穷破地方呆着？统计的学习交流只是一方面，除此之外，我希望营造一种COS文化，具体是什么，我也说不清，也许它往大了说包含人的修养修为，往小了说包含在力所能及的时候要帮人一把、或者乐于分享你的有用经验经历，往粗了说包含立志肩担引领一门学科的发展，往细了说包含对某种统计模型的使用有自己的主见而不随波逐流。</p>
<p>这些玩意儿都是玄而又玄的东西，说出来容易被人嗤之以鼻。比如我说要十年磨一剑，也许没几位客官会想，靠，你小子真的要从2006年磨到2016年啊？我倒是想回答一句“嗯呐”，不过这话不能公开讲，怕误导不明真相的群众。</p>
<p>这文化建设先从头目抓起，形式呢，可以随意一些，我个人非常不喜欢宗教式的文化建设。不知从何时起，北京一些餐馆饭店也开始了“文化建设”，每天下午四五点，哗啦啦厨师杂役全叫出来，排成三排，大家齐喊“为XX服务”之类的口号，我估摸着也许是喊给路人听的吧，要真有那心，早该体现在店里有没有苍蝇、服务员有没有微笑、大厨有没有在菜里放铁丝上了。COS要建设文化，可以通过定期分享点小文章资料等方式实现。总之，这件没谱的事情要尽量淡定，莫走过头了。一帮乳臭未干的小子和黄毛丫头，还是老老实实做事比较靠谱。</ol>
<p>目前天朝的网络环境貌似令人担忧，我心里很没底，估计封站也是说不准的事情。到那时，这些想法都成了彻底的扯淡。万一发生这种事情，啷个儿办呢？</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2008/11/23 -- <a href="http://yihui.name/cn/2008/11/never-grow-old/" title="Never Grow Old">Never Grow Old</a> (15)</li><li>2010/02/02 -- <a href="http://yihui.name/cn/2010/02/a-big-thank-you-to-linlin-yan/" title="特别致谢颜林林对COS的贡献">特别致谢颜林林对COS的贡献</a> (6)</li><li>2010/04/10 -- <a href="http://yihui.name/cn/2010/04/no-advertisement/" title="不宣传，就是不宣传">不宣传，就是不宣传</a> (17)</li><li>2010/03/17 -- <a href="http://yihui.name/cn/2010/03/feel-charmed-etc/" title="蓬荜生辉及其它">蓬荜生辉及其它</a> (16)</li><li>2010/02/08 -- <a href="http://yihui.name/cn/2010/02/misc-issues-in-latex-lyx-r-sweave-pgfsweave/" title="关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题">关于LaTeX+LyX+R/Sweave+pgfSweave+PDF图形的若干中文问题</a> (37)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/12/cos-in-2010/feed/</wfw:commentRss>
		<slash:comments>33</slash:comments>
		</item>
		<item>
		<title>阴差阳错</title>
		<link>http://yihui.name/cn/2009/12/on-the-edge/</link>
		<comments>http://yihui.name/cn/2009/12/on-the-edge/#comments</comments>
		<pubDate>Tue, 29 Dec 2009 23:39:02 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[If]]></category>
		<category><![CDATA[Rudyard Kipling]]></category>
		<category><![CDATA[淡定]]></category>
		<category><![CDATA[美帝]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1195</guid>
		<description><![CDATA[从来到美帝，生活总是一波三折，有时还七八折。折得我现在见怪不怪了，对“福兮祸之所藏，祸兮福之所倚”有了深刻认识。这人呐，遇见好事不能太得意，遇见坏事也不能太失落，正所谓“不以物喜，不以己悲”。事情来一件解决一件，水来将挡，兵来土掩。今日读到老诗一首： If Rudyard Kipling If you can keep your head when all about you Are losing theirs and blaming it on you; If you can trust yourself when all men doubt you, But make allowance for their doubting too; If you can wait and not be tired by waiting, Or, being lied about, don&#8217;t deal [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/12/on-the-edge/"><span class="dropcap-green">自</span></a>从来到美帝，生活总是一波三折，有时还七八折。折得我现在见怪不怪了，对“福兮祸之所藏，祸兮福之所倚”有了深刻认识。这人呐，遇见好事不能太得意，遇见坏事也不能太失落，正所谓“不以物喜，不以己悲”。事情来一件解决一件，水来将挡，兵来土掩。今日读到老诗一首：</p>
<blockquote>
<p style="text-align: center;">If</p>
<p style="text-align: center;">Rudyard Kipling</p>
<p>If you can keep your head when all about you<br />
Are losing theirs and blaming it on you;<br />
If you can trust yourself when all men doubt you,<br />
But make allowance for their doubting too;<br />
If you can wait and not be tired by waiting,<br />
Or, being lied about, don&#8217;t deal in lies,<br />
Or, being hated, don&#8217;t give way to hating,<br />
And yet don&#8217;t look too good, nor talk too wise;</p>
<p>If you can dream &#8211; and not make dreams your master;<br />
If you can think &#8211; and not make thoughts your aim;<br />
If you can meet with triumph and disaster<br />
And treat those two imposters just the same;<br />
If you can bear to hear the truth you&#8217;ve spoken<br />
Twisted by knaves to make a trap for fools,<br />
Or watch the things you gave your life to broken,<br />
And stoop and build &#8216;em up with wornout tools;</p>
<p>If you can make one heap of all your winnings<br />
And risk it on one turn of pitch-and-toss,<br />
And lose, and start again at your beginnings<br />
And never breath a word about your loss;<br />
If you can force your heart and nerve and sinew<br />
To serve your turn long after they are gone,<br />
And so hold on when there is nothing in you<br />
Except the Will which says to them: &#8220;Hold on&#8221;;</p>
<p>If you can talk with crowds and keep your virtue,<br />
Or walk with kings &#8211; nor lose the common touch;<br />
If neither foes nor loving friends can hurt you;<br />
If all men count with you, but none too much;<br />
If you can fill the unforgiving minute<br />
With sixty seconds&#8217; worth of distance run -<br />
Yours is the Earth and everything that&#8217;s in it,<br />
And &#8211; which is more &#8211; you&#8217;ll be a Man my son!</p></blockquote>
<p>这Kipling老爷子写了一大通，我总结无非就两个字：淡……！定！</p>
<p><img class="aligncenter size-full wp-image-1203" title="淡定" src="http://yihui.name/cn/wp-content/uploads/2009/12/calm-down.jpg" alt="淡定" width="492" height="252" /></p>
<h2  class="related_post_title">rho=0的文章：</h2><ul class="related_post"><li>2007/10/03 -- <a href="http://yihui.name/cn/2007/10/degree-of-freedom/" title="自由度与自由">自由度与自由</a> (9)</li><li>2009/06/16 -- <a href="http://yihui.name/cn/2009/06/200-megabytes-free-ftp-account/" title="免费赠送FTP空间200M">免费赠送FTP空间200M</a> (12)</li><li>2009/03/24 -- <a href="http://yihui.name/cn/2009/03/dont-wrestle-with-pigs/" title="不要和猪摔跤">不要和猪摔跤</a> (11)</li><li>2009/06/02 -- <a href="http://yihui.name/cn/2009/06/from-points-to-curves/" title="画曲线的通用办法：描点法画图">画曲线的通用办法：描点法画图</a> (4)</li><li>2008/12/02 -- <a href="http://yihui.name/cn/2008/12/freezing-cold-winter-coming/" title="一场严冬的来临">一场严冬的来临</a> (22)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/12/on-the-edge/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>杯具欣赏：他们眼中的统计学</title>
		<link>http://yihui.name/cn/2009/12/statistics-in-their-eyes/</link>
		<comments>http://yihui.name/cn/2009/12/statistics-in-their-eyes/#comments</comments>
		<pubDate>Sat, 26 Dec 2009 08:14:27 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[数据收集]]></category>
		<category><![CDATA[87.53%]]></category>
		<category><![CDATA[animation]]></category>
		<category><![CDATA[lowess()]]></category>
		<category><![CDATA[四舍五入]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[杯具]]></category>
		<category><![CDATA[百分比]]></category>
		<category><![CDATA[统计学]]></category>
		<category><![CDATA[置信区间]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1172</guid>
		<description><![CDATA[情缘起于段炼同学9天前给我看的他的一篇博客：统计数字是不是拍脑袋出来的？87.53%。当时我在考试，没太仔细琢磨这件事情；现在邮件处理到了这一封，于是一层一层链接都打开来看，越看越摇头。这统计学在大家眼中敢情成了找借口的高级工具？抑或凡是有不正常的数字现象，都可以找到可能的“统计学”原因？这也太杯具了。 这个87.53%已经被证实只是个玩笑。在众多（只顾怀疑、相互抄袭、转载、或来路不明的）博客文章中，段炼的角度显然和所有人都不一样，他把所有的百分比数据的搜索频数都下载了下来，大家一看就知道，87.53这个数字本身并没有什么奇怪的，你去搜87.52或87.54都一样。众人纷纷解释这个0.53（100人中哪里来的0.53个人），不知道谁第一个提起了置信区间，总之我刚才看到的杯具有（考虑了一下，不是啥好事，就不给链接了）： ……在计算样本容量的时候要考虑一个置信区间的问题，也就是说调查了100个人，但是并不认为这100个人都是认真作答的，因此会在样本容量上再乘上一个置信度。 置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。 第一种说法简直错了十万八千里，我闻所未闻，真是木有想到，置信度原来还有这种功效；第二种说法是对置信区间常见的误解；我正欲吐血时，竟然看见了维基百科的身影：置信区间。这下是真的杯具了，维基上赫然写着： 置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。 显然这句话极富误导性（此处不谈贝叶斯学派的观点），还好该页面底下的理论部分是正确的。杯具继续： 通常很少计算某个统计量的点估计值，而是在控制两类错误的条件下，计算它的估计区间的上下界。例如我们可以用90%的概率推断，比率落在81.47%~87.53%中（只是描述问题，并无数据依据），然后有时会根据问题背景，将估计值用区间上界或下界表示。在本案例中，0.53们认为“支持”是他们想要的结果，不排除取上界的可能。 这种冠冕堂皇的话恐怕是领导最喜欢了，什么两类错误啊（Type I &#38; Type II），什么上界下界啊，寡人用名词堆死你。首先，在绝大多数情况下，第二类错误是无法控制的（如备择假设不明确、真实effect size不知道），能知道的只有第一类错误的概率；其次，历史上就没有过用一个置信区间的上界或下界作为估计值的，要么给区间估计，要么给点估计，要是估计值可以随便取，那统计学真的是个大杯具，本来大家只是不相信统计数据，这么整下去总有一天统计理论与方法也会被糟蹋得不像样子的（其实已经被糟蹋得够可以了）。 还有人搬出比率估计啊抽样啊来解释，看着相当的神秘，但问题就是，这个问题本来就不是问题。大家摸象摸到了左前腿，心想世上怎么有这么大一条腿，于是开始解释它，可是还有另外三条腿都很大啊…… 总结一点：世上的争论多因观测局部样本引起。 我对段炼的数据倒是挺感兴趣，这是另一个主题，我还没考虑好，打算改天写到统计之都上去。先简单放两幅图，以搜索gov.cn中的百分比为例。首先是每个百分比对应的频数： 我们能看到，这图中有些“毛刺儿”，显然容易想到，可能是某些“整数位”上的百分比会偏高，那么“放大”一下看看局部吧： 如果视力没问题的话，很容易感觉到两边总是会出现“凸起”——也就是整数百分比上的频数会偏高。原因是什么，我不知道，也许是官员秘书们习惯不保留小数。 再简单用LOWESS验证一下在整数位和不在整数位上的频数是否有显著差异，由于频数数据本身数量级很大，所以纵坐标取了对数，这图的形状看起来和第一幅图有所不同： 这种图可以和协方差分析的思想结合起来看，即：控制了百分比这个变量之后，在整数位和不在整数位上频数的差异如何。两条平滑曲线有明显的高低之分，所以取整的效果还是很明显的。继续看xx.x0%这种取整方式： 它不如上一种取整方式的区别明显，但总的来说，取整和不取整的差异都是很显著的。我试了试直接用回归（协方差分析），发现实在是太难调自变量的阶数了，一元回归肯定是不行，残差图奇形怪状，压根儿就不会是线性关系。 以上都不应该是分析的关键，只是说明一下探索的可能性。真正好玩的应该是这种百分比的频数究竟应该服从什么分布，我也不知道，但至少可以把我天朝的百分比和别的网站的百分比数据做个卡方检验，看分布是否吻合，也就是说，天朝使用百分比的习惯和别人是否有显著差异。 感谢段炼在个人网站中提供了数据下载，使得本文的结果具有可重复： ## 如果段炼不删掉这个数据的话，以下分析可重复 x = read.table("http://chemhack.com/data/googleNums/gov.cn.txt", sep = ",", col.names = c("percentage", "count")) x$round0 = x$percentage %in% seq(0, 100, 1) x$round1 = x$percentage %in% seq(0, 100, 0.1) plot(count ~ percentage, x, type [...]]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2009/12/statistics-in-their-eyes/"><span class="dropcap-blue">事</span></a>情缘起于<a title="http://chemhack.com" href="http://chemhack.com" target="_blank">段炼</a>同学9天前给我看的他的一篇博客：<a title="http://chemhack.com/cn/2009/12/87-53-stat/" href="http://chemhack.com/cn/2009/12/87-53-stat/" target="_blank">统计数字是不是拍脑袋出来的？87.53%</a>。当时我在考试，没太仔细琢磨这件事情；现在邮件处理到了这一封，于是一层一层链接都打开来看，越看越摇头。这统计学在大家眼中敢情成了找借口的高级工具？抑或凡是有不正常的数字现象，都可以找到可能的“统计学”原因？这也太杯具了。</p>
<p>这个87.53%已经被证实只是个玩笑。在众多（只顾怀疑、相互抄袭、转载、或来路不明的）博客文章中，段炼的角度显然和所有人都不一样，他把所有的百分比数据的搜索频数都下载了下来，大家一看就知道，87.53这个数字本身并没有什么奇怪的，你去搜87.52或87.54都一样。众人纷纷解释这个0.53（100人中哪里来的0.53个人），不知道谁第一个提起了置信区间，总之我刚才看到的杯具有（考虑了一下，不是啥好事，就不给链接了）：</p>
<blockquote><p>……在计算样本容量的时候要考虑一个置信区间的问题，也就是说调查了100个人，但是并不认为这100个人都是认真作答的，因此会在样本容量上再<strong>乘上一个置信度</strong>。</p></blockquote>
<blockquote><p>置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。</p></blockquote>
<p>第一种说法简直错了十万八千里，我闻所未闻，真是木有想到，置信度原来还有这种功效；第二种说法是对置信区间常见的误解；我正欲吐血时，竟然看见了维基百科的身影：<a title="http://zh.wikipedia.org/wiki/置信区间" href="http://zh.wikipedia.org/wiki/%E7%BD%AE%E4%BF%A1%E5%8C%BA%E9%97%B4">置信区间</a>。这下是真的杯具了，维基上赫然写着：<span id="more-1172"></span></p>
<blockquote><p>置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。</p></blockquote>
<p>显然这句话极富误导性（此处不谈贝叶斯学派的观点），还好该页面底下的理论部分是正确的。杯具继续：</p>
<blockquote><p>通常很少计算某个统计量的点估计值，而是在<strong>控制两类错误</strong>的条件下，计算它的估计区间的上下界。例如我们可以用90%的概率推断，比率落在81.47%~87.53%中（只是描述问题，并无数据依据），然后有时会根据问题背景，<strong>将估计值用区间上界或下界表示</strong>。在本案例中，0.53们认为“支持”是他们想要的结果，<strong>不排除取上界的可能</strong>。</p></blockquote>
<p>这种冠冕堂皇的话恐怕是领导最喜欢了，什么两类错误啊（Type I &amp; Type II），什么上界下界啊，寡人用名词堆死你。首先，在绝大多数情况下，第二类错误是无法控制的（如备择假设不明确、真实effect size不知道），能知道的只有第一类错误的概率；其次，历史上就没有过用一个置信区间的上界或下界作为估计值的，要么给区间估计，要么给点估计，要是估计值可以随便取，那统计学真的是个大杯具，本来大家只是不相信统计数据，这么整下去总有一天统计理论与方法也会被糟蹋得不像样子的（其实已经被糟蹋得够可以了）。</p>
<p>还有人搬出比率估计啊抽样啊来解释，看着相当的神秘，但问题就是，这个问题本来就不是问题。大家摸象摸到了左前腿，心想世上怎么有这么大一条腿，于是开始解释它，可是还有另外三条腿都很大啊……</p>
<p>总结一点：世上的争论多因观测局部样本引起。</p>
<p>我对段炼的数据倒是挺感兴趣，这是另一个主题，我还没考虑好，打算改天写到<a title="http://cos.name" href="http://cos.name" target="_blank">统计之都</a>上去。先简单放两幅图，以搜索gov.cn中的百分比为例。首先是每个百分比对应的频数：</p>
<p><div id="attachment_1175" class="wp-caption aligncenter" style="width: 490px"><img class="size-full wp-image-1175" title="gov.cn中每个百分比对应的搜索频数" src="http://yihui.name/cn/wp-content/uploads/2009/12/percent-count-gov.cn_.png" alt="gov.cn中每个百分比对应的搜索频数" width="480" height="480" /><p class="wp-caption-text">gov.cn中每个百分比对应的搜索频数</p></div>
<p>我们能看到，这图中有些“毛刺儿”，显然容易想到，可能是某些“整数位”上的百分比会偏高，那么“放大”一下看看局部吧：</p>
<div id="attachment_1174" class="wp-caption aligncenter" style="width: 490px"><img class="size-full wp-image-1174" title="在长度为1的区间内看搜索频数" src="http://yihui.name/cn/wp-content/uploads/2009/12/percent-count.gif" alt="在长度为1的区间内看搜索频数" width="480" height="480" /><p class="wp-caption-text">在长度为1的区间内看搜索频数</p></div>
<p>如果视力没问题的话，很容易感觉到两边总是会出现“凸起”——也就是整数百分比上的频数会偏高。原因是什么，我不知道，也许是官员秘书们习惯不保留小数。</p>
<p>再简单用LOWESS验证一下在整数位和不在整数位上的频数是否有显著差异，由于频数数据本身数量级很大，所以纵坐标取了对数，这图的形状看起来和第一幅图有所不同：</p>
<div id="attachment_1176" class="wp-caption aligncenter" style="width: 490px"><img class="size-full wp-image-1176" title="整数百分比xx.00%上的频数" src="http://yihui.name/cn/wp-content/uploads/2009/12/percent-count-rounding01.png" alt="整数百分比xx.00%上的频数" width="480" height="480" /><p class="wp-caption-text">整数百分比xx.00%上的频数</p></div>
<p>这种图可以和协方差分析的思想结合起来看，即：控制了百分比这个变量之后，在整数位和不在整数位上频数的差异如何。两条平滑曲线有明显的高低之分，所以取整的效果还是很明显的。继续看xx.x0%这种取整方式：</p>
<div id="attachment_1177" class="wp-caption aligncenter" style="width: 490px"><img class="size-full wp-image-1177" title="取整为xx.x0%形式的百分比上对应的频数" src="http://yihui.name/cn/wp-content/uploads/2009/12/percent-count-rounding02.png" alt="取整为xx.x0%形式的百分比上对应的频数" width="480" height="480" /><p class="wp-caption-text">取整为xx.x0%形式的百分比上对应的频数</p></div>
<p>它不如上一种取整方式的区别明显，但总的来说，取整和不取整的差异都是很显著的。我试了试直接用回归（协方差分析），发现实在是太难调自变量的阶数了，一元回归肯定是不行，残差图奇形怪状，压根儿就不会是线性关系。</p>
<p>以上都不应该是分析的关键，只是说明一下探索的可能性。真正好玩的应该是这种百分比的频数究竟应该服从什么分布，我也不知道，但至少可以把我天朝的百分比和别的网站的百分比数据做个卡方检验，看分布是否吻合，也就是说，天朝使用百分比的习惯和别人是否有显著差异。</p>
<p>感谢段炼在个人网站中提供了数据下载，使得本文的结果具有可重复：</p>
<pre>## 如果段炼不删掉这个数据的话，以下分析可重复
x = read.table("http://chemhack.com/data/googleNums/gov.cn.txt",
    sep = ",", col.names = c("percentage", "count"))
x$round0 = x$percentage %in% seq(0, 100, 1)
x$round1 = x$percentage %in% seq(0, 100, 0.1)

plot(count ~ percentage, x, type = "l")
grid()

library(animation)
saveMovie({
    for (i in 0:99) {
        plot(count ~ percentage, x, type = "l", xlim = i + c(0,
            1), panel.first = grid())
    }
}, interval = 0.5, moviename = "percent-count", para = list(mar = c(4.5,
    4, 1, 0.1)))

plot(count ~ percentage, x, pch = 20, col = rgb(0:1,
    0, 0, c(0.07, 1))[x$round0 + 1], log = "y")
lines(lowess(x[x$round0, 1:2], f = 1/3), col = "red", lwd = 2)
lines(lowess(x[!x$round0, 1:2], f = 1/3), col = "black", lwd = 2)

plot(count ~ percentage, x, pch = 20, col = rgb(0:1,
    0, 0, c(0.07, 1))[x$round1 + 1], log = "y")
lines(lowess(x[x$round1, 1:2], f = 1/3), col = "red", lwd = 2)
lines(lowess(x[!x$round1, 1:2], f = 1/3), col = "black", lwd = 2)
</pre>
<p>本文也算是相应JD同学的号召，从长时间的Keep on Eating回到正道上。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/04/10 -- <a href="http://yihui.name/cn/2010/04/no-advertisement/" title="不宣传，就是不宣传">不宣传，就是不宣传</a> (17)</li><li>2010/03/17 -- <a href="http://yihui.name/cn/2010/03/feel-charmed-etc/" title="蓬荜生辉及其它">蓬荜生辉及其它</a> (16)</li><li>2009/04/27 -- <a href="http://yihui.name/cn/2009/04/bad-liars-and-statitistics/" title="造个假数都不会造">造个假数都不会造</a> (15)</li><li>2009/04/24 -- <a href="http://yihui.name/cn/2009/04/won-john-chambers-award/" title="本小子还真中了John Chambers软件奖">本小子还真中了John Chambers软件奖</a> (20)</li><li>2009/03/05 -- <a href="http://yihui.name/cn/2009/03/discretize-data-to-lose-information/" title="离散化：毁灭信息的有效手段">离散化：毁灭信息的有效手段</a> (12)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/12/statistics-in-their-eyes/feed/</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>冬至饺子</title>
		<link>http://yihui.name/cn/2009/12/winter-solstice-dumplings/</link>
		<comments>http://yihui.name/cn/2009/12/winter-solstice-dumplings/#comments</comments>
		<pubDate>Tue, 22 Dec 2009 22:29:30 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[冬至]]></category>
		<category><![CDATA[民以食为上帝]]></category>
		<category><![CDATA[饺子]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1165</guid>
		<description><![CDATA[天半夜正欲睡觉，突然看见明天冬至，心想该吃饺子啊，不妨找几个人来我家包饺子好了。拖出鸡逃课（GTalk）一看，Tengfei在线，这家伙吃面食长大的，肯定会来，吆喝了一嗓子，便答应了；继续看别人，阿杜也在，叫上，阿杜说得有mv作陪才来，小子我在这个农村认识的女士加起来可能也就十来个，让我请ppmm这不为难我么……其他人都不在线，于是只好群发邮件。完毕睡觉，躺床上盘算了一下冰箱里的东西，胡萝卜、芹菜、香菇、木耳、猪肉、牛肉、鸡肉都有，一顿饺子宴齐活了。 早上九点多爬起来看没人回邮件，于是一个个打电话，结果大部分都没人接，问起来都回国了。这次又请了Rtist，这位神仙又在忙，再次遗憾。凑来凑去，才凑了五六人。放下电话开始搜饺子馅做法，看完去厨房拿出肉放在外面解冻，泡上香菇木耳，然后开始和面揉面。此前自己吃都是小规模揉面，这次揉上近两斤面，感觉还挺费劲。一盆面揉了二十来分钟，盖上醒着。然后鸡猪牛肉一个个切片切丝切丁，切完兵兵咣咣剁成肉泥，看起来还像模像样。肉快剁完了，大军赶到，帮忙打扫一下洗碗池边上的台面，开始擀面。我继续切胡萝卜小丁拌猪肉、芹菜丁拌牛肉、香菇拌鸡肉，由于还有一位吃素的童鞋，于是蒋老师专门摊了鸡蛋饼，和笋以及木耳拌一块儿做素馅。素童鞋、淑童鞋和阿杜中间还跑去mall逛了一圈，留下蒋老师、Tengfei和我，一个包，一个擀，一个剁，倒也配合默契。包得差不多了那三人还不见回，于是挂一电话说我们已经吃完了，顷刻间三人就杀回来了。我把剩下的香菇、笋和木耳炒了，然后刷锅开煮。 煮起来一锅一锅就快了，勤劳的蒋老师一直在厨房看锅，我们一伙人饿了半天，当然是一通狼吞虎咽。我也没另炒菜，大家就蘸着酱油醋老干妈凑合着吃了。席间大谈特谈“信某哥，不挂科”的事情，神乎其神，每个人都有鲜活的示例。看来我期末考试之前没拜一拜某哥，这次是要惨了。吃完蒋老师还是抢着刷了碗，大家收拾收拾桌子，本来要打牌，结果素童鞋非说困了要回家睡觉，这下树倒猢狲散，一帮人瞬间都溜光了，两副扑克扔在我家，不知道啥时候能派上用场。放了寒假在这农村宅着感觉头上都快长草了，啥活动都没有。本来我是特别不爱张罗活动的人，在这里都张罗两次饭局了。不过听说Bin回国打算带卡拉OK来，看来下学期没事可以吼两嗓子了；Tengfei也有同学带酒，这美帝真是没劲，酒都没得喝，还是天朝人民幸福。 外一篇：最近无意发现一位COS会员的博客，叹息良久。看我COS头目们，一个个有情有义，想一想心里就很有劲头。不过本小子心里也还没理好谱。 爷还想看：2010/08/13 -- 鱼兮鱼兮奈若何 (21)2010/05/09 -- Keep on Eating (3)2009/10/03 -- 学院网站、考试、月饼、排骨及其它 (12)2009/09/27 -- 美国农村生活一月汇报 (29)2009/08/28 -- 暑假轨迹 (19)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/12/winter-solstice-dumplings/"><span class="dropcap">昨</span></a>天半夜正欲睡觉，突然看见明天冬至，心想该吃饺子啊，不妨找几个人来我家包饺子好了。拖出鸡逃课（GTalk）一看，Tengfei在线，这家伙吃面食长大的，肯定会来，吆喝了一嗓子，便答应了；继续看别人，阿杜也在，叫上，阿杜说得有mv作陪才来，小子我在这个农村认识的女士加起来可能也就十来个，让我请ppmm这不为难我么……其他人都不在线，于是只好群发邮件。完毕睡觉，躺床上盘算了一下冰箱里的东西，胡萝卜、芹菜、香菇、木耳、猪肉、牛肉、鸡肉都有，一顿饺子宴齐活了。</p>
<p>早上九点多爬起来看没人回邮件，于是一个个打电话，结果大部分都没人接，问起来都回国了。这次又请了Rtist，这位神仙又在忙，再次遗憾。凑来凑去，才凑了五六人。放下电话开始搜饺子馅做法，看完去厨房拿出肉放在外面解冻，泡上香菇木耳，然后开始和面揉面。此前自己吃都是小规模揉面，这次揉上近两斤面，感觉还挺费劲。一盆面揉了二十来分钟，盖上醒着。然后鸡猪牛肉一个个切片切丝切丁，切完兵兵咣咣剁成肉泥，看起来还像模像样。肉快剁完了，大军赶到，帮忙打扫一下洗碗池边上的台面，开始擀面。我继续切胡萝卜小丁拌猪肉、芹菜丁拌牛肉、香菇拌鸡肉，由于还有一位吃素的童鞋，于是蒋老师专门摊了鸡蛋饼，和笋以及木耳拌一块儿做素馅。素童鞋、淑童鞋和阿杜中间还跑去mall逛了一圈，留下蒋老师、Tengfei和我，一个包，一个擀，一个剁，倒也配合默契。包得差不多了那三人还不见回，于是挂一电话说我们已经吃完了，顷刻间三人就杀回来了。我把剩下的香菇、笋和木耳炒了，然后刷锅开煮。</p>
<p>煮起来一锅一锅就快了，勤劳的蒋老师一直在厨房看锅，我们一伙人饿了半天，当然是一通狼吞虎咽。我也没另炒菜，大家就蘸着酱油醋老干妈凑合着吃了。席间大谈特谈“信某哥，不挂科”的事情，神乎其神，每个人都有鲜活的示例。看来我期末考试之前没拜一拜某哥，这次是要惨了。吃完蒋老师还是抢着刷了碗，大家收拾收拾桌子，本来要打牌，结果素童鞋非说困了要回家睡觉，这下树倒猢狲散，一帮人瞬间都溜光了，两副扑克扔在我家，不知道啥时候能派上用场。<span id="more-1165"></span>放了寒假在这农村宅着感觉头上都快长草了，啥活动都没有。本来我是特别不爱张罗活动的人，在这里都张罗两次饭局了。不过听说Bin回国打算带卡拉OK来，看来下学期没事可以吼两嗓子了；Tengfei也有同学带酒，这美帝真是没劲，酒都没得喝，还是天朝人民幸福。</p>
<p>外一篇：最近无意发现一位COS会员的博客，叹息良久。看我COS头目们，一个个有情有义，想一想心里就很有劲头。不过本小子心里也还没理好谱。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/13 -- <a href="http://yihui.name/cn/2010/08/fisher-in-the-ada-hayden-lake/" title="鱼兮鱼兮奈若何">鱼兮鱼兮奈若何</a> (21)</li><li>2010/05/09 -- <a href="http://yihui.name/cn/2010/05/keep-on-eating/" title="Keep on Eating">Keep on Eating</a> (3)</li><li>2009/10/03 -- <a href="http://yihui.name/cn/2009/10/website-exam-mooncake-rib-etc/" title="学院网站、考试、月饼、排骨及其它">学院网站、考试、月饼、排骨及其它</a> (12)</li><li>2009/09/27 -- <a href="http://yihui.name/cn/2009/09/september-life-in-ames/" title="美国农村生活一月汇报">美国农村生活一月汇报</a> (29)</li><li>2009/08/28 -- <a href="http://yihui.name/cn/2009/08/trace-in-summer/" title="暑假轨迹">暑假轨迹</a> (19)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/12/winter-solstice-dumplings/feed/</wfw:commentRss>
		<slash:comments>18</slash:comments>
		</item>
		<item>
		<title>最近跟R core们经常打照面</title>
		<link>http://yihui.name/cn/2009/12/meeting-r-core-members/</link>
		<comments>http://yihui.name/cn/2009/12/meeting-r-core-members/#comments</comments>
		<pubDate>Tue, 08 Dec 2009 06:45:05 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[R 语言]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[Duncan Murdoch]]></category>
		<category><![CDATA[Duncan Temple Lang]]></category>
		<category><![CDATA[Friedrich Leisch]]></category>
		<category><![CDATA[Martin Maechler]]></category>
		<category><![CDATA[Michael Friendly]]></category>
		<category><![CDATA[Omegahat]]></category>
		<category><![CDATA[Prof Ripley]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[R核心成员]]></category>
		<category><![CDATA[Sweave]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1139</guid>
		<description><![CDATA[来有些奇怪，有几位R core们居然给本小子写邮件，让本小子着实感到吃惊。比如，首先是Brian Ripley，这是R core中的core，前面提到过他在R源代码中的突出贡献，这位真人不露面、网上找不着照片的大佬，前段时间给我发封邮件说，你小子的animation包的启动消息不正规啊，因为我用suppressPackageStartupMessages()无法屏蔽启动消息；我一看，R里面居然还存在这么长名字的函数，顺便学习了message()函数，从此不再用老土的cat()函数了，后来考虑了一下，干脆把启动消息去掉了，library(animation)不会再有任何提示消息。 然后是我发现Duncan Temple Lang这位不靠谱的大叔做着一些我很喜欢的不靠谱的事情，于是乎对Omegahat心向往之，一来二去聊了聊，将来有机会一定要会一会他。 Sweave对注释的处理是要么完全去除，然后R代码会被整理整齐，要么完全保留，但R代码也保留原样，而我一直希望既能保留注释又能整理代码，这才诞生了animation包中tidy.source()函数（在小邱聪明的技巧下），前段时间想想给Friedrich Leisch，也就是Sweave的作者，发封邮件说了这个事情，打探一下是否能多设置一些Sweave选项，比如把parse()和deparse()函数以选项的形式抽象出来，这样就可以实现既整理代码又保留注释的功能了，不过大叔貌似很忙，回了一封邮件就再也没有音信了，后来由于Michael Friendly对Sweave的一些功能请求在R-help上发了邮件，我们一干人等通过Duncan Murdoch间接了解到Friedrich的确很忙，不过好消息是圣诞节过后Sweave可能会有更新，届时用户可以自行设置图形设备，不必局限在PDF和EPS。但整理代码的事情仍然遥遥无期……唉，还得用硬性Hack的方法。 Martin Maechler前面提过，看到我们开R会，说要向The R Journal交报告啊，回头再跟他谈谈明年R会议的事情。 最意想不到的是，Duncan Murdoch刚才居然给我发个邮件问问题，额滴神啊，这位大叔可是Rtools的管理者、若干个包的作者（rgl等）啊。不过大叔问的是Flash的问题，还好我知道那么一点点，算是能解决。趁此机会，干脆回问两个C语言问题，子曾经曰过：问一个够本，问两个赚一个。 爷还想看：2009/10/10 -- R的第五万次SVN修改：看看R大佬们的工作时间分布 (9)2009/03/05 -- LyX和Sweave (3)2008/12/02 -- SVGAnnotation：从R图形到SVG的（全面）支持 (0)2008/09/11 -- 人生何处不相逢 (0)2010/04/14 -- 统计计算与数学推导及逻辑分析 (2)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/12/meeting-r-core-members/"><span class="dropcap">近</span></a>来有些奇怪，有几位R core们居然给本小子写邮件，让本小子着实感到吃惊。比如，首先是Brian Ripley，这是R core中的core，前面提到过<a title="http://yihui.name/cn/2009/10/50000-revisions-committed-to-r/" href="http://yihui.name/cn/2009/10/50000-revisions-committed-to-r/" target="_blank">他在R源代码中的突出贡献</a>，这位真人不露面、网上找不着照片的大佬，前段时间给我发封邮件说，你小子的animation包的启动消息不正规啊，因为我用<code>suppressPackageStartupMessages()</code>无法屏蔽启动消息；我一看，R里面居然还存在这么长名字的函数，顺便学习了<code>message()</code>函数，从此不再用老土的<code>cat()</code>函数了，后来考虑了一下，干脆把启动消息去掉了，<code>library(animation)</code>不会再有任何提示消息。</p>
<p>然后是我发现Duncan Temple Lang这位不靠谱的大叔做着一些我很喜欢的不靠谱的事情，于是乎对Omegahat心向往之，一来二去聊了聊，将来有机会一定要会一会他。</p>
<p>Sweave对注释的处理是要么完全去除，然后R代码会被整理整齐，要么完全保留，但R代码也保留原样，而我一直希望既能保留注释又能整理代码，这才诞生了<code>animation</code>包中<code>tidy.source()</code>函数（<a title="http://cos.name/bbs/read.php?tid=14056" href="http://cos.name/bbs/read.php?tid=14056" target="_blank">在小邱聪明的技巧下</a>），前段时间想想给Friedrich Leisch，也就是Sweave的作者，发封邮件说了这个事情，打探一下是否能多设置一些Sweave选项，比如把<code>parse()</code>和<code>deparse()</code>函数以选项的形式抽象出来，这样就可以实现既整理代码又保留注释的功能了，不过大叔貌似很忙，回了一封邮件就再也没有音信了，后来由于Michael Friendly对Sweave的一些功能请求在R-help上发了邮件，我们一干人等通过Duncan Murdoch间接了解到Friedrich的确很忙，不过好消息是圣诞节过后Sweave可能会有更新，届时用户可以自行设置图形设备，不必局限在PDF和EPS。但整理代码的事情仍然遥遥无期……唉，还得用硬性Hack的方法。</p>
<p>Martin Maechler前面提过，看到我们开R会，说要向The R Journal交报告啊，回头再跟他谈谈明年R会议的事情。</p>
<p>最意想不到的是，Duncan Murdoch刚才居然给我发个邮件问问题，额滴神啊，这位大叔可是Rtools的管理者、若干个包的作者（rgl等）啊。不过大叔问的是Flash的问题，还好我知道那么一点点，算是能解决。趁此机会，干脆回问两个C语言问题，子曾经曰过：问一个够本，问两个赚一个。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/10/10 -- <a href="http://yihui.name/cn/2009/10/50000-revisions-committed-to-r/" title="R的第五万次SVN修改：看看R大佬们的工作时间分布">R的第五万次SVN修改：看看R大佬们的工作时间分布</a> (9)</li><li>2009/03/05 -- <a href="http://yihui.name/cn/2009/03/lyx-and-sweave/" title="LyX和Sweave">LyX和Sweave</a> (3)</li><li>2008/12/02 -- <a href="http://yihui.name/cn/2008/12/svgannotation-from-r-graphics-to-svg/" title="SVGAnnotation：从R图形到SVG的（全面）支持">SVGAnnotation：从R图形到SVG的（全面）支持</a> (0)</li><li>2008/09/11 -- <a href="http://yihui.name/cn/2008/09/people-meet-everywhere/" title="人生何处不相逢">人生何处不相逢</a> (0)</li><li>2010/04/14 -- <a href="http://yihui.name/cn/2010/04/stat-computation-math-logic/" title="统计计算与数学推导及逻辑分析">统计计算与数学推导及逻辑分析</a> (2)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/12/meeting-r-core-members/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>2009第一场雪和第二届中国R语言会议</title>
		<link>http://yihui.name/cn/2009/12/snow-in-ames-and-2nd-chinese-r-conference/</link>
		<comments>http://yihui.name/cn/2009/12/snow-in-ames-and-2nd-chinese-r-conference/#comments</comments>
		<pubDate>Fri, 04 Dec 2009 21:31:51 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[R 语言]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[Ames]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[R语言]]></category>
		<category><![CDATA[下雪]]></category>
		<category><![CDATA[会议]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1122</guid>
		<description><![CDATA[极北苦寒之农村今年比较反常，据说往年都是感恩节一定会下雪，而今年就没下。刚纳闷儿咋12月还不下雪的时候，便下开了。不过雪也不大，地上只是铺了薄薄一层，比今年北京那场雪差远了。昨夜回家路上，想起小学时咿咿呀呀背的： 日暮苍山远，天寒白屋贫。 柴门闻犬吠，风雪夜归人。 第二届中国R语言会议的北京会场过几个小时就要开幕了。这次会议比上次的准备更加匆忙，大约也就只有一个多月时间准备，但大家都很卖力，在此先感谢一下各位组织者：邱怡轩、张翔、焦静、陈堰平、范建、蒋安华以及关菁菁；说起小邱同学，如我上次所说，我真是有点怕给这位拼命三郎安排任务，从别人口中了解到他为这次会议每天马不停蹄焦头烂额四处奔波，我心中甚为感叹；张翔呢，我没想到他会担起这次会议组织者的角色，上海会场在他的带领下也办得有声有色（看看会议通知页面的宣传海报多么亮丽），和焦静两人拉赞助、发传单、安排吃住，作为已经工作的人，对一门自由软件如此费心，甚为难得；焦静呢，现在不在统计专业（生态），却帮忙做着一门统计软件的推广，跑校区、定会场、找领导，忙得不亦乐乎；陈堰平作为R的老用户挑起大梁，相信经过上次植物所培训一战，对这次会议的组织应该更有把握；fan版主也是位拼命三郎，COS论坛招生就业版自他上任之后所有帖子和资料被整理得井井有条，使你不得不敬佩，这年头能如此发狠的人不多见啊；关菁菁同学嘛，说实话刚开始小邱介绍的时候我想不起来她是哪一级了（为啥我总觉得她是研究僧呢），上一届R会议她参加了，而且中午没去吃饭，留在会场帮我们看东西，这次又主动提出愿意帮忙组织，我自然是很高兴。对于参会者诸如魏太云以及刘思喆和李舰二位大师兄的献计献策一并致谢。 这次会议有不少去年的熟面孔（如丁鹏、左辰、王化儒、奚潭等），新参加的人里面有我认识和不认识的，报名演讲的名单也给了我很多惊喜，比如钟其顶，算是一个老朋友了，三年前在我一次R报告的时候就认识了，后来我们一直用R做一些食品行业的应用，效果还是很不错的，尤其是今年初几位师弟在我的牵线搭桥下过去实习之后，挖掘了更多R的应用价值；再比如那场“地质环境调查监测研究中的R应用”（作者来自中国地质环境监测院，政府机构下属事业单位），其图形着实让我惊叹了一番，没想到R在这样的单位已经被人研究到了这种程度（R和Google Earth都用上了），太出乎我的意料了，看来我的统计图形书可以放到更开阔的边界上把各种稀奇古怪的应用都介绍一下；再比如陈丽云，这位以技术派面目出现的lady，要来讲讲计量，想当年，被本小子一句玩笑代码惹得好奇心起，装了R，然后被打击了一番；再比如孙晓燕，最后关头杀了过来，不知道是不是被李晓煦老师给“忽悠”的；还有中科院的WebR，相信也是很价值的应用；上海会场请到了汤银才老师，这位也是中国R语言的一位元老人物，想想四五年前网上一搜就是汤老师的那个PPT。 一个月前我往R-help发了个会议通知，前几天又补充了一下会议内容，R core之一Martin Maechler注意到我们的会议，给我发了封邮件说希望这次会议能写一篇报告发给The R Journal，正中下怀，本小子就是这么打算的。我想明年第三届R会议就放在暑假开好了，到时候请一些R core成员过来讲讲课什么的，应该也是很有可能的。 前两天给吴老写了封邮件说起这事，吴老曰： 我是一个行将退出战场的老兵，我想说的是： 祝贺第二届中国R语言大会胜利召开！ 开放、绿色、功能强大、具有源源不断巨大资源的R不仅有必要而且一定能够在中国推广和发展。 吴老是第一位把R引进人大统计学院的老师，此后他的弟子们也纷纷用R，这才有了我接触R的机会。 爷还想看：2008/12/18 -- R语言会议结束之后 (10)2008/12/13 -- 第一届中国R语言会议第一天 (28)2008/12/05 -- 用R赶火车 (9)2008/10/13 -- 开始邀请R Core成员投稿 (2)2010/08/30 -- useR! 2010会议流水账回顾 (9)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/12/snow-in-ames-and-2nd-chinese-r-conference/"><span class="dropcap-orange">这</span></a>极北苦寒之农村今年比较反常，据说往年都是感恩节一定会下雪，而今年就没下。刚纳闷儿咋12月还不下雪的时候，便下开了。不过雪也不大，地上只是铺了薄薄一层，比今年北京那场雪差远了。昨夜回家路上，想起小学时咿咿呀呀背的：</p>
<blockquote><p>日暮苍山远，天寒白屋贫。<br />
柴门闻犬吠，风雪夜归人。</p></blockquote>
<p><a title="http://cos.name/user/user-2009/" href="http://cos.name/user/user-2009/"><img class="alignright" title="R语言" src="http://cran.r-project.org/Rlogo.jpg" alt="" width="100" height="76" />第二届中国R语言会议</a>的北京会场过几个小时就要开幕了。这次会议比上次的准备更加匆忙，大约也就只有一个多月时间准备，但大家都很卖力，在此先感谢一下各位组织者：<a title="http://yixuan.cos.name" href="http://yixuan.cos.name" target="_blank">邱怡轩</a>、张翔、焦静、陈堰平、范建、蒋安华以及关菁菁；说起小邱同学，如我<a title="http://yihui.name/cn/2009/10/website-exam-mooncake-rib-etc/" href="http://yihui.name/cn/2009/10/website-exam-mooncake-rib-etc/">上次</a>所说，我真是有点怕给这位拼命三郎安排任务，从别人口中了解到他为这次会议每天马不停蹄焦头烂额四处奔波，我心中甚为感叹；张翔呢，我没想到他会担起这次会议组织者的角色，上海会场在他的带领下也办得有声有色（看看<a title="http://cos.name/user/user-2009/" href="http://cos.name/user/user-2009/" target="_blank">会议通知页面</a>的宣传海报多么亮丽），和焦静两人拉赞助、发传单、安排吃住，作为已经工作的人，对一门自由软件如此费心，甚为难得；焦静呢，现在不在统计专业（生态），却帮忙做着一门统计软件的推广，跑校区、定会场、找领导，忙得不亦乐乎；陈堰平作为R的老用户挑起大梁，相信经过上次植物所培训一战，对这次会议的组织应该更有把握；fan版主也是位拼命三郎，<a title="http://cos.name/bbs/" href="http://cos.name/bbs/" target="_blank">COS论坛</a><a title="http://cos.name/bbs/thread.php?fid=21" href="http://cos.name/bbs/thread.php?fid=21" target="_blank">招生就业版</a>自他上任之后所有帖子和资料被整理得井井有条，使你不得不敬佩，这年头能如此发狠的人不多见啊；关菁菁同学嘛，说实话刚开始小邱介绍的时候我想不起来她是哪一级了（为啥我总觉得她是研究僧呢），上一届R会议她参加了，而且中午没去吃饭，留在会场帮我们看东西，这次又主动提出愿意帮忙组织，我自然是很高兴。对于参会者诸如<a title="http://taiyun.cos.name" href="http://taiyun.cos.name" target="_blank">魏太云</a>以及刘思喆和李舰二位大师兄的献计献策一并致谢。</p>
<p>这次会议有不少去年的熟面孔（如丁鹏、左辰、王化儒、奚潭等），新参加的人里面有我认识和不认识的，报名演讲的名单也给了我很多惊喜，比如钟其顶，算是一个老朋友了，三年前在我一次R报告的时候就认识了，后来我们一直用R做一些食品行业的应用，效果还是很不错的，尤其是今年初几位师弟在我的牵线搭桥下过去实习之后，挖掘了更多R的应用价值；再比如那场“地质环境调查监测研究中的R应用”（作者来自中国地质环境监测院，政府机构下属事业单位），其图形着实让我惊叹了一番，没想到R在这样的单位已经被人研究到了这种程度（R和Google Earth都用上了），太出乎我的意料了，看来我的统计图形书可以放到更开阔的边界上把各种稀奇古怪的应用都介绍一下；再比如陈丽云，这位以技术派面目出现的lady，要来讲讲计量，想当年，被<a title="http://www.loyhome.cn/676.html" href="http://www.loyhome.cn/676.html" target="_blank">本小子一句玩笑代码</a>惹得好奇心起，装了R，然后被打击了一番；再比如孙晓燕，最后关头杀了过来，不知道是不是被李晓煦老师给“忽悠”的；还有中科院的WebR，相信也是很价值的应用；上海会场请到了汤银才老师，这位也是中国R语言的一位元老人物，想想四五年前网上一搜就是汤老师的那个PPT。</p>
<p>一个月前我往R-help<a title="http://tolstoy.newcastle.edu.au/R/e8/help/09/10/3091.html" href="http://tolstoy.newcastle.edu.au/R/e8/help/09/10/3091.html" target="_blank">发了个会议通知</a>，前几天又补充了一下<a title="http://tolstoy.newcastle.edu.au/R/e8/help/09/12/7137.html" href="http://tolstoy.newcastle.edu.au/R/e8/help/09/12/7137.html" target="_blank">会议内容</a>，R core之一Martin Maechler注意到我们的会议，给我发了封邮件说希望这次会议能写一篇报告发给The R Journal，正中下怀，本小子就是这么打算的。我想明年第三届R会议就放在暑假开好了，到时候请一些R core成员过来讲讲课什么的，应该也是很有可能的。</p>
<p>前两天给吴老写了封邮件说起这事，吴老曰：</p>
<blockquote><p>我是一个行将退出战场的老兵，我想说的是：</p>
<p>祝贺第二届中国R语言大会胜利召开！</p>
<p>开放、绿色、功能强大、具有源源不断巨大资源的R不仅有必要而且一定能够在中国推广和发展。</p></blockquote>
<p>吴老是第一位把R引进人大统计学院的老师，此后他的弟子们也纷纷用R，这才有了我接触R的机会。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2008/12/18 -- <a href="http://yihui.name/cn/2008/12/after-the-1st-chinese-r-conference/" title="R语言会议结束之后">R语言会议结束之后</a> (10)</li><li>2008/12/13 -- <a href="http://yihui.name/cn/2008/12/1st-day-of-1st-chinese-r-conference/" title="第一届中国R语言会议第一天">第一届中国R语言会议第一天</a> (28)</li><li>2008/12/05 -- <a href="http://yihui.name/cn/2008/12/catching-train-with-r/" title="用R赶火车">用R赶火车</a> (9)</li><li>2008/10/13 -- <a href="http://yihui.name/cn/2008/10/inviting-r-core-members/" title="开始邀请R Core成员投稿">开始邀请R Core成员投稿</a> (2)</li><li>2010/08/30 -- <a href="http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/" title="useR! 2010会议流水账回顾">useR! 2010会议流水账回顾</a> (9)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/12/snow-in-ames-and-2nd-chinese-r-conference/feed/</wfw:commentRss>
		<slash:comments>43</slash:comments>
		</item>
		<item>
		<title>关于英文写作的几点常识或经验（兼忆我的英语老师们）</title>
		<link>http://yihui.name/cn/2009/11/common-sense-in-english-writing/</link>
		<comments>http://yihui.name/cn/2009/11/common-sense-in-english-writing/#comments</comments>
		<pubDate>Sat, 07 Nov 2009 00:42:22 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[写作]]></category>
		<category><![CDATA[出国]]></category>
		<category><![CDATA[老师]]></category>
		<category><![CDATA[英语]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1091</guid>
		<description><![CDATA[近有好几位同学让我帮忙看出国申请的简历和文书，敢情我现在是从多年的人大考研咨询改行到出国咨询了……从这些简历和文书的阅读中，我觉得有些写作方面的简单规则应该在此啰嗦一下，复习初中英语知识，供出国的客官参考。我想起什么写什么，这篇文章也许会更新。 零、一本必读的小册子 有一本叫作The Elements of Style的小册子是讲英语写作的，不管你的申请有多忙，一定要抽时间把这本几十页的小册子看完（若你不愿意搜，这里有一个PDF链接）。这本册子相当古老了，也许比你的爷爷年纪还大（传说中的葵花宝典？），但提出的写作规则都是很中肯的。若有大一想出国的同学不幸逛到我这儿来了，我得另外建议各位小客官找一本大部头的英语语法书猛读（个人猛读过张道真的语法书，印象中六七百页，详见后文），我相信这种规则的锻炼对将来的写作。回头想了一下，搞不清楚我大学英语在上些什么。当然，对这本小册子，由于规则繁多，必然有人不满，认为对语言约束太强，有些规则没多大意义，可以打破，这是很自然的事情——语言是拿来用的，会随时间变化的。不过无论如何，我觉得读这本册子益处远大于害处。 一、单数和复数 因为中文的名词基本上没有复数的概念，比如我们说吃苹果时，绝不会说吃苹果们（即使吃了十个苹果），所以我们写英语的名词容易忽略单数复数的问题。当我们用一个可数单数名词的时候，前面需要加冠词a或者the，要么就用复数，不要把一个可数名词孤零零光秃秃撂在那儿。例： 这句话中，线性回归模型前需要加a或者the，或者用models。如果用the什么，那么一般表示特指某一个东西，如果不想表达特指，那么用复数。 二、标点符号 空格问题：中文几乎从不需要使用空格，但英文中标点符号和下一个单词之间需要有一个空格，看似很简单的规则，但很多人的英文文章因为没有空格，写出来让人看着觉得憋得慌。 逗号问题：两个独立的句子之间不能用逗号，要么用句号，要么用分号。有些人写东西很随意，逗号一路打到底，不知道段落到底是什么结构。 书名号问题：英文中没有书名号！不要笑，就是有人会在Word中给一本书或论文打上书名号。如何在正文中提一本书或论文呢？正确的方式是用斜体或者引号。如果文中要提到数十篇文献，那么我建议还是用参考文献的方式吧，比如Xie (2009)。 跑题提一下LaTeX引号问题：我注意到不是所有LaTeX用户都知道引号的正确写法（这让我有点吃惊），它不是""，而是``''，否则，编译出来的文档两个引号的方向是一样的。LyX用户敬请忽略本段，直接打引号的话它会自动生成正确的引号代码。 三、“统计”这个词 作为申请统计专业的学生，务必搞清楚statistic到底是什么，不要开口就说“统计学”是statistic，大多数情况下，这个单词只有一个意思，那就是统计量。“统计学”是statistics，形容词statistical。 四、few和little 它们本身表示否定意思：几乎没有。而不是有一些/一点。如果要表达后者的意思，那么加上a。阅读的时候尤其注意。 五、关于用词 我经常发现我看不懂发给我的PS中的某些句子，因为关键的单词我不认识，也许是我没真正考GRE的缘故吧。但我个人感觉这些我不认识的单词可能是通过金山词霸或者某些翻译工具翻译出来的，不知道老外看见这些词会怎么想，反正我觉得是没有必要用不常见的词。如果想扩大词汇量（我指正常的词汇），我认为最好的办法只有一个，就是大量阅读。读完之后你的脑子会自动根据单词出现的频数排序，以后写东西的时候自然而然就会用写作常用词了。我自己曾经干过背词典的蠢事，当然这种蠢方法对我来说有一定正面影响，因为背词典的时候看了不少例句。 总结起来就是，不要查翻译工具，即使查，也要掂量一下词语是否常见易懂。 六、M$ Word用户的注意事项 大多数Word默认安装了拼写检查工具，因此请不要轻易忽视划了红杠杠的词句，仔细想想为什么被划了杠杠。当然，我不推荐学术男/学术女们用Word写东西。【插播广告：山东大学的客官请关注你们学校的LaTeX讲座（by陈丽云）】 完。 写着写着，想起以前的英语老师们，因此加上一段附录。 附：我的英语老师们 本小子现在混到这个美国农村，还得感谢我的那些英语老师： 初一的英语老师和我沾一丁点亲戚关系（貌似是从我们那个村嫁出去的），所以特别照顾我，当时班里有位同学在上初中之前学过一点英语，所以上课俨然鹤立鸡群，不过老师似乎并不欣赏她，反倒是我被莫名其妙捧起来了，所以不想好好学都不行； 初二英语老师呢，几乎全班同学都讨厌他，可能他当班主任管得太严但又没有威信，偏偏这个老师的口语非常标准（我现在听人把the读成“则”或者元音前仍读“呃”不读“咿”就觉得幸亏当年有这么个老师），语法也很严格，所以我还是很喜欢他的，师徒俩关系一直不错； 初三换到老A班，配备的是学校最好的英语老师，她对姓谢的那个小子早有耳闻，一年中也很照顾我，想方设法让我去市里参加了一次英语竞赛，话说那次貌似是我第一次走出那个小镇（记当时得我一共揣着两块钱，以为来回坐车就够了，结果上车发现一趟就要三块五，心想怎么要这么大一笔钱啊）； 高一高二的英语老师似乎是北方人，一口标准的普通话，在我们那旮旯很少见，虽然市区很多人都讲普通话，但没几个人能正确读出后鼻音（及卷舌），老师上课都是方言。这位大叔没啥特异之处，循规蹈矩，上课有板有眼，所以我又接受了两年正规训练； 高三再进老A，英语老师是个年轻小伙儿，呃，其实也不算太年轻吧，他女儿和我在同一个班，英语也很好。和初一有几分类似，这位小伙老师有些偏爱我，我感觉每次作文给我的分都偏高，若没啥大问题基本都接近满分，所以每次考试都过130奔140，最后高考吃了亏，考了几乎历史最低分。这位老师每天都朝气蓬勃，能说会道，我觉得他去新东方肯定没问题…… 到了大学嘛，反而没啥学习的感觉了。高三暑假背了一本新英汉词典，大一买了一本牛津，现在也不记得有没有背完A。分级考试分到二级，要上一年半英语课。老师功底不错，但我现在似乎什么内容都想不起来了。只记得某次上课要表演，一伙人演大话西游，我演至尊宝（汗啊），借了同学的武士刀，被架在脖子上，背出那段英文版的一万年； 到了研究僧，侥幸过了英语入学考试，免去心头大患，实在是对英语课烦得很；博士僧的时候一样。 爷还想看：2008/06/18 -- 爱生活，iBT，爱烧香 (3)2007/10/22 -- 出国的同志们呐，怎么就不早一点作好准备 (4)2007/10/12 -- 继续光着脚丫子在校园溜达 (2)2007/10/11 -- 点儿守恒定律 · 冷天的大脚丫子 · 名字 (0)2007/09/13 -- 查找未阅读邮件的计算机手 [...]]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2009/11/common-sense-in-english-writing/"><span class="dropcap-purple">最</span></a>近有好几位同学让我帮忙看出国申请的简历和文书，敢情我现在是从多年的人大考研咨询改行到出国咨询了……从这些简历和文书的阅读中，我觉得有些写作方面的简单规则应该在此啰嗦一下，复习初中英语知识，供出国的客官参考。我想起什么写什么，这篇文章也许会更新。</p>
<h1>零、一本必读的小册子</h1>
<p>有一本叫作<strong>The Elements of Style</strong>的小册子是讲英语写作的，不管你的申请有多忙，一定要抽时间把这本几十页的小册子看完（若你不愿意搜，这里有<a title="http://www.cs.vu.nl/~jms/doc/elos.pdf" href="http://www.cs.vu.nl/~jms/doc/elos.pdf" target="_blank">一个PDF链接</a>）。这本册子相当古老了，也许比你的爷爷年纪还大（传说中的葵花宝典？），但提出的写作规则都是很中肯的。若有大一想出国的同学不幸逛到我这儿来了，我得另外建议各位小客官找一本大部头的英语语法书猛读（个人猛读过张道真的语法书，印象中六七百页，详见后文），我相信这种规则的锻炼对将来的写作。回头想了一下，搞不清楚我大学英语在上些什么。当然，对这本小册子，由于规则繁多，必然有人不满，认为对语言约束太强，有些规则没多大意义，可以打破，这是很自然的事情——语言是拿来用的，会随时间变化的。不过无论如何，我觉得读这本册子益处远大于害处。</p>
<h1>一、单数和复数</h1>
<p>因为中文的名词基本上没有复数的概念，比如我们说吃苹果时，绝不会说吃苹果<strong>们</strong>（即使吃了十个苹果），所以我们写英语的名词容易忽略单数复数的问题。<strong>当我们用一个可数单数名词的时候，前面需要加冠词a或者the，要么就用复数，不要把一个可数名词孤零零光秃秃撂在那儿。</strong>例：</p>
<p><div class="quote-green">[...] it estimates parameters in linear regression model&#8230;</div>
<p>这句话中，线性回归模型前需要加a或者the，或者用models。如果用the什么，那么一般表示特指某一个东西，如果不想表达特指，那么用复数。</p>
<h1>二、标点符号</h1>
<p>空格问题：中文几乎从不需要使用空格，但英文中<strong>标点符号和下一个单词之间需要有一个空格</strong>，看似很简单的规则，但很多人的英文文章因为没有空格，写出来让人看着觉得憋得慌。</p>
<p>逗号问题：<strong>两个独立的句子之间不能用逗号，要么用句号，要么用分号</strong>。有些人写东西很随意，逗号一路打到底，不知道段落到底是什么结构。</p>
<p>书名号问题：<strong>英文中没有书名号</strong>！不要笑，就是有人会在Word中给一本书或论文打上书名号。如何在正文中提一本书或论文呢？正确的方式是用斜体或者引号。如果文中要提到数十篇文献，那么我建议还是用参考文献的方式吧，比如Xie (2009)。</p>
<p>跑题提一下LaTeX引号问题：我注意到不是所有LaTeX用户都知道引号的正确写法（这让我有点吃惊），它不是<code>""</code>，而是<code>``''</code>，否则，编译出来的文档两个引号的方向是一样的。LyX用户敬请忽略本段，直接打引号的话它会自动生成正确的引号代码。</p>
<h1>三、“统计”这个词</h1>
<p>作为申请统计专业的学生，务必搞清楚statistic到底是什么，不要开口就说“统计学”是statistic，大多数情况下，这个单词只有一个意思，那就是<strong>统计量</strong>。“统计学”是statistics，形容词statistical。</p>
<h1>四、few和little</h1>
<p>它们本身表示否定意思：<strong>几乎没有</strong>。而不是有一些/一点。如果要表达后者的意思，那么加上a。阅读的时候尤其注意。</p>
<h1>五、关于用词</h1>
<p>我经常发现我看不懂发给我的PS中的某些句子，因为关键的单词我不认识，也许是我没真正考GRE的缘故吧。但我个人感觉这些我不认识的单词可能是通过金山词霸或者某些翻译工具翻译出来的，不知道老外看见这些词会怎么想，反正我觉得是没有必要用不常见的词。如果想扩大词汇量（我指正常的词汇），我认为最好的办法只有一个，就是大量阅读。读完之后你的脑子会自动根据单词出现的频数排序，以后写东西的时候自然而然就会用写作常用词了。我自己曾经干过背词典的蠢事，当然这种蠢方法对我来说有一定正面影响，因为背词典的时候看了不少例句。</p>
<p>总结起来就是，<strong>不要查翻译工具，即使查，也要掂量一下词语是否常见易懂</strong>。</p>
<h1>六、M$ Word用户的注意事项</h1>
<p>大多数Word默认安装了拼写检查工具，因此请不要轻易忽视划了红杠杠的词句，仔细想想为什么被划了杠杠。当然，我不推荐学术男/学术女们用Word写东西。【插播广告：山东大学的客官请关注你们学校的<a title="http://www.loyhome.cn/821.html" href="http://www.loyhome.cn/821.html" target="_blank">LaTeX讲座</a>（by陈丽云）】</p>
<p>完。</p>
<p>写着写着，想起以前的英语老师们，因此加上一段附录。</p>
<h2>附：我的英语老师们</h2>
<p>本小子现在混到这个美国农村，还得感谢我的那些英语老师：</p>
<p>初一的英语老师和我沾一丁点亲戚关系（貌似是从我们那个村嫁出去的），所以特别照顾我，当时班里有位同学在上初中之前学过一点英语，所以上课俨然鹤立鸡群，不过老师似乎并不欣赏她，反倒是我被莫名其妙捧起来了，所以不想好好学都不行；</p>
<p>初二英语老师呢，几乎全班同学都讨厌他，可能他当班主任管得太严但又没有威信，偏偏这个老师的口语非常标准（我现在听人把the读成“则”或者元音前仍读“呃”不读“咿”就觉得幸亏当年有这么个老师），语法也很严格，所以我还是很喜欢他的，师徒俩关系一直不错；</p>
<p>初三换到老A班，配备的是学校最好的英语老师，她对姓谢的那个小子早有耳闻，一年中也很照顾我，想方设法让我去市里参加了一次英语竞赛，话说那次貌似是我第一次走出那个小镇（记当时得我一共揣着两块钱，以为来回坐车就够了，结果上车发现一趟就要三块五，心想怎么要这么大一笔钱啊）；</p>
<p>高一高二的英语老师似乎是北方人，一口标准的普通话，在我们那旮旯很少见，虽然市区很多人都讲普通话，但没几个人能正确读出后鼻音（及卷舌），老师上课都是方言。这位大叔没啥特异之处，循规蹈矩，上课有板有眼，所以我又接受了两年正规训练；</p>
<p>高三再进老A，英语老师是个年轻小伙儿，呃，其实也不算太年轻吧，他女儿和我在同一个班，英语也很好。和初一有几分类似，这位小伙老师有些偏爱我，我感觉每次作文给我的分都偏高，若没啥大问题基本都接近满分，所以每次考试都过130奔140，最后高考吃了亏，考了几乎历史最低分。这位老师每天都朝气蓬勃，能说会道，我觉得他去新东方肯定没问题……</p>
<p>到了大学嘛，反而没啥学习的感觉了。高三暑假背了一本新英汉词典，大一买了一本牛津，现在也不记得有没有背完A。分级考试分到二级，要上一年半英语课。老师功底不错，但我现在似乎什么内容都想不起来了。只记得某次上课要表演，一伙人演大话西游，我演至尊宝（汗啊），借了同学的武士刀，被架在脖子上，背出那段英文版的一万年；</p>
<p>到了研究僧，侥幸过了英语入学考试，免去心头大患，实在是对英语课烦得很；博士僧的时候一样。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2008/06/18 -- <a href="http://yihui.name/cn/2008/06/love-life-love-ibt/" title="爱生活，iBT，爱烧香">爱生活，iBT，爱烧香</a> (3)</li><li>2007/10/22 -- <a href="http://yihui.name/cn/2007/10/early-preparation-for-going-abroad/" title="出国的同志们呐，怎么就不早一点作好准备">出国的同志们呐，怎么就不早一点作好准备</a> (4)</li><li>2007/10/12 -- <a href="http://yihui.name/cn/2007/10/bare-feet-on-campus/" title="继续光着脚丫子在校园溜达">继续光着脚丫子在校园溜达</a> (2)</li><li>2007/10/11 -- <a href="http://yihui.name/cn/2007/10/constant-luck/" title="点儿守恒定律 · 冷天的大脚丫子 · 名字">点儿守恒定律 · 冷天的大脚丫子 · 名字</a> (0)</li><li>2007/09/13 -- <a href="http://yihui.name/cn/2007/09/search-for-unread-emails/" title="查找未阅读邮件的计算机手">查找未阅读邮件的计算机手</a> (5)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/11/common-sense-in-english-writing/feed/</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>R的第五万次SVN修改：看看R大佬们的工作时间分布</title>
		<link>http://yihui.name/cn/2009/10/50000-revisions-committed-to-r/</link>
		<comments>http://yihui.name/cn/2009/10/50000-revisions-committed-to-r/#comments</comments>
		<pubDate>Sun, 11 Oct 2009 03:14:13 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[R 语言]]></category>
		<category><![CDATA[推荐]]></category>
		<category><![CDATA[统计图示]]></category>
		<category><![CDATA[commit]]></category>
		<category><![CDATA[Prof Ripley]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[SAS]]></category>
		<category><![CDATA[SVN]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1075</guid>
		<description><![CDATA[天Ripley教授向R提交了第50000次修改，Romain Francios对SVN的日志数据做了一些简单分析，我个人一直关心Ripley是不是整天不用睡觉（你看这老爷子一天到晚都在邮件列表中出没），这次正好验证一下他是不是24小时工作，数据和R代码参见50000 Revisions Committed to R。 Ripley从1999年加入R核心团队，从上图可以看出，他显然是不需要睡觉的——每个小时都可能有commit。时间分布呈双峰：早上7点到10点、下午3点到6点。看看其他人的工作时间，很容易发现Martin倾向于早起干活，而Peter倾向于每天晚上12点之后干活。 Romain的博客中有SVN的日志数据可以下载，感兴趣的同志们可以继续分析R core的工作行为。 上周上课，我们老爷子又说SAS is extremely powerful，SAS很靠谱，就差明说SAS没有Bug了。我正在整理课程笔记，SAS的事情，我改天要去找老爷子好好谈一谈。R从不说自己能担保什么，大家拼命找bug，拼命改进，这是开源软件的共同特征——没有人付钱，但就是有一群疯子半夜3点还在写代码。商业软件一向说自己能保证什么，可是一个bug二十年都没人会去修正（例），还好我们看不见源代码，要是能看见，后果不堪设想。 爷还想看：2009/12/08 -- 最近跟R core们经常打照面 (9)2008/08/22 -- 数据导入/导出的通用方法 (0)2010/08/30 -- useR! 2010会议流水账回顾 (9)2010/08/28 -- SAS与WPL之争以及我对开源的简单考虑 (8)2010/01/05 -- t检验方差不齐有多重要 (6)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/10/50000-revisions-committed-to-r/"><span class="dropcap">昨</span></a>天Ripley教授向R提交了第50000次修改，Romain Francios对SVN的日志数据<a title="http://romainfrancois.blog.free.fr/index.php?post/2009/10/09/celebrating-R-commit-50000" href="http://romainfrancois.blog.free.fr/index.php?post/2009/10/09/celebrating-R-commit-50000" target="_blank">做了一些简单分析</a>，我个人一直关心Ripley是不是整天不用睡觉（你看这老爷子一天到晚都在邮件列表中出没），这次正好验证一下他是不是24小时工作，数据和R代码参见<a href="http://yihui.name/en/2009/10/50000-revisions-committed-to-r/" target="_blank">50000 Revisions Committed to R</a>。</p>
<p><a href="http://yihui.name/en/wp-content/uploads/2009/10/ripley-work-hour.png"><img class="aligncenter" title="Prof Ripley需要睡觉么？" src="http://yihui.name/en/wp-content/uploads/2009/10/ripley-work-hour.png" alt="" width="480" height="480" /></a>Ripley从1999年加入R核心团队，从上图可以看出，他显然是不需要睡觉的——每个小时都可能有commit。时间分布呈双峰：早上7点到10点、下午3点到6点。看看其他人的工作时间，很容易发现Martin倾向于早起干活，而Peter倾向于每天晚上12点之后干活。</p>
<p>Romain的博客中有SVN的日志数据可以下载，感兴趣的同志们可以继续分析R core的工作行为。</p>
<p>上周上课，我们老爷子又说SAS is extremely powerful，SAS很靠谱，就差明说SAS没有Bug了。我正在整理课程笔记，SAS的事情，我改天要去找老爷子好好谈一谈。R从不说自己能担保什么，大家拼命找bug，拼命改进，这是开源软件的共同特征——没有人付钱，但就是有一群疯子半夜3点还在写代码。商业软件一向说自己能保证什么，可是一个bug二十年都没人会去修正（<a title="https://www.stat.math.ethz.ch/pipermail/r-help/2009-June/202220.html" href="https://www.stat.math.ethz.ch/pipermail/r-help/2009-June/202220.html" target="_blank">例</a>），还好我们看不见源代码，要是能看见，后果不堪设想。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/12/08 -- <a href="http://yihui.name/cn/2009/12/meeting-r-core-members/" title="最近跟R core们经常打照面">最近跟R core们经常打照面</a> (9)</li><li>2008/08/22 -- <a href="http://yihui.name/cn/2008/08/data-import-and-export-approach/" title="数据导入/导出的通用方法">数据导入/导出的通用方法</a> (0)</li><li>2010/08/30 -- <a href="http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/" title="useR! 2010会议流水账回顾">useR! 2010会议流水账回顾</a> (9)</li><li>2010/08/28 -- <a href="http://yihui.name/cn/2010/08/sas-against-wpl-and-my-thoughts-on-open-source/" title="SAS与WPL之争以及我对开源的简单考虑">SAS与WPL之争以及我对开源的简单考虑</a> (8)</li><li>2010/01/05 -- <a href="http://yihui.name/cn/2010/01/unequal-variance-in-t-test/" title="t检验方差不齐有多重要">t检验方差不齐有多重要</a> (6)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/10/50000-revisions-committed-to-r/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>学院网站、考试、月饼、排骨及其它</title>
		<link>http://yihui.name/cn/2009/10/website-exam-mooncake-rib-etc/</link>
		<comments>http://yihui.name/cn/2009/10/website-exam-mooncake-rib-etc/#comments</comments>
		<pubDate>Sun, 04 Oct 2009 04:20:56 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[排骨]]></category>
		<category><![CDATA[月饼]]></category>
		<category><![CDATA[民以食为上帝]]></category>
		<category><![CDATA[统计学院]]></category>
		<category><![CDATA[网站]]></category>
		<category><![CDATA[考试]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1070</guid>
		<description><![CDATA[说学院网站：听说院里又要花钱请人做网站，我一听，赶紧让小邱同志和小蒋同志快马加鞭，争取劫下这一镖，因为我能料到，请人做的网站将成为一个烂系统的概率大于95%（就像学校那个烂系统一样），我个人很是不相信那些做网站的公司。有了无敌的免费的开源的Wordpress，啥网站做不出来啊？这二位呢，任务一说就做，问题一点就通，我是满心欢喜啊，特此书面表扬（算是回答fan的问题吧）。不过我担心的是，小邱做事情太认真，太富有钻研精神了，这一镖要是劫不下来，怕是要浪费很多时间啊。我要不要跟领导旁敲侧击一下，考虑中…… 再说考试：话说这门高等概率论，部分回放了当年我经常昏睡的实变函数课堂，不知道我脑子里是不是缺根数学筋，我对纯粹抽象的东西就是上不了路，总也想不明白，历史上是怎么想到那些证明技巧的，而且花了很大的力气最后证明了一个看似很显然的结论。我只对表示随机误差项的学科感兴趣，对表示的学科实在提不起兴趣。这次其中考试自然是盯着什么简单函数什么可测空间发愣了。下周我要重新整理一下那四五十个推论，也许学这种课就是体力活，看多了做多了也就上路了。但无论如何，我还是一眼望不到究竟这些东西对统计学有什么深远的影响。我知道这样的话一定会招来长者或行家的批评，你一臭小子，懂什么？叫你打好基础，你还这么多废话。但我心中就是有个悖论：既然那些抽象的定理是正确的，为什么一代又一代的人都要从头学起，难道就没有哪一天能让某些东西成为公理么？定义一个Lebesgue积分，都要先从直线上的区间讲起，有了区间再去覆盖集合，取了下极限，集合就有了外测度，然后定义测度和可测集合，有了可测集，再定义可测函数，为了研究可测函数的积分，先定义基于可测集的简单函数的积分，然后用简单函数去夹住非负函数定义非负函数的积分，然后把一般的函数分为正部和负部，最终定义出一般函数的积分。传说Lebesgue积分比Riemann积分优越，通常的例子都是Dirichlet函数用Riemann不可积，但Lebesgue可积，而我觉得通过定义解决的问题，就如同改变了裁判一样。数学家们为什么不多给一些例子，来说明Lebesgue的伟大贡献及其积分的广泛意义？或者，生活中有Dirichlet函数么？回到统计的世界，我看到的仍然到处都是Riemann可积的函数，上哪儿找那种处处不连续的函数去？我们所知道的所有统计分布，有哪一个是变态到处处不连续的，而我们关心的样本空间的子集，又有哪一个是不可测的？呃，不废话了，看书才是正道。也许再过两个月回来看，会发现我问了一堆傻问题。 然后是月饼：中秋节嘛，自然要整点儿月饼，于是乎，一群人杀往Lin家，本小子现在对做东西是无知者无畏，没做过，管它呢，捋起袖子，甩开膀子，拿出笔记本现查，看上十五分钟，面盆倒上二斤面，半斤糖浆，几瓢油，搅和一下，便开揉，话说月饼面还真是不好揉，因为用的是低粘度的面粉，很容易散，没怎么加水，就更干了，好不容易揉好装进袋子搁一边醒着，过了一个小时再看，完蛋鸟，面团太硬，于是乎，把面团重新打散，加点牛奶当水用，又花了半天功夫重新把面揉拢了，切成小块，本小子可是从小搓泥巴长大的，把面团搓成小圆球不在话下，刷刷就出来十八个圆滚滚的面球（无图无真相），在那边喝啤酒聊天的群众过来厨房一看，嗬，有模有样嘛，于是乎，众人围上来捏的捏，擀的擀，塞蛋黄的塞蛋黄，填豆沙的填豆沙，最后把十八个面团子压进模具，最后一哄而散打麻将去了，Yang同学见我们做工粗糙，又把一些月饼重新整容了一下，扔进烤箱，烤啊烤，刷了蜂蜜，再烤啊烤。最后拖出来一看，月饼一半白的一半黑的，白的是因为我面粉放多了，黑的是烤糊了……这异国他乡的，哪管那么多，月黑风高夜，杀人越饼时，众人各自分得黑白月饼作鸟兽散。回来再上网瞅瞅，发现也不一定那么失败——月饼烤出来要放两天让它“回油”，到时候才有好看的颜色（当然烤糊了的除外）。 然后呢今天中午做排骨：排骨应该也是做不坏的东西。我以前没有发现蒜瓣在哪里有卖，所以只有葱姜花椒可用，后来总算发现了，买得大蒜贰颗，中午用水煮了排骨去血水，下油下蒜片下排骨下老干妈，炒得满屋飘香，室友忍不住跑出来：太香了太香了，你终于得道了，来，看我，一二，咔嚓。我便在厨房里蓬头垢面被拍了一张照片。下午去参加系里野餐，完毕去亚洲超市购得料酒一瓶，厨房的东西一天天齐备了。 作为国庆的特别礼物，敬请各位用R的客官移步观看小邱的大作：rgl版的“我的中国心”。短评：R里面只有你不知道的，没有不能实现的。 报名参加了学校的乒乓球赛，周一晚上九点半预备赛，周日正式比赛，我看参加比赛的大多都是老外，不知是不是意味着多了几分胜算，不过也不好说，能参加比赛，水平肯定不会差，有些老外乒乓球也很强的，我是几个月没摸过乒乓球了，也没带自己的球拍。管它呢，去玩玩吧。 爷还想看：2010/08/13 -- 鱼兮鱼兮奈若何 (21)2010/05/09 -- Keep on Eating (3)2010/02/02 -- 特别致谢颜林林对COS的贡献 (6)2009/12/22 -- 冬至饺子 (18)2009/09/27 -- 美国农村生活一月汇报 (29)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/10/website-exam-mooncake-rib-etc/"><span class="dropcap-brown">先</span></a>说学院网站：听说院里又要花钱请人做网站，我一听，赶紧让小邱同志和小蒋同志快马加鞭，争取劫下这一镖，因为我能料到，请人做的网站将成为一个烂系统的概率大于95%（就像学校那个烂系统一样），我个人很是不相信那些做网站的公司。有了无敌的免费的开源的Wordpress，啥网站做不出来啊？这二位呢，任务一说就做，问题一点就通，我是满心欢喜啊，特此书面表扬（算是回答fan的问题吧）。不过我担心的是，小邱做事情太认真，太富有钻研精神了，这一镖要是劫不下来，怕是要浪费很多时间啊。我要不要跟领导旁敲侧击一下，考虑中……</p>
<p>再说考试：话说这门高等概率论，部分回放了当年我经常昏睡的实变函数课堂，不知道我脑子里是不是缺根数学筋，我对纯粹抽象的东西就是上不了路，总也想不明白，历史上是怎么想到那些证明技巧的，而且花了很大的力气最后证明了一个看似很显然的结论。我只对<img src="http://www.forkosh.dreamhost.com/mimetex.cgi?\normalsize %5Cepsilon" title="\epsilon" alt="\epsilon" align="absmiddle" class="math" />表示随机误差项的学科感兴趣，对<img src="http://www.forkosh.dreamhost.com/mimetex.cgi?\normalsize %5Cepsilon" title="\epsilon" alt="\epsilon" align="absmiddle" class="math" />表示<img src="http://www.forkosh.dreamhost.com/mimetex.cgi?\normalsize %5Cforall%20%5Cepsilon%26gt%3B0" title="\forall \epsilon&amp;gt;0" alt="\forall \epsilon&amp;gt;0" align="absmiddle" class="math" />的学科实在提不起兴趣。这次其中考试自然是盯着什么简单函数什么可测空间发愣了。下周我要重新整理一下那四五十个推论，也许学这种课就是体力活，看多了做多了也就上路了。但无论如何，我还是一眼望不到究竟这些东西对统计学有什么深远的影响。我知道这样的话一定会招来长者或行家的批评，你一臭小子，懂什么？叫你打好基础，你还这么多废话。但我心中就是有个悖论：既然那些抽象的定理是正确的，为什么一代又一代的人都要从头学起，难道就没有哪一天能让某些东西成为公理么？定义一个Lebesgue积分，都要先从直线上的区间讲起，有了区间再去覆盖集合，取了下极限，集合就有了外测度，然后定义测度和可测集合，有了可测集，再定义可测函数，为了研究可测函数的积分，先定义基于可测集的简单函数的积分，然后用简单函数去夹住非负函数定义非负函数的积分，然后把一般的函数分为正部和负部，最终定义出一般函数的积分。传说Lebesgue积分比Riemann积分优越，通常的例子都是Dirichlet函数用Riemann不可积，但Lebesgue可积，而我觉得通过定义解决的问题，就如同改变了裁判一样。数学家们为什么不多给一些例子，来说明Lebesgue的伟大贡献及其积分的广泛意义？或者，生活中有Dirichlet函数么？回到统计的世界，我看到的仍然到处都是Riemann可积的函数，上哪儿找那种处处不连续的函数去？我们所知道的所有统计分布，有哪一个是变态到处处不连续的，而我们关心的样本空间的子集，又有哪一个是不可测的？呃，不废话了，看书才是正道。也许再过两个月回来看，会发现我问了一堆傻问题。</p>
<p>然后是月饼：中秋节嘛，自然要整点儿月饼，于是乎，一群人杀往Lin家，本小子现在对做东西是无知者无畏，没做过，管它呢，捋起袖子，甩开膀子，拿出笔记本现查，看上十五分钟，面盆倒上二斤面，半斤糖浆，几瓢油，搅和一下，便开揉，话说月饼面还真是不好揉，因为用的是低粘度的面粉，很容易散，没怎么加水，就更干了，好不容易揉好装进袋子搁一边醒着，过了一个小时再看，完蛋鸟，面团太硬，于是乎，把面团重新打散，加点牛奶当水用，又花了半天功夫重新把面揉拢了，切成小块，本小子可是从小搓泥巴长大的，把面团搓成小圆球不在话下，刷刷就出来十八个圆滚滚的面球（无图无真相），在那边喝啤酒聊天的群众过来厨房一看，嗬，有模有样嘛，于是乎，众人围上来捏的捏，擀的擀，塞蛋黄的塞蛋黄，填豆沙的填豆沙，最后把十八个面团子压进模具，最后一哄而散打麻将去了，Yang同学见我们做工粗糙，又把一些月饼重新整容了一下，扔进烤箱，烤啊烤，刷了蜂蜜，再烤啊烤。最后拖出来一看，月饼一半白的一半黑的，白的是因为我面粉放多了，黑的是烤糊了……这异国他乡的，哪管那么多，月黑风高夜，杀人越饼时，众人各自分得黑白月饼作鸟兽散。回来再上网瞅瞅，发现也不一定那么失败——月饼烤出来要放两天让它“回油”，到时候才有好看的颜色（当然烤糊了的除外）。</p>
<p>然后呢今天中午做排骨：排骨应该也是做不坏的东西。我以前没有发现蒜瓣在哪里有卖，所以只有葱姜花椒可用，后来总算发现了，买得大蒜贰颗，中午用水煮了排骨去血水，下油下蒜片下排骨下老干妈，炒得满屋飘香，室友忍不住跑出来：太香了太香了，你终于得道了，来，看我，一二，咔嚓。我便在厨房里蓬头垢面被拍了一张照片。下午去参加系里野餐，完毕去亚洲超市购得料酒一瓶，厨房的东西一天天齐备了。</p>
<p>作为国庆的特别礼物，敬请各位用R的客官移步观看小邱的大作：<a title="http://cos.name/bbs/read.php?tid=16743" href="http://cos.name/bbs/read.php?tid=16743" target="_blank">rgl版的“我的中国心”</a>。短评：R里面只有你不知道的，没有不能实现的。</p>
<p>报名参加了学校的乒乓球赛，周一晚上九点半预备赛，周日正式比赛，我看参加比赛的大多都是老外，不知是不是意味着多了几分胜算，不过也不好说，能参加比赛，水平肯定不会差，有些老外乒乓球也很强的，我是几个月没摸过乒乓球了，也没带自己的球拍。管它呢，去玩玩吧。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/13 -- <a href="http://yihui.name/cn/2010/08/fisher-in-the-ada-hayden-lake/" title="鱼兮鱼兮奈若何">鱼兮鱼兮奈若何</a> (21)</li><li>2010/05/09 -- <a href="http://yihui.name/cn/2010/05/keep-on-eating/" title="Keep on Eating">Keep on Eating</a> (3)</li><li>2010/02/02 -- <a href="http://yihui.name/cn/2010/02/a-big-thank-you-to-linlin-yan/" title="特别致谢颜林林对COS的贡献">特别致谢颜林林对COS的贡献</a> (6)</li><li>2009/12/22 -- <a href="http://yihui.name/cn/2009/12/winter-solstice-dumplings/" title="冬至饺子">冬至饺子</a> (18)</li><li>2009/09/27 -- <a href="http://yihui.name/cn/2009/09/september-life-in-ames/" title="美国农村生活一月汇报">美国农村生活一月汇报</a> (29)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/10/website-exam-mooncake-rib-etc/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>美国农村生活一月汇报</title>
		<link>http://yihui.name/cn/2009/09/september-life-in-ames/</link>
		<comments>http://yihui.name/cn/2009/09/september-life-in-ames/#comments</comments>
		<pubDate>Sun, 27 Sep 2009 03:20:16 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[R语言]]></category>
		<category><![CDATA[SAS]]></category>
		<category><![CDATA[实变函数]]></category>
		<category><![CDATA[民以食为上帝]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1065</guid>
		<description><![CDATA[天生活是如此琐碎，以至于操起键盘不知道写什么标题是好。开学差不多一个月了，学习上像回到了大二，生活上像回到了小学。选了两门课，外加一门讲座课，天天上实变函数和t检验方差分析，想当年，本小子在实变函数课上是那种会被老师叫醒的学生，可想而知，这种东西我学得很烂了，如今重学一遍，依然不得要领，可能脑子里就缺这根筋吧，总搞不清这铺天盖地的花写字母对统计的意义在哪里，老师倒是一个年轻的大牛，每年有事没事就去JASA和Annals写几篇论文，不经意就发现一群大牛的推导错误（真是牛到惊人，还这么年轻）；而方差分析课呢，老爷子人是很好，经验丰富，但就是歧视R，有事没事就说SAS is extremely powerful，本小子坐在底下心想，忍忍吧，那个年代的人都是SAS派，就别争了，如今SAS与R的优劣很明显了，老爷子有时候上课说，啊哈，你们瞧瞧，这里SAS能做，R就不能做（他就是把反过来成立的那些地方都留着不说），本小子至今还在用R+Sweave写作业，看看究竟有什么事情是R不能做的。 刚看见江堂兄发一篇君子厨艺大全，赶紧凑过去围观（要知道，本小子最近对厨艺比对任何事情都感兴趣，民以食为上帝啊），果然是厨房老手，总结出若干极具robust性能的做菜方法，看来有些东西真的是不管怎么做都会好吃的（以前我只知道蛤蜊）。本小子在来美国之前的上一次做饭差不多可以追溯到小学时期了，想当年，俺和俺弟暑假在家轮流值班，一人做饭，一人放牛，在蚊子嗡嗡飞的昏暗厨房，爬梯子取腊肉，洗了切了炒辣椒炒黄瓜炒土豆，似乎一共就这三样了，炒菜不用放油，因为猪肉已经有很多油了，那时候没有电饭锅，煮饭炒菜全靠那一大口铁锅，大锅水煮，大半熟了全捞起来沥出米汤，然后炒菜，炒完把饭放回去蒸熟，盛出来，剩下一锅锅巴中加入米汤，便是稀饭了，在煮饭的柴火灰烬中埋两个土豆或红薯，吃完饭扒出来就跟宝贝似的。如今在异国他乡的农村再拿起锅碗瓢盆，所有的场景都变了，做饭用电，再也不用守在灶膛前添火；每天吃植物油，想蒸个水蛋吧，没猪油，便放弃了，小时候一直吃着放猪油的水蛋长大，果然有依赖性。室友（香港人）是美国生活，整天汉堡度日，每次看我做饭，都摇头说，太麻烦了，太麻烦了。由于厨房基本是我的天下，没有不明真相的群众围观，所以可以放心大胆挽起袖子任它油花飞溅，我没江堂兄那么耐油，一旦油花飞溅，我就离锅一米远，行注目礼10秒钟，锅里平息了再凑上前翻炒，后来学乖了，尽量沥干水，而且当油五六成热的时候就扔花椒葱姜蒜，让它慢慢爆锅，佐料香味四溢的时候就扔肉，速速翻炒，也就不会大溅了。这一个月主食尝试了猫耳朵、纯手工饺子（花了三四个小时）、纯手工面条、烙饼（未遂）、土豆鸡蛋饼、炸薯条（原来麦当劳的薯条如此简单），各种菜就是随意搭配，牛肉猪肉鸡肉鱼和芹菜土豆生菜萝卜黄瓜茄子菜椒，其中最满意的是芹菜牛肉（深感人大食堂太糟蹋芹菜了）和红烧鸡块，总结经验如下： 糖的作用不一定是让菜变甜，例如红烧鸡块实现在油中放糖，能给鸡块上色，而且更好吃（不甜），因为我不太爱吃甜，所以一直对糖有误解； 纤维多的菜如芹菜棒子盖上锅盖焖一会儿就好吃多了，否则水分很快蒸发，吃着就跟嚼棉线一样（我本来从不用锅盖，前些日子去肯德基州参观考察回来学乖了）； 肉类加上面粉能保湿（面粉多加水和稀），所以肉会嫩；若有淀粉应该更好，可惜我还没找到哪里有卖淀粉的，等找到之后做鱼香肉丝； 爆锅材料一定不能糊，否则既影响美观又损失味道，最易糊的就是干尖椒，若有可能，把爆锅的材料（比如花椒）捞出来再炒菜； 煮稀饭或者煮土豆的时候，加至少两倍于你想象的水（有一次做土豆沙拉，把土豆煮粘锅了）； 明日请客吃饭，答谢大家对初来乍到的本小子的照顾，所以今日去超市买了一大堆东西，看见花生，心想这下可以做宫保鸡丁了，于是买了一点回来试了试（用面粉代替了淀粉），酸酸甜甜的，好吃啊，可能就属于胡子同学说的那种做不坏的东西吧，不过花生米不脆，看来网上的教程步骤应该修改一下。 唉，学习和生活汇报严重不成比例，敢情我是来学厨师专业的，想起老板名恰好是Cook，呃，以后回国路人问起，汝在美国做啥方向捏，答曰做饭（Cook）。 附录（胡子同学提到的三从四德，供广大男同胞围观，我先闪了）： 爷还想看：2010/08/30 -- useR! 2010会议流水账回顾 (9)2010/08/28 -- SAS与WPL之争以及我对开源的简单考虑 (8)2010/08/25 -- 关于《现代统计图形》书稿的说明 (13)2010/08/13 -- 鱼兮鱼兮奈若何 (21)2010/08/08 -- 随机艺术一则：用R画点 (20)]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2009/09/september-life-in-ames/"><span class="dropcap-orange">每</span></a>天生活是如此琐碎，以至于操起键盘不知道写什么标题是好。开学差不多一个月了，学习上像回到了大二，生活上像回到了小学。选了两门课，外加一门讲座课，天天上实变函数和t检验方差分析，想当年，本小子在实变函数课上是那种会被老师叫醒的学生，可想而知，这种东西我学得很烂了，如今重学一遍，依然不得要领，可能脑子里就缺这根筋吧，总搞不清这铺天盖地的花写字母对统计的意义在哪里，老师倒是一个年轻的大牛，每年有事没事就去JASA和Annals写几篇论文，不经意就发现一群大牛的推导错误（真是牛到惊人，还这么年轻）；而方差分析课呢，老爷子人是很好，经验丰富，但就是歧视R，有事没事就说SAS is extremely powerful，本小子坐在底下心想，忍忍吧，那个年代的人都是SAS派，就别争了，如今SAS与R的优劣很明显了，老爷子有时候上课说，啊哈，你们瞧瞧，这里SAS能做，R就不能做（他就是把反过来成立的那些地方都留着不说），本小子至今还在用R+Sweave写作业，看看究竟有什么事情是R不能做的。</p>
<p>刚看见<a href="http://li-and-jiang.com/blog/about-jiang/" target="_blank">江堂兄</a>发一篇<a href="http://li-and-jiang.com/blog/2009/09/26/cooking/" target="_blank">君子厨艺大全</a>，赶紧凑过去围观（要知道，本小子最近对厨艺比对任何事情都感兴趣，民以食为上帝啊），果然是厨房老手，总结出若干极具robust性能的做菜方法，看来有些东西真的是不管怎么做都会好吃的（以前我只知道蛤蜊）。本小子在来美国之前的上一次做饭差不多可以追溯到小学时期了，想当年，俺和俺弟暑假在家轮流值班，一人做饭，一人放牛，在蚊子嗡嗡飞的昏暗厨房，爬梯子取腊肉，洗了切了炒辣椒炒黄瓜炒土豆，似乎一共就这三样了，炒菜不用放油，因为猪肉已经有很多油了，那时候没有电饭锅，煮饭炒菜全靠那一大口铁锅，大锅水煮，大半熟了全捞起来沥出米汤，然后炒菜，炒完把饭放回去蒸熟，盛出来，剩下一锅锅巴中加入米汤，便是稀饭了，在煮饭的柴火灰烬中埋两个土豆或红薯，吃完饭扒出来就跟宝贝似的。如今在异国他乡的农村再拿起锅碗瓢盆，所有的场景都变了，做饭用电，再也不用守在灶膛前添火；每天吃植物油，想蒸个水蛋吧，没猪油，便放弃了，小时候一直吃着放猪油的水蛋长大，果然有依赖性。室友（香港人）是美国生活，整天汉堡度日，每次看我做饭，都摇头说，太麻烦了，太麻烦了。由于厨房基本是我的天下，没有不明真相的群众围观，所以可以放心大胆挽起袖子任它油花飞溅，我没江堂兄那么耐油，一旦油花飞溅，我就离锅一米远，行注目礼10秒钟，锅里平息了再凑上前翻炒，后来学乖了，尽量沥干水，而且当油五六成热的时候就扔花椒葱姜蒜，让它慢慢爆锅，佐料香味四溢的时候就扔肉，速速翻炒，也就不会大溅了。这一个月主食尝试了猫耳朵、纯手工饺子（花了三四个小时）、纯手工面条、烙饼（未遂）、土豆鸡蛋饼、炸薯条（原来麦当劳的薯条如此简单），各种菜就是随意搭配，牛肉猪肉鸡肉鱼和芹菜土豆生菜萝卜黄瓜茄子菜椒，其中最满意的是芹菜牛肉（深感人大食堂太糟蹋芹菜了）和红烧鸡块，总结经验如下：</p>
<ol>
<li>糖的作用不一定是让菜变甜，例如红烧鸡块实现在油中放糖，能给鸡块上色，而且更好吃（不甜），因为我不太爱吃甜，所以一直对糖有误解；</li>
<li>纤维多的菜如芹菜棒子盖上锅盖焖一会儿就好吃多了，否则水分很快蒸发，吃着就跟嚼棉线一样（我本来从不用锅盖，前些日子去肯德基州参观考察回来学乖了）；</li>
<li>肉类加上面粉能保湿（面粉多加水和稀），所以肉会嫩；若有淀粉应该更好，可惜我还没找到哪里有卖淀粉的，等找到之后做鱼香肉丝；</li>
<li>爆锅材料一定不能糊，否则既影响美观又损失味道，最易糊的就是干尖椒，若有可能，把爆锅的材料（比如花椒）捞出来再炒菜；</li>
<li>煮稀饭或者煮土豆的时候，加至少两倍于你想象的水（有一次做土豆沙拉，把土豆煮粘锅了）；</li>
</ol>
<p>明日请客吃饭，答谢大家对初来乍到的本小子的照顾，所以今日去超市买了一大堆东西，看见花生，心想这下可以做宫保鸡丁了，于是买了一点回来试了试（用面粉代替了淀粉），酸酸甜甜的，好吃啊，可能就属于胡子同学说的那种做不坏的东西吧，不过花生米不脆，看来网上的教程步骤应该修改一下。</p>
<p>唉，学习和生活汇报严重不成比例，敢情我是来学厨师专业的，想起老板名恰好是Cook，呃，以后回国路人问起，汝在美国做啥方向捏，答曰做饭（Cook）。</p>
<p>附录（胡子同学提到的三从四德，供广大男同胞围观，我先闪了）：</p>
<p><div class="quote-green">
<p>三从：</p>
<p>一、太太出门要跟从<br />
二、太太命令要服从<br />
三、太太说错话要盲从</p>
<p>四德：</p>
<p>一、太太化妆要等得<br />
二、太太生日要记得<br />
三、打骂要忍得<br />
四、花钱要舍得</div></p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/30 -- <a href="http://yihui.name/cn/2010/08/memories-of-user-2010-at-nist/" title="useR! 2010会议流水账回顾">useR! 2010会议流水账回顾</a> (9)</li><li>2010/08/28 -- <a href="http://yihui.name/cn/2010/08/sas-against-wpl-and-my-thoughts-on-open-source/" title="SAS与WPL之争以及我对开源的简单考虑">SAS与WPL之争以及我对开源的简单考虑</a> (8)</li><li>2010/08/25 -- <a href="http://yihui.name/cn/2010/08/modern-stat-graphics-manuscript/" title="关于《现代统计图形》书稿的说明">关于《现代统计图形》书稿的说明</a> (13)</li><li>2010/08/13 -- <a href="http://yihui.name/cn/2010/08/fisher-in-the-ada-hayden-lake/" title="鱼兮鱼兮奈若何">鱼兮鱼兮奈若何</a> (21)</li><li>2010/08/08 -- <a href="http://yihui.name/cn/2010/08/art-of-points-in-r/" title="随机艺术一则：用R画点">随机艺术一则：用R画点</a> (20)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/09/september-life-in-ames/feed/</wfw:commentRss>
		<slash:comments>29</slash:comments>
		</item>
		<item>
		<title>暑假轨迹</title>
		<link>http://yihui.name/cn/2009/08/trace-in-summer/</link>
		<comments>http://yihui.name/cn/2009/08/trace-in-summer/#comments</comments>
		<pubDate>Thu, 27 Aug 2009 23:04:08 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[Ames]]></category>
		<category><![CDATA[Iowa]]></category>
		<category><![CDATA[Washington DC]]></category>
		<category><![CDATA[北京]]></category>
		<category><![CDATA[地球村]]></category>
		<category><![CDATA[宜昌]]></category>
		<category><![CDATA[暑假]]></category>
		<category><![CDATA[民以食为上帝]]></category>
		<category><![CDATA[青岛]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1058</guid>
		<description><![CDATA[久没来堆点文字，各位客官想必已经觉得此处荒草丛生了。这个暑假东奔西跑，在自家山沟沟里没网络，所以没更新，后来在别的地方每每想操起键盘写两个字，又觉得还有很多事情要做，所以迟迟未动手。再后来，不小心来美国了，初来乍到，种种事情要应付，也就更没工夫写。如今暂时尘埃落定，特向各位客官报个平安，概括这两个月的路径如下： library(maps) x = structure(list(city = c("Beijing", "Yichang", "Qingdao", "Tokyo", "Seattle", "Minneapolis", "DC", "Ames"), latitude = c(39.908173, 30.691967, 36.066348, 35.689488, 47.620973, 44.977482, 38.892091, 42.022864), longitude = c(116.397947, 111.286471, 120.382771, 139.691706, -122.347276, -93.264351, -77.024055, -93.626792)), .Names = c("city", "latitude", "longitude"), row.names = c(NA, -8L), class = "data.frame") library(animation) ##saveMovie({ idx = c( 1, 2, 1, 3, [...]]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2009/08/trace-in-summer/"><span class="dropcap-brown">很</span></a>久没来堆点文字，各位客官想必已经觉得此处荒草丛生了。这个暑假东奔西跑，在自家山沟沟里没网络，所以没更新，后来在别的地方每每想操起键盘写两个字，又觉得还有很多事情要做，所以迟迟未动手。再后来，不小心来美国了，初来乍到，种种事情要应付，也就更没工夫写。如今暂时尘埃落定，特向各位客官报个平安，概括这两个月的路径如下：</p>
<p><div id="attachment_1060" class="wp-caption aligncenter" style="width: 610px"><a href="http://yihui.name/cn/wp-content/uploads/2009/08/travel-in-summer.gif"><img class="size-full wp-image-1060" title="洒家于暑假在地球上的轨迹" src="http://yihui.name/cn/wp-content/uploads/2009/08/travel-in-summer.gif" alt="洒家于暑假在地球上的轨迹" width="600" height="100" /></a><p class="wp-caption-text">洒家于暑假在地球上的轨迹</p></div>
<pre>library(maps)
x = structure(list(city = c("Beijing", "Yichang",
    "Qingdao", "Tokyo", "Seattle", "Minneapolis", "DC", "Ames"),
    latitude = c(39.908173, 30.691967, 36.066348, 35.689488,
        47.620973, 44.977482, 38.892091, 42.022864), longitude = c(116.397947,
        111.286471, 120.382771, 139.691706, -122.347276, -93.264351,
        -77.024055, -93.626792)), .Names = c("city", "latitude",
    "longitude"), row.names = c(NA, -8L), class = "data.frame")
library(animation)
##saveMovie({
    idx = c( 1, 2, 1, 3, 1, 4, 5, 6, 7, 8 )
    for (i in 1:length(idx)) {
        map(xlim = c(-128, 158), ylim = c(17, 54))
        text(-48, 32, x$city[idx[i]], font = 2)
        points(x$longitude, x$latitude, pch = 20, col = "red")
        if (i &gt; 1)
            arrows(x$longitude[idx[i - 1]], x$latitude[idx[i -
                1]], x$longitude[idx[i]], x$latitude[idx[i]],
                length = 0.1, col = "gray")
        points(x$longitude[idx[i]], x$latitude[idx[i]], pch = 19,
            col = "blue")
        Sys.sleep(1)
    }
##}, moviename = "travel-in-summer", outdir = getwd(), para = list(mar = rep(0,
##    4)), width = 600, height = 100)</pre>
<p>细节就不多说了。俺没有相机，所以也不上照片了，八卦的客官请自行到人人网上俺某师弟的页面上以及美国统计学会的统计计算和图形部门网站上扒拉，万一不小心扒到了请自个儿偷着乐，别吱声。</p>
<p>Iowa就是一片大农场，这地方，有人觉得是地狱，有人觉得是天堂。因为除了学习就是运动，没什么太多吃喝玩乐的地方。昨天俺们Dan Nordman老师说，晚上你要是觉得无聊了，不妨把讲义上的定理3拿出来证明一下，那定理还是有一定难度的（意即：可以打发足够多的时间）。</p>
<p>现在的生活基本上浓缩为“上课+做饭”，每天柴米油盐，做饭比学习还用功，不亦乐乎，做了几天米饭，稀饭干饭米饭丸子炸锅巴都试遍了，又跑去整了一袋面粉回来琢磨怎么蒸馒头、下面条。</p>
<p>咳咳，怎么一说做饭就没完了，虽然技术还很差。呃，可能是本次来到美帝，觉得资本主义国家的人都生活在水深火热中，只能吃面包夹生菜这么初级的食物，还是我中土大唐好啊，吃嘛嘛香。</p>
<p>最后向各位关心小的的大人们表示感谢，ISU这边有几位COS会员也给我很多帮助，还有，在这里终于见到了传说中的Rtist大人，俺们COS论坛上的老辈们应该都知道这位神一般的人物，尤其是colinisstudent童鞋，多次问我有没有见到Rtist。俺刚到这里，Rtist就为俺送来了桌子椅子，还有字帖。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/08/13 -- <a href="http://yihui.name/cn/2010/08/fisher-in-the-ada-hayden-lake/" title="鱼兮鱼兮奈若何">鱼兮鱼兮奈若何</a> (21)</li><li>2010/05/09 -- <a href="http://yihui.name/cn/2010/05/keep-on-eating/" title="Keep on Eating">Keep on Eating</a> (3)</li><li>2009/12/22 -- <a href="http://yihui.name/cn/2009/12/winter-solstice-dumplings/" title="冬至饺子">冬至饺子</a> (18)</li><li>2009/12/04 -- <a href="http://yihui.name/cn/2009/12/snow-in-ames-and-2nd-chinese-r-conference/" title="2009第一场雪和第二届中国R语言会议">2009第一场雪和第二届中国R语言会议</a> (43)</li><li>2009/10/03 -- <a href="http://yihui.name/cn/2009/10/website-exam-mooncake-rib-etc/" title="学院网站、考试、月饼、排骨及其它">学院网站、考试、月饼、排骨及其它</a> (12)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/08/trace-in-summer/feed/</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
		<item>
		<title>新手教程：建立网站的全套流程与详细解释</title>
		<link>http://yihui.name/cn/2009/06/how-to-build-a-website-as-a-dummy/</link>
		<comments>http://yihui.name/cn/2009/06/how-to-build-a-website-as-a-dummy/#comments</comments>
		<pubDate>Fri, 19 Jun 2009 14:41:20 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[网站和网页]]></category>
		<category><![CDATA[Apache]]></category>
		<category><![CDATA[Auth Code]]></category>
		<category><![CDATA[A记录]]></category>
		<category><![CDATA[CNAME]]></category>
		<category><![CDATA[FTP]]></category>
		<category><![CDATA[ICANN]]></category>
		<category><![CDATA[IP地址]]></category>
		<category><![CDATA[Linux]]></category>
		<category><![CDATA[MX记录]]></category>
		<category><![CDATA[MySQL]]></category>
		<category><![CDATA[Virtual Host]]></category>
		<category><![CDATA[WHOIS]]></category>
		<category><![CDATA[个人网站]]></category>
		<category><![CDATA[内容管理系统]]></category>
		<category><![CDATA[博客]]></category>
		<category><![CDATA[域名]]></category>
		<category><![CDATA[域名服务器]]></category>
		<category><![CDATA[域名解析]]></category>
		<category><![CDATA[建站]]></category>
		<category><![CDATA[授权码]]></category>
		<category><![CDATA[教程]]></category>
		<category><![CDATA[数据库]]></category>
		<category><![CDATA[维基]]></category>
		<category><![CDATA[网站空间]]></category>
		<category><![CDATA[虚拟主机]]></category>
		<category><![CDATA[论坛]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1052</guid>
		<description><![CDATA[要是Google这个话题，得到的结果八成都是广告——他们都会告诉你，“嘿，我（或某公司）这里可以建网站，傻瓜式的哟，快来投奔我吧！”新手一般都觉得建网站是一件超级复杂的事情，于是很天真很无邪地进了圈套，到最后还乐呵呵帮人数钱。傻瓜式的东西就如它的名字一样，只是为傻瓜准备的，要格外小心。 我正式接触计算机在2002年，接触网站建设在2003年，想想时日也不短了，虽然不是什么高手，但还是有一定发言权滴。数月前，鼓动江堂兄从Live Space逃脱、建立了自己的窝，而近日又把自己的网站和“统计之都”网站都搬了家，然后也帮“贝吉塔行星”逃离了那抽风的Live Space，后来有朋友问起关于如何建立个人网站的事情，所以干脆写篇教程，把这建网站的来龙去脉讲清楚。 一、建网站的准备材料：域名和空间 一个网站通常由域名和一堆网页文件构成： 域名：就是“三达不溜什么什么点坑”这样的东西（如www.yihui.name，不严格，见后话），它由一家非营利组织ICANN管理，但它授权给了若干注册商（registrar）去卖域名，你可以在这些域名经销商那里注册顶级域名，所谓顶级域名就是“字母或数字组合+顶级域名后缀”，这些后缀包括常见的com/org/net，也包括不常见的name/info/biz等，各家允许注册的域名后缀可能有所不同，这就看个人喜好了；关于域名后缀，本来它是有含义的，比如com是company，org是organization，name是个人域名，等等，但我个人觉得这些东西已经没太大意义了，域名只要好记、看着像模像样就可以了，管它是公司还是组织呢（有例外：如gov等特殊后缀一般人不能注册），那著名的del.icio.us网站就是个很好的例子，它不一定非得是美国网站，但这个域名就是注册得很巧妙。顶级域名下面可以设置子域名，如二级三级域名，严格来说，www.yihui.name只是yihui.name的二级子域名，只是www太盛行，以至于人们干脆把www.***.***当作顶级域名了。animation.yihui.name就是本站的一个子域名/子站。说了半天，域名怎么注册啊？你Google一下“域名注册”或“domain name registration”，顶上的Sponsored link中都是有实力的注册商，但我作为过来人要严重提醒的是，尽量不要在国内注册（尤其不要相信那个万网的鬼话）。据说GoDaddy还可以，我没试过，只知道它似乎不能注册.name域名，我自己是在name.com注册的域名（需要付美元，我用的PayPal，双币种的信用卡也可以）。 网站空间：想得简单一些，空间和你的硬盘没啥区别，只不过是空间服务商卖给你的一块服务器硬盘位置而已，性能可能比你的PC机好一点，网站空间就是放网页文件的地方，网页文件你可以简单想象为你硬盘里的文件，它们也是按路径访问的，网址的路径就对应着硬盘里的文件夹。网页文件通常分为： 静态网页：其内容是固定不变的，里面放着HTML代码（网页的一种语言），不管谁、不管什么时间访问，内容都一样，通常以.html/.htm为文件名 动态网页：我估计现在大多数网站都是动态的了，所谓动态就是网页文件会根据不同的条件解析生成不同的HTML代码，例如：某动态页面根据时间和用户ID向访问者问好，早上访问就说早上好，晚上访问就说晚上好，路人甲来了就说路人甲你好……动态页面通常和数据库挂钩，用户在访问网页的时候，网页程序就存取数据库，所以页面内容会不断更新。动态页面可能采取不同的语言编写，如古老的微软的ASP、盛行的开源的PHP。现在网络上有无数的网站系统，我当然推崇PHP+MySQL的系统了，目前尤其看好WordPress系统。 注意有些国外空间是几乎可以当做自己的电脑使用的，包括编译安装程序（如Python），SSH登录，MySQL可以在命令行中执行，等等，国内似乎没见过能给空间这么大自由的 域名和空间没有必然联系，域名的作用就是作为一个字符串映射到一个IP地址上，因为（1）IP地址太难记了（2）IP地址数目有限（同一个IP上可以放N个域名）所以才需要域名这么个东西。这就意味着，你有换空间的自由。哪天对空间服务商不高兴了，可以直接把他踹了，把域名解析到别家去，用另一家空间。哎哎，等会儿，啥叫域名解析？ 二、关于网站的配置 1、域名的设置 注册域名交完银子之后，域名就是你的了，如果你在国内注册的，你花钱买的域名不一定真的是你的。一定要看你是否有以下权利： 修改注册联系人、管理联系人、技术联系人和付费联系人信息，如果你在后台找不到修改的地方，那么恭喜你，这域名好像不是你的，而是某奸商的，用WHOIS查一下域名信息吧； 拿到授权码（Auth Code），国内也有叫域名转移密码的，这个码很重要，如果你不知道或奸商不告诉你，那再次恭喜你，这个域名仍然不是你的，想搬家到别家注册商都搬不了，万一不行遇到这种情况，那么就去ICANN投诉奸商，每天投诉三遍，如果某注册商总是遭到投诉，ICANN会修理它的，总之你一定要知道自己作为消费者有什么权利 如果域名真的属于你，那么你哪天对注册商不高兴了，也可以把它踹掉，转移到别的注册商下。 域名的设置主要是一些解析工作，包括： 域名服务器（name server）：通常是ns*.***.***之类的网址，这个服务器负责解析下面的各种设置，也就是说，它是域名各项设置的Boss。国内一些域名注册商通常以这一点为手段，卡住用户，比如限制你只能使用它的域名服务器，然后再限制你最多只能设置10项A记录或MX记录等，多了要另外收费，这种规矩实在是很扯淡；尤其是对于那些需要多个子域名的用户，这一点很不方便，国外情况好一些，至少我还没见过有哪家限制你使用特定域名服务器的； 要特别提及的一点是，有些空间服务商只需要你把域名服务器设置为他们的域名服务器，剩下的所有解析问题你基本上都不用管了，你可以自由创建子域名，而不必添加A记录 A记录：就是将域名指向主机IP，可以将顶级域名或子域名指向特定的IP，所以你的子域名和顶级域名可以不在同一台服务器上，比如我可以将www.yihui.name指向66.147.240.177，将test.yihui.name指向127.0.0.1，等等。 MX记录：就是邮件服务器，大家知道邮箱是***@***.***的形式，当你发邮件点“发送”之后，首先你的邮件服务商要根据你的收件人邮箱的域名去找它的MX记录，然后再把邮件发给相应的（另一家）邮件服务商，比如我的域名yihui.name的MX记录是ASPMX.L.GOOGLE.COM，也就是Google Apps的邮件服务地址，当你给xie@yihui.name发邮件的时候，系统先去找一下yihui.name的MX记录，一看，哦，是Google啊，那就投递到Google家去，Google收到邮件，一看，哦，要发给xie用户啊，那就发给xie的收件箱中吧；我记得以前搜狗似乎也提供过免费的邮件服务，不知现在还在不在，我已经用Google Apps很久了。 CNAME：即别名，这玩意儿就是个域名“面具”，比如我把google.yihui.name的CNAME设置为google.com，那么你们访问前者的时候实际上就在访问Google，域名中包含的任何路径都会原封不动传递给google.com，比如google.yihui.name/services/就是在访问google.com/services/，但你的浏览器地址栏中的地址不会显示后者，而是显示那个“伪装”的地址。所以只要我高兴，我可以随意制造消息，比如“Google换网址了，新网址是google.xiexie.name”。 其它设置：不说了，理论上一个A记录就够用了，别的都不用管。 2、主机的设置 域名设置好了之后，主机上也需要一些呼应工作。要是域名设置了A记录，但主机上不“接收”，那网站也没法使用。主机如何接收取决于它安装的网站服务程序，现在流行的是Apache，当然也有少数网站依旧抱着Windows IIS大腿（用ASP语言+Access数据库），据说近段时间又出现了一款新软件，有取代Apache的可能，名字忘记了。以Apache为例吧，主机上会创建一个虚拟主机（Virtual Host）配置文件，告诉服务器，“嘿，有个网站指向了你，你要为这个网站服务，这个网站放在某某目录下，如果用户访问某个网址，你要负责把该目录下的文件拿出来给用户看。”大致原理就是这样，细节不多说了。 对用户来说，不用管那么多细节，以上原理的实现对你来说就是在后台把域名绑定到主机的目录下（以及子域名绑定到子目录下）。一般来说，网站还需要两个辅助工具才能让主人随心所欲地配置自己的网站，即FTP和数据库。 （1）用FTP传输网页文件 FTP就是用来传文件到某一台服务器的，只要你购买了虚拟主机服务，一般就会给你一个FTP帐号，你可以利用这个帐号登录你的主机，把网页文件传上去，然后用户就可以访问了。一点常识是，index.htm/index.php之类的网页文件通常是你在访问一个目录时主机会自动为你查找的文件，比如你访问yihui.name，主机会自动查找有没有index.php，如果有，就执行这个文件，生成HTML给你的浏览器。这个文件的文件名也许是可以配置的，但建议不要在这上面特立独行。 现在又很多成熟的建站系统，从网上下载下来然后传到服务器上，访问你的网址，按照提示一步步配置即可，跟装软件没两样。 （2）网站数据库 动态网站大多数需要数据库（即使是文本文件“数据库”），如果你的网站用PHP语言，那么MySQL就是绝配了。若是PHP+MySQL空间（一般Linux主机都是这样），主机服务商会给你分配MySQL数据库帐号，包括：数据库主机（多为localhost）、数据库名、用户名、密码。这四项将会在你安装网页程序的过程中要求你填写。 三、网站的运行 对于那些程序员来说，第一个例子通常都是hello world，如果你愿意看hello world的话，就把“hello world”用任何文本编辑工具写在一个文本文件中，命名为index.htm（注意Windows会默认隐藏文件扩展名！你自己保证文件名不是index.htm.txt吧，我不管了），传到网站根目录下，然后访问你的网站，你就能欣喜地看到这个老得不能再老的hello world了。 一个像样的网站当然不是hello world这么简单，它的运行就像一个复杂的程序，可能存在文件之间的函数调用以及数据库的存取等等。世上真正开发网站程序的人肯定是少数，所以不用担心，你就用别人的程序吧，典型的网站系统有： 博客系统（Blog）：推荐WordPress，理由是程序写得简洁，扩展性强，我以前用国产的Bo-blog系统，后来没经得住诱惑投奔WP了 内容管理系统（CMS）：新闻八卦站、教程站等等，顾名思义就是填充内容的，这种网站八成是互相抄，没几个正儿八经写的，所以为了缓解大家的阅读压力，请各位客官珍爱生命，远离这种网站，也不要再重复建设 论坛系统（BBS）：网民对此应该非常熟悉了，国内常见的系统有PHPWind、Discuz等，国外盛极一时的有phpBB，我个人推荐的是一款相对新出道的bbPress，理由同WordPress，在大家拼命增加功能的今天（搞得用户面对一大堆选项焦头烂额），难得见到一款拼命减功能的论坛系统 维基系统（Wiki）：Wikipedia采用的是MediaWiki系统，如果你不想让维基和数据库交互的话，DokuWiki将是不错的选择，它不需要数据库支持，全部都是文本文件操作 网站的安装都没啥说的，一般都是把网页文件整锅端上服务器，然后访问你的网址，按提示走。该设定网站名称设名称，该输密码输密码。然后你会意识到，原来一个小小的个人也可以创造一个看似吓人的大网站。 [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/06/how-to-build-a-website-as-a-dummy/"><span class="dropcap-purple">你</span></a>要是Google这个话题，得到的结果八成都是广告——他们都会告诉你，“嘿，我（或某公司）这里可以建网站，傻瓜式的哟，快来投奔我吧！”新手一般都觉得建网站是一件超级复杂的事情，于是很天真很无邪地进了圈套，到最后还乐呵呵帮人数钱。傻瓜式的东西就如它的名字一样，只是为傻瓜准备的，要格外小心。</p>
<p>我正式接触计算机在2002年，接触网站建设在2003年，想想时日也不短了，虽然不是什么高手，但还是有一定发言权滴。数月前，鼓动<a title="丽江行" href="http://li-and-jiang.com/blog/" target="_blank">江堂兄</a>从Live Space逃脱、建立了自己的窝，而近日又把自己的网站和“<a title="统计之都" href="http://cos.name" target="_blank">统计之都</a>”网站都搬了家，然后也帮“<a href="http://www.bjt.name" target="_blank">贝吉塔行星</a>”逃离了那抽风的Live Space，后来有朋友问起关于如何建立个人网站的事情，所以干脆写篇教程，把这建网站的来龙去脉讲清楚。</p>
<h1>一、建网站的准备材料：域名和空间</h1>
<p>一个网站通常由域名和一堆网页文件构成：</p>
<ul>
<li>域名：就是“三达不溜什么什么点坑”这样的东西（如www.yihui.name，不严格，见后话），它由一家非营利组织ICANN管理，但它授权给了若干注册商（registrar）去卖域名，你可以在这些域名经销商那里注册<strong>顶级域名</strong>，所谓顶级域名就是“字母或数字组合+顶级域名后缀”，这些后缀包括常见的com/org/net，也包括不常见的name/info/biz等，各家允许注册的域名后缀可能有所不同，这就看个人喜好了；关于域名后缀，本来它是有含义的，比如com是company，org是organization，name是个人域名，等等，但我个人觉得这些东西已经没太大意义了，域名只要好记、看着像模像样就可以了，管它是公司还是组织呢（有例外：如gov等特殊后缀一般人不能注册），那著名的del.icio.us网站就是个很好的例子，它不一定非得是美国网站，但这个域名就是注册得很巧妙。顶级域名下面可以设置子域名，如二级三级域名，严格来说，www.yihui.name只是yihui.name的二级子域名，只是www太盛行，以至于人们干脆把www.***.***当作顶级域名了。animation.yihui.name就是本站的一个子域名/子站。说了半天，域名怎么注册啊？你Google一下“域名注册”或“domain name registration”，顶上的Sponsored link中都是有实力的注册商，但我作为过来人要严重提醒的是，尽量<strong>不要在国内注册</strong>（尤其不要相信那个万网的鬼话）。据说GoDaddy还可以，我没试过，只知道它似乎不能注册.name域名，我自己是在name.com注册的域名（需要付美元，我用的PayPal，双币种的信用卡也可以）。</li>
<li>网站空间：想得简单一些，空间和你的硬盘没啥区别，只不过是空间服务商卖给你的一块服务器硬盘位置而已，性能可能比你的PC机好一点，网站空间就是放网页文件的地方，网页文件你可以简单想象为你硬盘里的文件，它们也是按路径访问的，网址的路径就对应着硬盘里的文件夹。网页文件通常分为：
<ul>
<li>静态网页：其内容是固定不变的，里面放着HTML代码（网页的一种语言），不管谁、不管什么时间访问，内容都一样，通常以.html/.htm为文件名</li>
<li>动态网页：我估计现在大多数网站都是动态的了，所谓动态就是网页文件会根据不同的条件<strong>解析</strong>生成不同的HTML代码，例如：某动态页面根据时间和用户ID向访问者问好，早上访问就说早上好，晚上访问就说晚上好，路人甲来了就说路人甲你好……动态页面通常和数据库挂钩，用户在访问网页的时候，网页程序就存取数据库，所以页面内容会不断更新。动态页面可能采取不同的语言编写，如古老的微软的ASP、盛行的开源的PHP。现在网络上有无数的网站系统，我当然推崇PHP+MySQL的系统了，目前尤其看好WordPress系统。</li>
</ul>
</li>
<li>注意有些国外空间是几乎可以当做自己的电脑使用的，包括编译安装程序（如Python），SSH登录，MySQL可以在命令行中执行，等等，国内似乎没见过能给空间这么大自由的</li>
</ul>
<p>域名和空间没有必然联系，域名的作用就是作为一个字符串映射到一个IP地址上，因为（1）IP地址太难记了（2）IP地址数目有限（同一个IP上可以放N个域名）所以才需要域名这么个东西。这就意味着，你有换空间的<strong>自由</strong>。哪天对空间服务商不高兴了，可以直接把他踹了，把域名解析到别家去，用另一家空间。哎哎，等会儿，啥叫<strong>域名解析</strong>？<span id="more-1052"></span></p>
<h1>二、关于网站的配置</h1>
<h2>1、域名的设置</h2>
<p>注册域名交完银子之后，域名就是你的了，如果你在国内注册的，你花钱买的域名<strong>不一定</strong>真的是你的。一定要看你是否有以下权利：</p>
<ul>
<li>修改注册联系人、管理联系人、技术联系人和付费联系人信息，如果你在后台找不到修改的地方，那么恭喜你，这域名好像不是你的，而是某奸商的，用WHOIS查一下域名信息吧；</li>
<li>拿到授权码（Auth Code），国内也有叫域名转移密码的，这个码很重要，如果你不知道或奸商不告诉你，那再次恭喜你，这个域名仍然不是你的，想搬家到别家注册商都搬不了，万一不行遇到这种情况，那么就去ICANN投诉奸商，每天投诉三遍，如果某注册商总是遭到投诉，ICANN会修理它的，总之你一定要知道自己作为消费者有什么权利</li>
</ul>
<p>如果域名真的属于你，那么你哪天对注册商不高兴了，也可以把它踹掉，转移到别的注册商下。</p>
<p>域名的设置主要是一些解析工作，包括：</p>
<ul>
<li>域名服务器（name server）：通常是ns*.***.***之类的网址，这个服务器负责解析下面的各种设置，也就是说，它是域名各项设置的Boss。国内一些域名注册商通常以这一点为手段，卡住用户，比如限制你只能使用它的域名服务器，然后再限制你最多只能设置10项A记录或MX记录等，多了要另外收费，这种规矩实在是很扯淡；尤其是对于那些需要多个子域名的用户，这一点很不方便，国外情况好一些，至少我还没见过有哪家限制你使用特定域名服务器的；
<ul>
<li>要特别提及的一点是，有些空间服务商只需要你把域名服务器设置为他们的域名服务器，剩下的所有解析问题你基本上都不用管了，你可以自由创建子域名，而不必添加A记录</li>
</ul>
</li>
<li>A记录：就是将域名指向主机IP，可以将顶级域名或子域名指向特定的IP，所以你的子域名和顶级域名可以不在同一台服务器上，比如我可以将www.yihui.name指向66.147.240.177，将test.yihui.name指向127.0.0.1，等等。</li>
<li>MX记录：就是邮件服务器，大家知道邮箱是***@***.***的形式，当你发邮件点“发送”之后，首先你的邮件服务商要根据你的收件人邮箱的域名去找它的MX记录，然后再把邮件发给相应的（另一家）邮件服务商，比如我的域名yihui.name的MX记录是ASPMX.L.GOOGLE.COM，也就是Google Apps的邮件服务地址，当你给xie@yihui.name发邮件的时候，系统先去找一下yihui.name的MX记录，一看，哦，是Google啊，那就投递到Google家去，Google收到邮件，一看，哦，要发给xie用户啊，那就发给xie的收件箱中吧；我记得以前搜狗似乎也提供过免费的邮件服务，不知现在还在不在，我已经用Google Apps很久了。</li>
<li>CNAME：即别名，这玩意儿就是个域名“面具”，比如我把google.yihui.name的CNAME设置为google.com，那么你们访问前者的时候实际上就在访问Google，域名中包含的任何路径都会原封不动传递给google.com，比如google.yihui.name/services/就是在访问google.com/services/，但你的浏览器地址栏中的地址不会显示后者，而是显示那个“伪装”的地址。所以只要我高兴，我可以随意制造消息，比如“Google换网址了，新网址是<a href="http://google.xiexie.name" target="_blank">google.xiexie.name</a>”。</li>
<li>其它设置：不说了，理论上一个A记录就够用了，别的都不用管。</li>
</ul>
<h2>2、主机的设置</h2>
<p>域名设置好了之后，主机上也需要一些呼应工作。要是域名设置了A记录，但主机上不“接收”，那网站也没法使用。主机如何接收取决于它安装的网站服务程序，现在流行的是Apache，当然也有少数网站依旧抱着Windows IIS大腿（用ASP语言+Access数据库），据说近段时间又出现了一款新软件，有取代Apache的可能，名字忘记了。以Apache为例吧，主机上会创建一个虚拟主机（Virtual Host）配置文件，告诉服务器，“嘿，有个网站指向了你，你要为这个网站服务，这个网站放在某某目录下，如果用户访问某个网址，你要负责把该目录下的文件拿出来给用户看。”大致原理就是这样，细节不多说了。</p>
<p>对用户来说，不用管那么多细节，以上原理的实现对你来说就是在后台把域名绑定到主机的目录下（以及子域名绑定到子目录下）。一般来说，网站还需要两个辅助工具才能让主人随心所欲地配置自己的网站，即FTP和数据库。</p>
<h3>（1）用FTP传输网页文件</h3>
<p>FTP就是用来传文件到某一台服务器的，只要你购买了虚拟主机服务，一般就会给你一个FTP帐号，你可以利用这个帐号登录你的主机，把网页文件传上去，然后用户就可以访问了。一点常识是，index.htm/index.php之类的网页文件通常是你在访问一个目录时主机会自动为你查找的文件，比如你访问yihui.name，主机会自动查找有没有index.php，如果有，就执行这个文件，生成HTML给你的浏览器。这个文件的文件名也许是可以配置的，但建议不要在这上面特立独行。</p>
<p>现在又很多成熟的建站系统，从网上下载下来然后传到服务器上，访问你的网址，按照提示一步步配置即可，跟装软件没两样。</p>
<h3>（2）网站数据库</h3>
<p>动态网站大多数需要数据库（即使是文本文件“数据库”），如果你的网站用PHP语言，那么MySQL就是绝配了。若是PHP+MySQL空间（一般Linux主机都是这样），主机服务商会给你分配MySQL数据库帐号，包括：数据库主机（多为localhost）、数据库名、用户名、密码。这四项将会在你安装网页程序的过程中要求你填写。</p>
<h1>三、网站的运行</h1>
<p>对于那些程序员来说，第一个例子通常都是hello world，如果你愿意看hello world的话，就把“hello world”用任何文本编辑工具写在一个文本文件中，命名为index.htm（注意Windows会默认隐藏文件扩展名！你自己保证文件名不是index.htm.txt吧，我不管了），传到网站根目录下，然后访问你的网站，你就能欣喜地看到这个老得不能再老的hello world了。</p>
<p>一个像样的网站当然不是hello world这么简单，它的运行就像一个复杂的程序，可能存在文件之间的函数调用以及数据库的存取等等。世上真正开发网站程序的人肯定是少数，所以不用担心，你就用别人的程序吧，典型的网站系统有：</p>
<ul>
<li>博客系统（Blog）：推荐WordPress，理由是程序写得简洁，扩展性强，我以前用国产的Bo-blog系统，后来没经得住诱惑投奔WP了</li>
<li>内容管理系统（CMS）：新闻八卦站、教程站等等，顾名思义就是填充内容的，这种网站八成是互相抄，没几个正儿八经写的，所以为了缓解大家的阅读压力，请各位客官珍爱生命，远离这种网站，也不要再重复建设</li>
<li>论坛系统（BBS）：网民对此应该非常熟悉了，国内常见的系统有PHPWind、Discuz等，国外盛极一时的有phpBB，我个人推荐的是一款相对新出道的bbPress，理由同WordPress，在大家拼命增加功能的今天（搞得用户面对一大堆选项焦头烂额），难得见到一款拼命减功能的论坛系统</li>
<li>维基系统（Wiki）：Wikipedia采用的是MediaWiki系统，如果你不想让维基和数据库交互的话，DokuWiki将是不错的选择，它不需要数据库支持，全部都是文本文件操作</li>
</ul>
<p>网站的安装都没啥说的，一般都是把网页文件整锅端上服务器，然后访问你的网址，按提示走。该设定网站名称设名称，该输密码输密码。然后你会意识到，原来一个小小的个人也可以创造一个看似吓人的大网站。</p>
<p>但网站的维护并非一件简单的事情，当你有权利面对所有的选项时，你也会觉得痛苦。像我这种业余玩了几年网站的人都快有职业病了，什么地方没对齐就会觉得不舒服，什么地方少了个空格一眼就看出来了，段首空格缩进2字符还是1.9字符感觉就是不一样。所有的东西你都可以改，你愿意怎么布置就怎么布置。只需一个文本编辑器和FTP，你就可以改了传，传了看，看了改。俨然永劫不复了。所以建网站也要有好心态，千万别完美心态，不然这辈子都要不断改。现在网站系统更新也快，隔三差五就有新功能，看得你心痒痒：我是不是该装个A插件/换个B主题啊？张三家有个功能特别酷，我要不要琢磨一下是怎么弄的啊？……</p>
<p>所以，我是建议各位看官学习HTML和CSS以及PHP+MySQL呢，还是不建议呢？我也不知道。</p>
<p>还有搜索引擎优化（SEO），采取一些策略让搜索引擎喜欢你的网站，使得你的搜索排名靠前，你又得学习什么是网页Meta信息（关键词、描述），什么是301重定向，什么是404错误，什么是Apache的Rewrite模块什么是伪静态网址；……</p>
<h1>四、摘要</h1>
<p>头一次见到把摘要写到最后的吧？</p>
<ol>
<li>买域名，避开奸商，建议通过你熟悉的朋友介绍，不行就Google；若在国外买，可用支持美元的信用卡或PayPal付款；域名每年都要交钱的。</li>
<li>买虚拟主机空间，避开奸商，建议通过你熟悉的朋友介绍，不行也不要随意Google，因为空间性能很重要，不试不知道；根据你的建站需求买相应的空间（静态？动态？需要多大？），国内分不同种类的空间，可能按大小收费，国外据我了解的HostMonster是没有大小限制的，一口价，敞开让你随便用，当然，总会受硬盘大小限制</li>
<li>设置域名服务器或者A记录，指向主机</li>
<li>通过FTP把网页文件传上去，然后访问你的新网站</li>
<li>配置你的网站，通常可以登录网站后台作设置，平时做一些日常更新，看到眼红的功能也可以自己DIY出来</li>
<li>如果你不得不在我英明神武的天朝购买虚拟主机，那么恭喜你还有最重要的一步，就是去英明神武的公衅部那里去备个鸟案，备案网址自己搜吧，能否备得上你自己烧香，我不管，一日不备案，一日网站不得运行，主机服务商会把你卡得死死的</li>
</ol>
<p>有什么不清楚的请在下面穷追猛问，我会随时修改更新本文内容。本文叙述有诸多不严格的地方，但对新手来说不需了解那么多，因此没加说明。本文谢绝IT类网站转载。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2007/11/17 -- <a href="http://yihui.name/cn/2007/11/ubuntu-server/" title="Ubuntu Server：两眼一抹黑">Ubuntu Server：两眼一抹黑</a> (2)</li><li>2009/05/22 -- <a href="http://yihui.name/cn/2009/05/mysql-database-manipulation-notes/" title="MySQL数据库操作笔记若干">MySQL数据库操作笔记若干</a> (6)</li><li>2010/02/02 -- <a href="http://yihui.name/cn/2010/02/a-big-thank-you-to-linlin-yan/" title="特别致谢颜林林对COS的贡献">特别致谢颜林林对COS的贡献</a> (6)</li><li>2009/05/15 -- <a href="http://yihui.name/cn/2009/05/blank-long-post-in-wordpress-and-shortcode/" title="超长文章在Wordpress中不能显示的解决办法（与shortcode有关）">超长文章在Wordpress中不能显示的解决办法（与shortcode有关）</a> (2)</li><li>2009/01/04 -- <a href="http://yihui.name/cn/2009/01/image-location-in-webpages/" title="网络上的图片地址">网络上的图片地址</a> (4)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/06/how-to-build-a-website-as-a-dummy/feed/</wfw:commentRss>
		<slash:comments>23</slash:comments>
		</item>
		<item>
		<title>免费赠送FTP空间200M</title>
		<link>http://yihui.name/cn/2009/06/200-megabytes-free-ftp-account/</link>
		<comments>http://yihui.name/cn/2009/06/200-megabytes-free-ftp-account/#comments</comments>
		<pubDate>Tue, 16 Jun 2009 07:10:22 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[电脑网络]]></category>
		<category><![CDATA[FTP空间]]></category>
		<category><![CDATA[免费]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1047</guid>
		<description><![CDATA[天我的个人网站（域名和空间）也成功搬家到国外，“网站快跑”行动至此告一段落，总算觉得安全了；当然，不管你搬到哪儿，都不会绝对安全，因为还有最后一招，即伟大的墙（不懂“墙”是什么意思的童鞋就别查了，也别问什么叫“翻墙”，你绝对是标准的良民）。我也是大大的良民，安分守己，一般也就写写统计和R有关的东西，所以应该不存在墙的危险。因为搬了家，原来的窝里腾出来200M空间，就贡献出来给需要的朋友们用吧。 空间不大，有时候可能有用，比如给别人发超大文件。据我所知，还没有哪个邮箱能支持200M附件吧。各位客官看着用吧，别用它干坏事就可以了。2009年9月21日到期，到时我就不管了。 前几天把原COS网站的800M空间也放出来了，不过那是公家的，就用邮件发送了，不知各位收到没有。 rho=0的文章：2007/11/25 -- 第一次见到活的统计大牛们 (4)2008/09/26 -- 国内关于空间统计学的书及国外的部分材料 (10)2008/06/11 -- 终于更新完程序包了：animation 1.0-0 (0)2009/05/09 -- 邮件终于降到100以下了 (10)2009/02/20 -- Processing与数据可视化 (0)]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2009/06/200-megabytes-free-ftp-account/"><span class="dropcap-blue">昨</span></a>天我的个人网站（域名和空间）也成功搬家到国外，“网站快跑”行动至此告一段落，总算觉得安全了；当然，不管你搬到哪儿，都不会绝对安全，因为还有最后一招，即伟大的墙（不懂“墙”是什么意思的童鞋就别查了，也别问什么叫“翻墙”，你绝对是标准的良民）。我也是大大的良民，安分守己，一般也就写写统计和R有关的东西，所以应该不存在墙的危险。因为搬了家，原来的窝里腾出来200M空间，就贡献出来给需要的朋友们用吧。</p>
<p><span class="note">主机：218.16.120.61<br />
用户名：yihuiname<br />
密码：YiHuI@))()^!^</span>
<p>空间不大，有时候可能有用，比如给别人发超大文件。据我所知，还没有哪个邮箱能支持200M附件吧。各位客官看着用吧，别用它干坏事就可以了。2009年9月21日到期，到时我就不管了。</p>
<p>前几天把原COS网站的800M空间也放出来了，不过那是公家的，就用邮件发送了，不知各位收到没有。</p>
<span class="alert">补充说明：近日发现有童鞋竟然把FTP变成了山寨BBS，呃，好吧，你们继续灌水吧。</span>
<h2  class="related_post_title">rho=0的文章：</h2><ul class="related_post"><li>2009/04/09 -- <a href="http://yihui.name/cn/2009/04/argue-with-pigs/" title="又摔上跤了">又摔上跤了</a> (9)</li><li>2007/08/12 -- <a href="http://yihui.name/cn/2007/08/prevent-lower-case-tags-bo-blog/" title="Bo-Blog系统中Tags的大小写问题解决办法">Bo-Blog系统中Tags的大小写问题解决办法</a> (0)</li><li>2008/05/05 -- <a href="http://yihui.name/cn/2008/05/beijing-statistical-yearbook-2001-2004/" title="北京市统计年鉴下载（2001~2004年）">北京市统计年鉴下载（2001~2004年）</a> (1)</li><li>2008/12/02 -- <a href="http://yihui.name/cn/2008/12/svgannotation-from-r-graphics-to-svg/" title="SVGAnnotation：从R图形到SVG的（全面）支持">SVGAnnotation：从R图形到SVG的（全面）支持</a> (0)</li><li>2008/10/20 -- <a href="http://yihui.name/cn/2008/10/least-median-of-squares/" title="关于最小中位数平方法（Least Median of Squares）">关于最小中位数平方法（Least Median of Squares）</a> (3)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/06/200-megabytes-free-ftp-account/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>很担心我国的水资源将在一年内耗尽</title>
		<link>http://yihui.name/cn/2009/06/so-much-water-in-their-brain/</link>
		<comments>http://yihui.name/cn/2009/06/so-much-water-in-their-brain/#comments</comments>
		<pubDate>Wed, 10 Jun 2009 12:49:37 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[你大爷]]></category>
		<category><![CDATA[脑残]]></category>
		<category><![CDATA[言论]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1033</guid>
		<description><![CDATA[为什么我突然担心起水资源了呢？我是环保主义者么？不是。 最近接连发生一系列事情，有大事有小事，但大事小事都跟水资源有关。首先我介绍一下统计之都最近发生的事情：上个月里，COS很是不太平，会员们也许遇到过几次网站不能打开的情况，但大多数人可能不知道背后有什么故事。其实原因很简单，我们伟大的“攻心部”最近不知抽什么风，突然加大网站审查力度，尤其是对良民的审查，于是乎，某一次某会员帖了几张和福娃有关的图，导致COS被关了一次；某一次某会员发了一个和毛爷爷有关的笑话，导致COS被关了一次（我至今不知道服务商是如何进到我们的网站把帖子删掉的）；……某一次攻心部又说COS没备案，服务商没通知我们就强行关了网站，事实上三年前COS建站没两天就老老实实去备案了，原来的邮件和证书都还在，凭什么说没备案。更恶劣的是，每次关你的网站都不吱声，悄墨迹就给关了。人的忍耐毕竟是有限的，于是我改了QQ签名档： 备案？备案你大爷！ 该管的刁民你不管，不该管的良民你天天来找麻烦。于是，还是那句话，还看什么看，搬！ 搬了主机还得搬域名，结果国内某号称最大的域名注册机构非得让你去ICANN投诉它它才肯把域名转出去，你要是老老实实写申请寄过去，中间不催不问不投诉，下辈子都搬不出去。 在6·肆这一天到来之前，我感觉网上气氛有些异样，因为twitter、live space都被关了，心想咋回事啊，后来总算想起来了：原来明天是个特殊的日子。某部门以这种形式表达了对广大网民的提醒。 这都是小事。而昨天，攻心部又发生一件事，想必地球人都知道了。为了广大青少年远离很黄很暴力的网站，该部门花了纳税人4170万（仅仅1年）买了一款叫“滤霸·滑稽护航”的软件“免费”给群众使用，估计该软件要在IT届永垂青史了。到现在为止，我看到的信息是： 该软件（暂时）还没有Linux和Mac版本，所以大家赶紧转向超级无敌Linux大阵营吧 该软件以红头文件为保护被强制预装，软件本身符合多项流氓软件特征（不问你安装目录就直接装到system32下、不能从控制面板卸载、悄墨迹截图等） 该软件悄墨迹从某部的某数据库读取那些很黄很暴力的网址，从而达到屏蔽效果 …… 现在的家长和学生谁的计算机水平高？如果攻心部一定要强制安装，那么不出半个月，破解方法必然就传出来了，等着瞧吧。实在不能破解，格式化重装系统总行吧？那公司不至于厉害到程序无法格式化吧？花了四千万买了这种愚蠢的方式来监视网络（你可以侮辱我的人格，但不可以侮辱我的智商！），你咋不监视那些嫖宿的官员？咋不监视“人民的好公仆”林蜀黍？…… 回到开头，为什么我国的水资源即将耗尽？因为水全都进到某些人的脑子里了。 你娘，你大爷。 附Google搜索图两张： 更新：学者律师质疑预装“绿坝”合法性（鼓掌！！） rho=0的文章：2007/09/06 -- 猪肉涨价、查证的保安 (2)2007/12/16 -- 两则打电话的故事，不怕绕的就来看 (4)2008/10/29 -- 几何级数增长应该怎样用图形表达 (2)2007/09/21 -- 换了个网站服务器 (5)2008/09/09 -- 我叫谢益辉，谢是谢益辉的谢 (7)]]></description>
			<content:encoded><![CDATA[<p>为什么我突然担心起水资源了呢？我是环保主义者么？不是。</p>
<p>最近接连发生一系列事情，有大事有小事，但大事小事都跟水资源有关。首先我介绍一下统计之都最近发生的事情：上个月里，COS很是不太平，会员们也许遇到过几次网站不能打开的情况，但大多数人可能不知道背后有什么故事。其实原因很简单，我们伟大的“攻心部”最近不知抽什么风，突然加大网站审查力度，尤其是对良民的审查，于是乎，某一次某会员帖了几张和福娃有关的图，导致COS被关了一次；某一次某会员发了一个和毛爷爷有关的笑话，导致COS被关了一次（我至今不知道服务商是如何进到我们的网站把帖子删掉的）；……某一次攻心部又说COS没备案，服务商没通知我们就强行关了网站，事实上三年前COS建站没两天就老老实实去备案了，原来的邮件和证书都还在，凭什么说没备案。更恶劣的是，每次关你的网站都不吱声，悄墨迹就给关了。人的忍耐毕竟是有限的，于是我改了QQ签名档：</p>
<blockquote><p>备案？备案你大爷！</p></blockquote>
<p>该管的刁民你不管，不该管的良民你天天来找麻烦。于是，还是<a title="搬家" href="http://yihui.name/cn/2009/05/turning-to-wordpress/" target="_blank">那句话</a>，还看什么看，搬！</p>
<p style="text-align: center;"><img title="搬家！" src="http://yihui.name/cn/wp-content/uploads/1241957340_0.jpg" alt="搬家！" width="438" height="248" /></p>
<p>搬了主机还得搬域名，结果国内某号称最大的域名注册机构非得让你去ICANN投诉它它才肯把域名转出去，你要是老老实实写申请寄过去，中间不催不问不投诉，下辈子都搬不出去。</p>
<p>在6·肆这一天到来之前，我感觉网上气氛有些异样，因为twitter、live space都被关了，心想咋回事啊，后来总算想起来了：原来明天是个特殊的日子。某部门以这种形式表达了对广大网民的提醒。</p>
<p>这都是小事。而昨天，攻心部又发生一件事，想必地球人都知道了。为了广大青少年远离很黄很暴力的网站，该部门花了纳税人4170万（仅仅1年）买了一款叫“<strong>滤霸·滑稽护航</strong>”的软件“<strong>免费</strong>”给群众使用，估计该软件要在IT届永垂青史了。到现在为止，我看到的信息是：</p>
<ul>
<li>该软件（暂时）还没有Linux和Mac版本，所以大家赶紧转向超级无敌Linux大阵营吧</li>
<li>该软件以红头文件为保护被强制预装，软件本身符合多项流氓软件特征（不问你安装目录就直接装到system32下、不能从控制面板卸载、悄墨迹截图等）</li>
<li>该软件悄墨迹从某部的某数据库读取那些很黄很暴力的网址，从而达到屏蔽效果</li>
<li>……</li>
</ul>
<p>现在的家长和学生谁的计算机水平高？如果攻心部一定要强制安装，那么不出半个月，破解方法必然就传出来了，等着瞧吧。实在不能破解，格式化重装系统总行吧？那公司不至于厉害到程序无法格式化吧？花了四千万买了这种愚蠢的方式来监视网络（你可以侮辱我的人格，但不可以侮辱我的智商！），你咋不监视那些嫖宿的官员？咋不监视“人民的好公仆”林蜀黍？……</p>
<p>回到开头，为什么我国的水资源即将耗尽？因为水全都进到某些人的脑子里了。</p>
<p>你娘，你大爷。</p>
<p>附Google搜索图两张：</p>
<div id="attachment_1040" class="wp-caption aligncenter" style="width: 442px"><a href="http://yihui.name/cn/wp-content/uploads/2009/06/lvba-crack.png"><img class="size-full wp-image-1040" src="http://yihui.name/cn/wp-content/uploads/2009/06/lvba-crack.png" alt="绿坝的搜索条目（敲入“绿坝”之后的截图）" width="432" height="177" /></a><p class="wp-caption-text">绿坝的搜索条目（敲入“绿坝”之后的截图）</p></div>
<div id="attachment_1039" class="wp-caption aligncenter" style="width: 444px"><a href="http://yihui.name/cn/wp-content/uploads/2009/06/lvba-space.png"><img class="size-full wp-image-1039" title="绿坝的搜索条目（绿坝+空格之后的截图）" src="http://yihui.name/cn/wp-content/uploads/2009/06/lvba-space.png" alt="绿坝的搜索条目（绿坝+空格之后的截图）" width="434" height="89" /></a><p class="wp-caption-text">绿坝的搜索条目（绿坝+空格之后的截图）</p></div>
<p><ins datetime="2009-06-11T11:38:58+00:00">更新：<a href="http://www.caijing.com.cn/2009-06-11/110182910_1.html" target="_blank">学者律师质疑预装“绿坝”合法性</a>（鼓掌！！）</ins></p>
<h2  class="related_post_title">rho=0的文章：</h2><ul class="related_post"><li>2009/02/24 -- <a href="http://yihui.name/cn/2009/02/fortune-15-silly-users/" title="fortune(15)">fortune(15)</a> (0)</li><li>2008/07/19 -- <a href="http://yihui.name/cn/2008/07/rweb-for-interactive-computation-and-graphics/" title="Rweb：交互式计算和作图">Rweb：交互式计算和作图</a> (0)</li><li>2009/05/10 -- <a href="http://yihui.name/cn/2009/05/turning-to-wordpress/" title="我也想转WP啊……">我也想转WP啊……</a> (19)</li><li>2009/05/22 -- <a href="http://yihui.name/cn/2009/05/mysql-database-manipulation-notes/" title="MySQL数据库操作笔记若干">MySQL数据库操作笔记若干</a> (6)</li><li>2009/01/13 -- <a href="http://yihui.name/cn/2009/01/from-problem-to-theoretical-base/" title="从问题到统计理论的根基">从问题到统计理论的根基</a> (5)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/06/so-much-water-in-their-brain/feed/</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
		<item>
		<title>用R语言和Flash以及JavaScript生成标签云</title>
		<link>http://yihui.name/cn/2009/06/creating-tag-cloud-using-r-and-flash-javascript/</link>
		<comments>http://yihui.name/cn/2009/06/creating-tag-cloud-using-r-and-flash-javascript/#comments</comments>
		<pubDate>Wed, 10 Jun 2009 09:46:15 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[统计图示]]></category>
		<category><![CDATA[网站和网页]]></category>
		<category><![CDATA[Flash]]></category>
		<category><![CDATA[HTML]]></category>
		<category><![CDATA[JavaScript]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[R-help]]></category>
		<category><![CDATA[Wordpress]]></category>
		<category><![CDATA[wp-cumulus]]></category>
		<category><![CDATA[XML]]></category>
		<category><![CDATA[标签云]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1029</guid>
		<description><![CDATA[些日子有位童鞋在R-help邮件列表里问如何生成那种单词大小与其出现频率成比例的图，这玩意儿也就是通常所说的标签云（Tag Cloud）。我琢磨了一下WordPress的插件wp-cumulus，发现其原理很简单，不过就是将标签信息以XML形式通过JavaScript传递给一个Flash文件，所以也很容易用R去实现这个传递过程，即：将文本、超级链接以及频数写成XML，然后嵌入到HTML文件中。整个过程参见Creating Tag Cloud Using R and Flash / JavaScript (SWFObject)这篇日志，函数源代码和示例数据都可以从那里下载。 效果是这样的： Your browser does not support Flash or Javascript! （通过RSS阅读的童鞋们请打开原文链接在浏览器中观看，否则啥都看不到） 爷还想看：2009/05/30 -- 用Google Chart API展示简单的数据以及WordPress示例 (5)2009/02/18 -- R社区实现了共产主义…… (0)2009/01/18 -- R的那些事儿 (2)2008/09/11 -- 人生何处不相逢 (0)2008/06/07 -- 转义符：从R到JavaScript到HTML (0)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/06/creating-tag-cloud-using-r-and-flash-javascript/"><span class="dropcap-brown">前</span></a>些日子有位童鞋在R-help邮件列表里问如何生成那种单词大小与其出现频率成比例的图，这玩意儿也就是通常所说的标签云（Tag Cloud）。我琢磨了一下WordPress的插件wp-cumulus，发现其原理很简单，不过就是将标签信息以XML形式通过JavaScript传递给一个Flash文件，所以也很容易用R去实现这个传递过程，即：将文本、超级链接以及频数写成XML，然后嵌入到HTML文件中。整个过程参见<a title="Creating Tag Cloud Using R and Flash / JavaScript (SWFObject)" href="http://yihui.name/en/2009/06/creating-tag-cloud-using-r-and-flash-javascript-swfobject/" target="_blank">Creating Tag Cloud Using R and Flash / JavaScript (SWFObject)</a>这篇日志，函数源代码和示例数据都可以从那里下载。</p>
<p>效果是这样的：<br />
<script src="http://yihui.name/en/wp-content/uploads/2009/06/swfobject.js" type="text/javascript"></script></p>
<div id="tagCloudId" style="text-align: center;">Your browser does not support Flash or Javascript!</div>
<p><script type="text/javascript"><!--
		var so = new SWFObject("http://yihui.name/en/wp-content/uploads/2009/06/tagcloud.swf", "tagcloud", "500", "400", "9", "#ffffff");
		so.addParam("wmode", "transparent");
		so.addVariable("mode", "tags");
		so.addVariable("tcolor", "0x333333");
		so.addVariable("tcolor2", "0x009900");
		so.addVariable("hicolor", "0xff0000");
		so.addVariable("tspeed", "100");
		so.addVariable("distr", "true");
		so.addVariable("tagcloud", "%3ctags%3e%3ca%20href='http://yihui.name/en/tag/2d-kernel-density/'%20style='4'%20target='_blank'%20color='0x2163bb'%20hicolor='0xf0763d'%3e2D%20Kernel%20Density%3c/a%3e%3ca%20href='http://yihui.name/en/tag/algorithm/'%20style='4'%20target='_blank'%20color='0x9f0f38'%20hicolor='0xd825b1'%3ealgorithm%3c/a%3e%3ca%20href='http://yihui.name/en/tag/animation/'%20style='44'%20target='_blank'%20color='0x800130'%20hicolor='0x5b8d6a'%3eAnimation%3c/a%3e%3ca%20href='http://yihui.name/en/tag/aniwiki/'%20style='8'%20target='_blank'%20color='0x7ce1df'%20hicolor='0x6607b0'%3eAniWiki%3c/a%3e%3ca%20href='http://yihui.name/en/tag/arcing/'%20style='4'%20target='_blank'%20color='0xdf4e4a'%20hicolor='0xf5cdf2'%3eArcing%3c/a%3e%3ca%20href='http://yihui.name/en/tag/arrows/'%20style='4'%20target='_blank'%20color='0x31f5fb'%20hicolor='0x19d50d'%3earrows()%3c/a%3e%3ca%20href='http://yihui.name/en/tag/beamer/'%20style='4'%20target='_blank'%20color='0xc2acba'%20hicolor='0xb5339e'%3ebeamer%3c/a%3e%3ca%20href='http://yihui.name/en/tag/bean-machine/'%20style='4'%20target='_blank'%20color='0x38daed'%20hicolor='0x8d8cbe'%3eBean%20machine%3c/a%3e%3ca%20href='http://yihui.name/en/tag/boadilla/'%20style='4'%20target='_blank'%20color='0x286ec0'%20hicolor='0xe19caf'%3eBoadilla%3c/a%3e%3ca%20href='http://yihui.name/en/tag/book/'%20style='4'%20target='_blank'%20color='0x25ec53'%20hicolor='0xbb22df'%3eBook%3c/a%3e%3ca%20href='http://yihui.name/en/tag/boosting/'%20style='4'%20target='_blank'%20color='0xe2c060'%20hicolor='0xa1b2cc'%3eBoosting%3c/a%3e%3ca%20href='http://yihui.name/en/tag/brownian-motion/'%20style='4'%20target='_blank'%20color='0xab4709'%20hicolor='0x28e0e1'%3eBrownian%20Motion%3c/a%3e%3ca%20href='http://yihui.name/en/tag/bubble-plot/'%20style='4'%20target='_blank'%20color='0x74afe4'%20hicolor='0x79f2fa'%3eBubble%20Plot%3c/a%3e%3ca%20href='http://yihui.name/en/tag/campus/'%20style='4'%20target='_blank'%20color='0xb7eb85'%20hicolor='0x6fbb8c'%3eCampus%3c/a%3e%3ca%20href='http://yihui.name/en/tag/cluster-sampling/'%20style='4'%20target='_blank'%20color='0xb4bd58'%20hicolor='0x2800c7'%3ecluster%20sampling%3c/a%3e%3ca%20href='http://yihui.name/en/tag/coin/'%20style='4'%20target='_blank'%20color='0xa5abcf'%20hicolor='0xd4c594'%3eCoin%3c/a%3e%3ca%20href='http://yihui.name/en/tag/conan-doyle/'%20style='4'%20target='_blank'%20color='0xeabeca'%20hicolor='0x4a5814'%3eConan%20Doyle%3c/a%3e%3ca%20href='http://yihui.name/en/tag/conclusion/'%20style='4'%20target='_blank'%20color='0x331dc7'%20hicolor='0xa26978'%3eConclusion%3c/a%3e%3ca%20href='http://yihui.name/en/tag/confidence-interval/'%20style='4'%20target='_blank'%20color='0x6f0a88'%20hicolor='0x7b0126'%3eConfidence%20Interval%3c/a%3e%3ca%20href='http://yihui.name/en/tag/convergence/'%20style='4'%20target='_blank'%20color='0x095f1c'%20hicolor='0x90568e'%3eConvergence%3c/a%3e%3ca%20href='http://yihui.name/en/tag/covariance/'%20style='4'%20target='_blank'%20color='0x2880e3'%20hicolor='0x9c530e'%3eCovariance%3c/a%3e%3ca%20href='http://yihui.name/en/tag/flash/'%20style='8'%20target='_blank'%20color='0xb3f222'%20hicolor='0x1b76bc'%3eFlash%3c/a%3e%3ca%20href='http://yihui.name/en/tag/gradient-descent/'%20style='8'%20target='_blank'%20color='0xbdf2d4'%20hicolor='0x7cd201'%3eGradient%20Descent%3c/a%3e%3ca%20href='http://yihui.name/en/tag/graphics/'%20style='32'%20target='_blank'%20color='0x6ea48d'%20hicolor='0x29a816'%3eGraphics%3c/a%3e%3ca%20href='http://yihui.name/en/tag/highlight/'%20style='8'%20target='_blank'%20color='0x59508e'%20hicolor='0x6d5de6'%3eHighlight%3c/a%3e%3ca%20href='http://yihui.name/en/tag/hypothesis-test/'%20style='8'%20target='_blank'%20color='0x7b88bb'%20hicolor='0xabc9f8'%3eHypothesis%20Test%3c/a%3e%3ca%20href='http://yihui.name/en/tag/image/'%20style='8'%20target='_blank'%20color='0x06ac63'%20hicolor='0x92614f'%3eimage()%3c/a%3e%3ca%20href='http://yihui.name/en/tag/interaction/'%20style='8'%20target='_blank'%20color='0xd8dbce'%20hicolor='0x44f1a4'%3eInteraction%3c/a%3e%3ca%20href='http://yihui.name/en/tag/joke/'%20style='8'%20target='_blank'%20color='0xa68ed9'%20hicolor='0x4dc5a7'%3eJoke%3c/a%3e%3ca%20href='http://yihui.name/en/tag/jokes/'%20style='8'%20target='_blank'%20color='0x2f18ca'%20hicolor='0x034e9c'%3eJokes%3c/a%3e%3ca%20href='http://yihui.name/en/tag/latex/'%20style='20'%20target='_blank'%20color='0x8cb56a'%20hicolor='0x4b3de1'%3eLaTeX%3c/a%3e%3ca%20href='http://yihui.name/en/tag/line-break/'%20style='8'%20target='_blank'%20color='0xdfd52a'%20hicolor='0xb328c7'%3eline%20break%3c/a%3e%3ca%20href='http://yihui.name/en/tag/map/'%20style='8'%20target='_blank'%20color='0x3b64b9'%20hicolor='0x13e24e'%3eMap%3c/a%3e%3ca%20href='http://yihui.name/en/tag/model/'%20style='12'%20target='_blank'%20color='0x573218'%20hicolor='0xf98a0e'%3eModel%3c/a%3e%3ca%20href='http://yihui.name/en/tag/mouse/'%20style='8'%20target='_blank'%20color='0xc6420f'%20hicolor='0xcce772'%3eMouse%3c/a%3e%3ca%20href='http://yihui.name/en/tag/new-year/'%20style='8'%20target='_blank'%20color='0x3d0906'%20hicolor='0xe3ff6d'%3eNew%20Year%3c/a%3e%3ca%20href='http://yihui.name/en/tag/parse/'%20style='8'%20target='_blank'%20color='0x1387a6'%20hicolor='0x848ea2'%3eparse()%3c/a%3e%3ca%20href='http://yihui.name/en/tag/pdf/'%20style='12'%20target='_blank'%20color='0x6b97b1'%20hicolor='0x5855be'%3epdf()%3c/a%3e%3ca%20href='http://yihui.name/en/tag/plugin/'%20style='8'%20target='_blank'%20color='0x33942f'%20hicolor='0x77ab96'%3eplugin%3c/a%3e%3ca%20href='http://yihui.name/en/tag/random-number-generator/'%20style='8'%20target='_blank'%20color='0xa6e5cb'%20hicolor='0x1cdf76'%3eRandom%20Number%20Generator%3c/a%3e%3ca%20href='http://yihui.name/en/tag/r-code/'%20style='16'%20target='_blank'%20color='0x9f6dca'%20hicolor='0x3af938'%3eR%20code%3c/a%3e%3ca%20href='http://yihui.name/en/tag/r-language/'%20style='48'%20target='_blank'%20color='0x6b3da1'%20hicolor='0x606774'%3eR%20Language%3c/a%3e%3ca%20href='http://yihui.name/en/tag/r-package/'%20style='20'%20target='_blank'%20color='0x2683f4'%20hicolor='0x67bbc4'%3eR%20Package%3c/a%3e%3ca%20href='http://yihui.name/en/tag/statistical-analysis/'%20style='8'%20target='_blank'%20color='0x2f1125'%20hicolor='0xaa5142'%3eStatistical%20Analysis%3c/a%3e%3ca%20href='http://yihui.name/en/tag/web-site/'%20style='8'%20target='_blank'%20color='0x6ca810'%20hicolor='0x2374b4'%3eweb%20site%3c/a%3e%3c/tags%3e");
		so.write("tagCloudId");
// --></script></p>
<p>（通过RSS阅读的童鞋们请打开原文链接在浏览器中观看，否则啥都看不到）</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/05/30 -- <a href="http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/" title="用Google Chart API展示简单的数据以及WordPress示例">用Google Chart API展示简单的数据以及WordPress示例</a> (5)</li><li>2009/02/18 -- <a href="http://yihui.name/cn/2009/02/communism-in-r-community/" title="R社区实现了共产主义……">R社区实现了共产主义……</a> (0)</li><li>2009/01/18 -- <a href="http://yihui.name/cn/2009/01/interesting-r-fortunes/" title="R的那些事儿">R的那些事儿</a> (2)</li><li>2008/09/11 -- <a href="http://yihui.name/cn/2008/09/people-meet-everywhere/" title="人生何处不相逢">人生何处不相逢</a> (0)</li><li>2008/06/07 -- <a href="http://yihui.name/cn/2008/06/escape-operator-from-r-to-js-to-html/" title="转义符：从R到JavaScript到HTML">转义符：从R到JavaScript到HTML</a> (0)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/06/creating-tag-cloud-using-r-and-flash-javascript/feed/</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>画曲线的通用办法：描点法画图</title>
		<link>http://yihui.name/cn/2009/06/from-points-to-curves/</link>
		<comments>http://yihui.name/cn/2009/06/from-points-to-curves/#comments</comments>
		<pubDate>Tue, 02 Jun 2009 14:28:41 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[统计图示]]></category>
		<category><![CDATA[curve()]]></category>
		<category><![CDATA[gamma()]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[杀牛用铅笔刀]]></category>
		<category><![CDATA[画图]]></category>
		<category><![CDATA[通用办法]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1017</guid>
		<description><![CDATA[中的时候老师便教我们拿着直尺和圆规作图，那时候恐怕还没几个人会用电脑，直到初中毕业，我才第一次见电脑。那时候画曲线怎样画呢？记得就是在某个x区间上取一系列点，然后计算y = f(x)，把这些点描在笛卡尔坐标系中，然后用铅笔手工连起来。这个办法很笨很原始，但很有效，奇怪的是，到计算机如此发达的今天，仍然有人不断问如何用软件画曲线，仿佛中学时学的东西都还给数学老师了。例如，若干天前，有人问我如何用R画这个曲线： 我只好提醒他回忆中学的描点法。R里面的gamma()和curve()函数是现成的，把数学公式写成相应的代码就可以了： curve((sqrt(2) * gamma(x/2) * 2)/(sqrt(x - 1) * gamma(x - 1)), 2, 50) # 当然，如果你非要按照x = seq(2, 50, ...)然后计算f(x)然后plot(x, f(x), type = "l") # 那也可以，只不过curve()就是干这事的，不必麻烦分两步走了 如同某些网文说人一辈子的守则在幼儿园都已经教完了，就看你长大还记不记得。所以每当面对一个貌似复杂的问题时，首先要想想幼儿园有没有学过。 “武功再高，也怕菜刀”绝对是真理，哈哈。 爷还想看：2010/01/05 -- t检验方差不齐有多重要 (6)2009/12/08 -- 最近跟R core们经常打照面 (9)2009/12/04 -- 2009第一场雪和第二届中国R语言会议 (43)2009/10/10 -- R的第五万次SVN修改：看看R大佬们的工作时间分布 (9)2009/06/10 -- 用R语言和Flash以及JavaScript生成标签云 (7)]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2009/06/from-points-to-curves/"><span class="dropcap-none">初</span></a>中的时候老师便教我们拿着直尺和圆规作图，那时候恐怕还没几个人会用电脑，直到初中毕业，我才第一次见电脑。那时候画曲线怎样画呢？记得就是在某个<code>x</code>区间上取一系列点，然后计算<code>y = f(x)</code>，把这些点描在笛卡尔坐标系中，然后用铅笔手工连起来。这个办法很笨很原始，但很有效，奇怪的是，到计算机如此发达的今天，仍然有人不断问如何用软件画曲线，仿佛中学时学的东西都还给数学老师了。例如，若干天前，有人问我如何用R画这个曲线：</p>
<p style="text-align: center;"><img src="http://www.forkosh.dreamhost.com/mimetex.cgi?\normalsize f%28x%29%3D%28%5Csqrt%7B2%7D%2A%5CGamma%28x%2F2%29%2A2%29%2F%28%5Csqrt%7Bx-1%7D%2A%5CGamma%28x-1%29%29" title="f(x)=(\sqrt{2}*\Gamma(x/2)*2)/(\sqrt{x-1}*\Gamma(x-1))" alt="f(x)=(\sqrt{2}*\Gamma(x/2)*2)/(\sqrt{x-1}*\Gamma(x-1))" align="absmiddle" class="math" /></p>
<p>我只好提醒他回忆中学的描点法。R里面的<code>gamma()</code>和<code>curve()</code>函数是现成的，把数学公式写成相应的代码就可以了：</p>
<pre>curve((sqrt(2) * gamma(x/2) * 2)/(sqrt(x - 1) * gamma(x - 1)), 2, 50)
# 当然，如果你非要按照x = seq(2, 50, ...)然后计算f(x)然后plot(x, f(x), type = "l")
# 那也可以，只不过curve()就是干这事的，不必麻烦分两步走了</pre>
<p><div id="attachment_1019" class="wp-caption aligncenter" style="width: 490px"><a rel="attachment wp-att-1019" href="http://yihui.name/cn/2009/06/from-points-to-curves/curve-of-a-function/"><img class="size-full wp-image-1019" title="描点法画函数曲线" src="http://yihui.name/cn/wp-content/uploads/2009/06/curve-of-a-function.png" alt="描点法画函数曲线" width="480" height="350" /></a><p class="wp-caption-text">描点法画函数曲线</p></div>
<p>如同某些网文说人一辈子的守则在幼儿园都已经教完了，就看你长大还记不记得。所以每当面对一个貌似复杂的问题时，首先要想想幼儿园有没有学过。</p>
<p>“武功再高，也怕菜刀”绝对是真理，哈哈。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/01/05 -- <a href="http://yihui.name/cn/2010/01/unequal-variance-in-t-test/" title="t检验方差不齐有多重要">t检验方差不齐有多重要</a> (6)</li><li>2009/12/08 -- <a href="http://yihui.name/cn/2009/12/meeting-r-core-members/" title="最近跟R core们经常打照面">最近跟R core们经常打照面</a> (9)</li><li>2009/12/04 -- <a href="http://yihui.name/cn/2009/12/snow-in-ames-and-2nd-chinese-r-conference/" title="2009第一场雪和第二届中国R语言会议">2009第一场雪和第二届中国R语言会议</a> (43)</li><li>2009/10/10 -- <a href="http://yihui.name/cn/2009/10/50000-revisions-committed-to-r/" title="R的第五万次SVN修改：看看R大佬们的工作时间分布">R的第五万次SVN修改：看看R大佬们的工作时间分布</a> (9)</li><li>2009/06/10 -- <a href="http://yihui.name/cn/2009/06/creating-tag-cloud-using-r-and-flash-javascript/" title="用R语言和Flash以及JavaScript生成标签云">用R语言和Flash以及JavaScript生成标签云</a> (7)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/06/from-points-to-curves/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>第一期The R Journal和第一届中国R语言会议</title>
		<link>http://yihui.name/cn/2009/05/1st-volume-the-r-journal-and-1st-chinese-r-conference/</link>
		<comments>http://yihui.name/cn/2009/05/1st-volume-the-r-journal-and-1st-chinese-r-conference/#comments</comments>
		<pubDate>Sun, 31 May 2009 15:51:56 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[R 语言]]></category>
		<category><![CDATA[生活]]></category>
		<category><![CDATA[Felix Andrews]]></category>
		<category><![CDATA[John Maindonald]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[R News]]></category>
		<category><![CDATA[R语言会议]]></category>
		<category><![CDATA[The R Journal]]></category>
		<category><![CDATA[Torsten Hothorn]]></category>
		<category><![CDATA[useR! 2008]]></category>
		<category><![CDATA[Xuefei Mi]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1003</guid>
		<description><![CDATA[最近到处看到关于第一期The R Journal上线的消息，随便举几个例子，比如魏太云那嘎达、刘思喆那嘎达、陈钢那嘎达、Zhanwu Dai的邮件、Paulo那嘎达（blogspot又一次被和谐了）、David Smith那嘎达等等。 这次R Journal的面世，在R界是一件重大事情，R News这个刊名确实有点小家山寨，而其内容已经堪比正规统计刊物，所以更名The R Journal是理所当然的。之所以大家全都提到了这件事情我还要写这篇博文是因为： 我们第一届中国R语言会议的会议纪要发表在第一期R Journal上了，这是很有历史意义的。尽管当初主编大人说i suspect this will be a nice article，后来我也没收到其它邮件，于是应验了no news is good news，发表了。这里要向各位客官交代的是，我们的论文集在我的电脑里扔了半年也没整理，出版社也没再联系，抱歉抱歉。 我在这一期The R Journal上看到一个人：Xuefei Mi。遥想当年我在多特蒙德参加useR! 2008的时候，某一天下午散会之后在多特蒙德大学外面等火车，看见一位童鞋，看长相我琢磨着可能是日本人吧，他也瞅瞅我，最终开口了，原来都是中国人……在火车上简单聊了聊，得知他和Torsten Hothorn有某种关系（导师？忘了），如今在R Journal上又看见这位兄台的名字了。这世界是不是很小呢？ 前两条都还忍住了，当遇到第三件事情的时候，终于决定操起键盘写一下了。以前我曾经提到过Felix Andrews，也就是playwith和latticist包的作者，与Deepayan Sarkar合作了latticeExtra包。Felix今天给我写了个邮件，算是回复了我174天前给他的GTalk留言（邀请他来参加R会议），说在R Journal上看见会议纪要了，当时很忙所以没去参加，一堆英文下来，最后附了一句中文：他家小女儿还是那么可爱，哈哈，刚到Felix的网站找了找，可惜没找着照片（只有她在她妈妈肚子里时的照片）；Felix的中文也很流利了。话说Felix回到ANU建了一个堪培拉的R Group，我看他们每个月都组织活动，其实我们也可以组队，每次说这个事情都是没有带头人……眼看我也要撤了，希望北京能赶快诞生一个定期聚会的R小组啊。 总结：R在中国的繁荣昌盛不会太远了，但同志们需要大大努力。 爷还想看：2008/10/13 -- 开始邀请R Core成员投稿 (2)2009/03/22 -- 去年R会议的报告 (7)2009/03/08 -- 他说他的眼里只有R (1)2008/01/17 -- 读完了&#8221;Using R for Data Analysis and Graphics&#8221; [...]]]></description>
			<content:encoded><![CDATA[<p>最近到处看到关于第一期The R Journal上线的消息，随便举几个例子，比如<a href="http://hi.baidu.com/cloud_wei/blog/item/b7d2bf1605fb964221a4e968.html" target="_blank">魏太云那嘎达</a>、<a href="http://sunbjt.spaces.live.com/Blog/cns!C7F9ED721213E4F5!571.entry" target="_blank">刘思喆那嘎达</a>、<a href="http://www.gossipcoder.com/blog/2009/05/61" target="_blank">陈钢那嘎达</a>、Zhanwu Dai的邮件、<a href="http://onertipaday.blogspot.com/2009/05/r-journal-11.html" target="_blank">Paulo那嘎达</a>（blogspot又一次被和谐了）、<a href="http://blog.revolution-computing.com/2009/05/inaugural-issue-of-r-journal-now-available.html" target="_blank">David Smith那嘎达</a>等等。</p>
<p>这次R Journal的面世，在R界是一件重大事情，R News这个刊名确实有点小家山寨，而其内容已经堪比正规统计刊物，所以更名The R Journal是理所当然的。之所以大家全都提到了这件事情我还要写这篇博文是因为：<span class="inset-right">【插播广告：有哪位同学/老师愿意承担整理论文集的任务，请速速与我联系。这个任务包括：催促作者们完善论文（比如我个人的论文至今还没写完）、联系出版社、召集评委、排版等。谢谢！】</span></p>
<ol>
<li>我们<a href="http://cos.name/2008/12/1st-chinese-r-conference-summary/">第一届中国R语言会议的会议纪要</a>发表在第一期R Journal上了，这是很有历史意义的。尽管当初主编大人说<a href="http://yihui.name/cn/2009/03/1st-chinese-r-conference-report/">i suspect this will be a nice article</a>，后来我也没收到其它邮件，于是应验了no news is good news，发表了。这里要向各位客官交代的是，我们的论文集在我的电脑里扔了半年也没整理，出版社也没再联系，抱歉抱歉。</li>
<li>我在这一期The R Journal上看到一个人：Xuefei Mi。遥想当年<a href="http://yihui.name/cn/2008/08/germany-trip-3/">我在多特蒙德参加useR! 2008</a>的时候，某一天下午散会之后在多特蒙德大学外面等火车，看见一位童鞋，看长相我琢磨着可能是日本人吧，他也瞅瞅我，最终开口了，原来都是中国人……在火车上简单聊了聊，得知他和Torsten Hothorn有某种关系（导师？忘了），如今在R Journal上又看见这位兄台的名字了。这世界是不是很小呢？</li>
<li>前两条都还忍住了，当遇到第三件事情的时候，终于决定操起键盘写一下了。以前我<a href="http://yihui.name/cn/2008/11/going-to-australia/">曾经提到过</a>Felix Andrews，也就是<code>playwith</code>和<code>latticist</code>包的作者，与Deepayan Sarkar合作了<code>latticeExtra</code>包。Felix今天给我写了个邮件，算是回复了我174天前给他的GTalk留言（邀请他来参加R会议），说在R Journal上看见会议纪要了，当时很忙所以没去参加，一堆英文下来，最后附了一句中文：<div class="quote-green">秀月也好了。她每天全天说话，说得很流利。她喜欢我们家里的猫。</div>他家小女儿还是那么可爱，哈哈，刚到Felix的网站找了找，可惜没找着照片（只有她在她妈妈肚子里时的照片）；Felix的中文也很流利了。话说Felix回到ANU建了一个<a href="http://canrug.togaware.com/" target="_blank">堪培拉的R Group</a>，我看他们每个月都组织活动，其实我们也可以组队，每次说这个事情都是没有带头人……眼看我也要撤了，希望北京能赶快诞生一个定期聚会的R小组啊。</li>
</ol>
<p>总结：R在中国的繁荣昌盛不会太远了，但同志们需要大大努力。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2008/10/13 -- <a href="http://yihui.name/cn/2008/10/inviting-r-core-members/" title="开始邀请R Core成员投稿">开始邀请R Core成员投稿</a> (2)</li><li>2009/03/22 -- <a href="http://yihui.name/cn/2009/03/1st-chinese-r-conference-report/" title="去年R会议的报告">去年R会议的报告</a> (7)</li><li>2009/03/08 -- <a href="http://yihui.name/cn/2009/03/r-in-his-eyes/" title="他说他的眼里只有R">他说他的眼里只有R</a> (1)</li><li>2008/01/17 -- <a href="http://yihui.name/cn/2008/01/using-r-for-data-analysis-and-graphics/" title="读完了&#8221;Using R for Data Analysis and Graphics&#8221;">读完了&#8221;Using R for Data Analysis and Graphics&#8221;</a> (0)</li><li>2010/07/30 -- <a href="http://yihui.name/cn/2010/07/3rd-chinese-r-conference-beijing/" title="第三届中国R语言会议（北京）">第三届中国R语言会议（北京）</a> (1)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/05/1st-volume-the-r-journal-and-1st-chinese-r-conference/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>用Google Chart API展示简单的数据以及WordPress示例</title>
		<link>http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/</link>
		<comments>http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/#comments</comments>
		<pubDate>Sat, 30 May 2009 07:39:39 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[网站和网页]]></category>
		<category><![CDATA[Google Chart API]]></category>
		<category><![CDATA[JavaScript]]></category>
		<category><![CDATA[Venn图]]></category>
		<category><![CDATA[Wordpress]]></category>
		<category><![CDATA[可视化]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=995</guid>
		<description><![CDATA[oogle Chart API是很老的产品了（下文简称GCA），以前隐约听说过这么个东西，只是没觉得什么地方能用上，如果仅仅是单幅图形，还不如自己用软件画出来，而且自己画图比用GCA要方便灵活许多。这两天琢磨着网页里面有些简单的数字该如何显示给读者，比如几乎所有人的博客上都会显示阅读次数、评论条数等数据，这些数据是动态的，所以不适合静态图形展示，因此又想起GCA。简单来说，GCA就是用网址传递数据给Google的某个画图程序，Google画完之后把图形以PNG形式返回给你，你可以在网页中尽情使用。由于数据包含在网址中，因此很容易通过动态网页程序（如PHP）生成数据并写出网址。 1、从访问数和评论数生成Venn图 作为一个简单应用，我把原本枯燥的三个数字“用户（user）阅读次数”、“机器人（bot，网络爬虫）浏览次数”和“评论（comment）条数”用Venn图展示在每个条标题下的信息栏中了。对于学过与集合有关的课程（如概率论）的人来说，Venn图几乎是第一节课就会接触到的东西，它直观表明了几个集合之间的关系，如交集与并集。前面的三个数字中，user和bot交集为空，而user与comment的交集为comment，因为凡是发表评论的人必然要打开页面阅读。 Venn图的主要参数是7个数字，依次说明各个集合的大小：A, B, C, A∩B, A∩C, B∩C, A∩B∩C。这7个数字传给数据参数chd即可，如： http://chart.apis.google.com/chart?cht=v&#38;chs=300x300&#38;chd=t:100,80,60,30,25,20,10 生成图形： 需要图例的话，用chdl添加即可（用chdlp控制图例位置）。 我使用了WP PostViews Plus插件来记录阅读次数，用the_views()相关函数以及WP自己的函数comments_number()即可获得上面三个数据，echo到URL中，一幅图形就产生了。具体代码如下： &#60;?php if (function_exists('the_views')) { echo '&#60;li&#62;&#60;div align="center"&#62;'; echo '&#60;img src="http://chart.apis.google.com/chart?cht=v&#38;chd=t:' . the_user_views('',false) . ',' . the_bot_views('',false) . ','; comments_number('0','1','%'); echo ',0,'; comments_number('0','1','%'); echo ',0,0'; echo '&#38;chs=150x100&#38;chdl=user&#124;bot&#124;comment&#38;chdlp=b" alt="venn diagram: the number of user views, robot views and comments" [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/"><img class="alignright" title="Venn Diagram by Google Chart API" src="http://chart.apis.google.com/chart?cht=v&amp;chs=100x100&amp;chd=t:10,10,10,5,5,5,3" alt="Venn Diagram by Google Chart API" width="100" height="100" /></a><a href="http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/"><span class="dropcap">G</span></a>oogle Chart API是很老的产品了（下文简称GCA），以前隐约听说过这么个东西，只是没觉得什么地方能用上，如果仅仅是单幅图形，还不如自己用软件画出来，而且自己画图比用GCA要方便灵活许多。这两天琢磨着网页里面有些简单的数字该如何显示给读者，比如几乎所有人的博客上都会显示阅读次数、评论条数等数据，这些数据是动态的，所以不适合静态图形展示，因此又想起GCA。简单来说，GCA就是用网址传递数据给Google的某个画图程序，Google画完之后把图形以PNG形式返回给你，你可以在网页中尽情使用。由于数据包含在网址中，因此很容易通过动态网页程序（如PHP）生成数据并写出网址。</p>
<h1>1、从访问数和评论数生成Venn图</h1>
<p>作为一个简单应用，我把原本枯燥的三个数字“用户（user）阅读次数”、“机器人（bot，网络爬虫）浏览次数”和“评论（comment）条数”用Venn图展示在每个条标题下的信息栏中了。对于学过与集合有关的课程（如概率论）的人来说，Venn图几乎是第一节课就会接触到的东西，它直观表明了几个集合之间的关系，如交集与并集。前面的三个数字中，user和bot交集为空，而user与comment的交集为comment，因为凡是发表评论的人必然要打开页面阅读。</p>
<p>Venn图的主要参数是7个数字，依次说明各个集合的大小：A, B, C, A∩B, A∩C, B∩C, A∩B∩C。这7个数字传给数据参数<code>chd</code>即可，如：</p>
<pre>http://chart.apis.google.com/chart?cht=v&amp;chs=300x300&amp;chd=t:100,80,60,30,25,20,10</pre>
<p><span id="more-995"></span>生成图形：</p>
<div class="wp-caption aligncenter" style="width: 310px"><a href="http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/"><img title="Venn Diagram by Google Chart API" src="http://chart.apis.google.com/chart?cht=v&amp;chs=300x300&amp;chd=t:100,80,60,30,25,20,10" alt="Venn Diagram by Google Chart API" width="300" height="300" /></a><p class="wp-caption-text">Venn Diagram by Google Chart API</p></div>
<p>需要图例的话，用<code>chdl</code>添加即可（用<code>chdlp</code>控制图例位置）。</p>
<p>我使用了WP PostViews Plus插件来记录阅读次数，用<code>the_views()</code>相关函数以及WP自己的函数<code>comments_number()</code>即可获得上面三个数据，<code>echo</code>到URL中，一幅图形就产生了。具体代码如下：</p>
<pre>&lt;?php
if (function_exists('the_views')) {
	echo '&lt;li&gt;&lt;div align="center"&gt;';
	echo '&lt;img src="http://chart.apis.google.com/chart?cht=v&amp;chd=t:' .
		the_user_views('',false) . ',' . the_bot_views('',false) . ',';
	comments_number('0','1','%');
	echo ',0,';
	comments_number('0','1','%');
	echo ',0,0';
	echo '&amp;chs=150x100&amp;chdl=user|bot|comment&amp;chdlp=b"
	 alt="venn diagram: the number of user views, robot views and comments"
	 title="venn diagram: the number of user views, robot views and comments"
	 width="150" height="100"
	 onerror="setInterval(\'this.src=this.src;\',1000);" /&gt;&lt;/div&gt;&lt;/li&gt;';
}
?&gt;</pre>
<p>由于天朝对Google素来不友好，那伟大的墙无处不在，连这个图形API都可能被殃及，因此图形会间或性抽风显示不出来，我只好凑合着加了一句<code>onerror = "setInterval(\'this.src = this.src;\', 1000);"</code>，但发现基本上是自己一厢情愿的想象。如果遇到图形无法显示的时候，请刷新页面或点右键显示图形。</p>
<h1>2、解读Venn图</h1>
<p>这三个圈圈有神马好看的呢？稍微想一下也就知道了：</p>
<ul>
<li>如果<strong><span style="color: #339966;">机器人的圈圈</span></strong>比<strong><span style="color: #ff9900;">活人</span></strong>还大，那么这篇博客可能受活人冷落，平时只有网络爬虫来瞧瞧，如果你坚持要看这篇文章，那么你可以被定义为人类的离群点</li>
<li>如果评论的圈圈显得非常大，那么应该是一个火爆话题，如果哪天<strong><span style="color: #3366ff;">蓝圈圈</span></strong>和<strong><span style="color: #ff9900;">橙圈圈</span></strong>一样大了，那么<strong>赶快去叫你的娘子出来看上帝</strong>吧</li>
</ul>
<p>说了这么多，其实意义不太大，只是介绍一个工具，如果哪天你到了一个没有任何作图工具的裸机上而又需要用饼图向领导汇报工作的时候，那么不妨试试这个tooooold的Google Chart API。</p>
<h1>3、关于Google Chart API的延伸</h1>
<p>有程序开发癖的同志们看到这个东西也许会想，这玩意儿完全可以写一个PHP类或者R函数啊，前者似乎已经有人做过了，不过我瞅了一眼，貌似需要<code>urlencode()</code>一下；至于后者嘛，有了R干嘛还要Google Chart啊，不过这个API里面还是有几种图形在R里面不方便实现的，比如那个仪表和QR条码，如果有谁做了这件从R到Google Chart API的转化工作，请勿忘到这里来吼一声，让我知道我好去膜拜啊。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/06/10 -- <a href="http://yihui.name/cn/2009/06/creating-tag-cloud-using-r-and-flash-javascript/" title="用R语言和Flash以及JavaScript生成标签云">用R语言和Flash以及JavaScript生成标签云</a> (7)</li><li>2010/04/24 -- <a href="http://yihui.name/cn/2010/04/conditional-captcha-stops-spam-comments/" title="Conditional CAPTCHA：进一步阻拦垃圾评论">Conditional CAPTCHA：进一步阻拦垃圾评论</a> (15)</li><li>2009/05/24 -- <a href="http://yihui.name/cn/2009/05/php-301-redirect-from-bo-blog-to-wordpress/" title="PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作）">PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作）</a> (5)</li><li>2009/05/15 -- <a href="http://yihui.name/cn/2009/05/blank-long-post-in-wordpress-and-shortcode/" title="超长文章在Wordpress中不能显示的解决办法（与shortcode有关）">超长文章在Wordpress中不能显示的解决办法（与shortcode有关）</a> (2)</li><li>2009/05/10 -- <a href="http://yihui.name/cn/2009/05/turning-to-wordpress/" title="我也想转WP啊……">我也想转WP啊……</a> (19)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>PHP的301重定向（从Bo-Blog搬家到WordPress的后续工作）</title>
		<link>http://yihui.name/cn/2009/05/php-301-redirect-from-bo-blog-to-wordpress/</link>
		<comments>http://yihui.name/cn/2009/05/php-301-redirect-from-bo-blog-to-wordpress/#comments</comments>
		<pubDate>Sun, 24 May 2009 09:18:39 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[网站和网页]]></category>
		<category><![CDATA[$_SERVER]]></category>
		<category><![CDATA[301重定向]]></category>
		<category><![CDATA[404错误]]></category>
		<category><![CDATA[Bo-Blog]]></category>
		<category><![CDATA[header()]]></category>
		<category><![CDATA[mail()]]></category>
		<category><![CDATA[PHP]]></category>
		<category><![CDATA[RSS]]></category>
		<category><![CDATA[str_replace()]]></category>
		<category><![CDATA[urlencode()]]></category>
		<category><![CDATA[Wordpress]]></category>
		<category><![CDATA[搬家]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=963</guid>
		<description><![CDATA[客搬家之后不可避免会产生一大堆404错误，绝大部分原链接都失效了，不过好在动态网站系统的网址都是有规律的，因此把原来的网址重新定向也很容易，这里简单记录从Bo-Blog搬家到Wordpress的一些301重定向工作。PHP代码写得非常拙劣，各位看官见笑了，写出来为了将来要用到PHP的时候能找找自己以前写的例子。 1、RSS Feed：feed.php 对现代网民来说，RSS阅读器已经是看网页的必备工具，因此RSS种子的地址几乎是众多网址中最重要的一个。 Bo-Blog的feed.php文件在不带参数的时候是博客正文的RSS，带参数go的时候可能是评论，也可能是分类目录的RSS，因此需要在WP根目录下建一个feed.php文件，里面对参数作简单的判断，把原来的RSS重定向到WP的RSS中。以下代码只是本博客的转向，具体怎么写要根据具体搬家结果分析。 &#60;?php header("HTTP/1.1 301 Moved Permanently"); if(!isset($_REQUEST["go"])){ header("Location: http://$_SERVER[HTTP_HOST]/cn/?feed=rss2"); } else { $tmp = $_REQUEST["go"]; if ($tmp == 'comment') { header("Location: http://$_SERVER[HTTP_HOST]/cn/?feed=comments-rss2"); } else if (stripos($tmp, '_')) { $tmp = end(explode('_', $tmp)); if ($tmp == '2') { header("Location: http://$_SERVER[HTTP_HOST]/cn/?feed=rss2"); } else { header("Location: http://$_SERVER[HTTP_HOST]/cn/?feed=rss2&#38;cat=".$tmp); } } } ?&#62; 2、博客阅读页面：read.php 由于在Bo-Blog系统中我使用了链接地址优化（Rewrite），而搜索引擎收录的既有优化地址，也有动态地址，因此要判断一下地址究竟是哪种类型，然后把参数提取出来，传给WP。含有htm的地址是优化的地址，从中提取.htm之前的数字传给WP的p参数就可以到新的页面地址了。 &#60;?php [...]]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2009/05/php-301-redirect-from-bo-blog-to-wordpress/"><span class="dropcap-none">博</span></a>客搬家之后不可避免会产生一大堆404错误，绝大部分原链接都失效了，不过好在动态网站系统的网址都是有规律的，因此把原来的网址重新定向也很容易，这里简单记录从Bo-Blog搬家到Wordpress的一些301重定向工作。PHP代码写得非常拙劣，各位看官见笑了，写出来为了将来要用到PHP的时候能找找自己以前写的例子。</p>
<h1>1、RSS Feed：<code>feed.php</code></h1>
<p>对现代网民来说，RSS阅读器已经是看网页的必备工具，因此RSS种子的地址几乎是众多网址中最重要的一个。</p>
<p><span class="attention">插播不重要的通知：<br />
1、本站的RSS地址已经更改为：<em><a title="谢益辉中文博客RSS地址" href="http://yihui.name/cn/feed/">http://yihui.name/cn/feed/</a></em>，评论RSS为：<em><a title="谢益辉中文博客评论RSS地址" href="http://yihui.name/cn/comments/feed/">http://yihui.name/cn/comments/feed/</a></em>，请Google Reader中的读者即时更换。英文博客也类似，把cn改成en就可以了。<br />
2、如果你懒得换也行，反正我已经重定向了。 <img src='http://yihui.name/cn/wp-content/plugins/tango-smilies/tango/face-smile-big.png' alt=':grin:' class='wp-smiley' /><br />
</span>
<p>Bo-Blog的<code>feed.php</code>文件在不带参数的时候是博客正文的RSS，带参数<code>go</code>的时候可能是评论，也可能是分类目录的RSS，因此需要在WP根目录下建一个<code>feed.php</code>文件，里面对参数作简单的判断，把原来的RSS重定向到WP的RSS中。以下代码只是本博客的转向，具体怎么写要根据具体搬家结果分析。</p>
<span class="notice">我的博客搬家过程中，分类数字2不知为何被搬家程序略过了，因此当分类数字为2的时候特殊处理，否则从原来的<code>go</code>参数中提取分类数字，传给WP的<code>cat</code>参数。</span>
<pre>&lt;?php
header("HTTP/1.1 301 Moved Permanently");

if(!isset($_REQUEST["go"])){
	header("Location: http://$_SERVER[HTTP_HOST]/cn/?feed=rss2");
} else {
	$tmp = $_REQUEST["go"];
	if ($tmp == 'comment') {
		header("Location: http://$_SERVER[HTTP_HOST]/cn/?feed=comments-rss2");
	} else if (stripos($tmp, '_')) {
		$tmp = end(explode('_', $tmp));
		if ($tmp == '2') {
			header("Location: http://$_SERVER[HTTP_HOST]/cn/?feed=rss2");
		} else {
			header("Location: http://$_SERVER[HTTP_HOST]/cn/?feed=rss2&amp;cat=".$tmp);
		}
	}
}
?&gt;</pre>
<p><span id="more-963"></span></p>
<h1>2、博客阅读页面：<code>read.php</code></h1>
<p>由于在Bo-Blog系统中我使用了链接地址优化（Rewrite），而搜索引擎收录的既有优化地址，也有动态地址，因此要判断一下地址究竟是哪种类型，然后把参数提取出来，传给WP。含有htm的地址是优化的地址，从中提取<code>.htm</code>之前的数字传给WP的<code>p</code>参数就可以到新的页面地址了。</p>
<span class="notice">英文博客搬家过程中，日志的数字ID和新系统对不上，那些ID&gt;2的日志都被<code>+=1</code>了，所以中间对英文日志ID作了特殊处理。变量<code>$prefix</code>用来判断是中文还是英文站。</span>
<pre>&lt;?php
header("HTTP/1.1 301 Moved Permanently");

$info = ($_SERVER["REQUEST_URI"]) ? $_SERVER["REQUEST_URI"] : $_ENV["REQUEST_URI"];
$prefix = substr($info, 1, 2);
$entry = array_keys($_REQUEST);

if(strpos($info, 'htm')) {
	$tmp = pathinfo($info, PATHINFO_FILENAME);
	if ($prefix == 'en') {
		if ($tmp &gt; 2) {
			$tmp += 1;
		}
	}
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?p=".$tmp);
} else {
	if(count($entry) &gt; 0) {
		$tmp = $entry[0];
		if (stripos($tmp, '_')) {
			$tmp = end(explode('_', $tmp));
		}
		if ($prefix == 'en') {
			if ($tmp &gt; 2) {
				$tmp += 1;
			}
		}
		header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?p=".$tmp);
	} else {
		header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
	}
}
?&gt;</pre>
<h1>3、标签页面：<code>tag.php</code></h1>
<p>我觉得如果没有标签的话，这世上的网页会减少一半。用<code>site:</code>命令在Google中一看就知道，一个小破站，却有几千个页面被搜索引擎收录，而真正的日志不过上百篇而已，那多出来的页面几乎都是各种导航页面，其中就包括标签导航。鉴于标签这么重要，原来的<code>tag.php</code>自然要加上、改写一下了。</p>
<span class="notice">在我原来的系统中，由于标签是空格分隔，导致我只好以下划线_把一些英文字句连起来，现在WP中是以逗号分隔，而且标签有别名（空格被替换为-），因此原来的标签中，下划线要被替换为-，所以用到了<code>str_replace()</code>函数。在重定向之前要严重注意<code>tag</code>参数已经被解码了，因此需要重新编码！（即：<code>urlencode()</code>）</span>
<pre>&lt;?php
header("HTTP/1.1 301 Moved Permanently");

if(!isset($_REQUEST["tag"])){
	header("Location: http://$_SERVER[HTTP_HOST]/cn/");
} else {
	header("Location: http://$_SERVER[HTTP_HOST]/cn/?tag=" .
		urlencode(str_replace('_','-',$_REQUEST["tag"])));
}
?&gt;</pre>
<h1>4、其它页面的重定向</h1>
<p>我喜欢WP系统的一个重要原因就是它的各个文件分工非常明确，模板系统也是如此，所有的模板系统中都可以用一个<code>404.php</code>来出来404错误。除了上面三个重定向之外，大约还剩下70%的页面重定向没有完成（不要惊愕于这个工作的复杂性），如：按日期的归档、精华文章、评论页面、分类显示、附件下载和登录页面等等。由于这些页面一般都是被搜索引擎以静态地址收录的，所以不能像前面那样写PHP文件完成重定向，只能根据网址来逐个判断，把原地址转向新地址。其中有无数的细节要注意，如原来的星标日志对应新系统中的featured分类文章、两个系统的分类ID的对应关系等。综上，这个<code>404.php</code>便极度冗长。</p>
<span class="notice">怎么知道你的网站是否有404错误呢？在WP中，只需要在<code>404.php</code>文件中用<code>mail()</code>函数往你的邮箱发报告就可以了。我将不能成功重定向的页面都发到<code>404@yihui.name</code>了，看看<code>$_SERVER</code>变量，大概就知道是哪一页出错了，以及是活人点的链接还是搜索引擎的蜘蛛人在看我的页面。</span>
<pre>&lt;?php
$info = $_SERVER['REQUEST_URI'];
$prefix = substr($info, 1, 2);

if (strpos($info, '/index')) {
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
} else if (strpos($info, '/post/')) {
	header("HTTP/1.1 301 Moved Permanently");
	$tmp = current(explode('_', pathinfo($info, PATHINFO_FILENAME)));
	if ($prefix == 'en') {
		if ($tmp &gt; 2) {
			$tmp += 1;
		}
	}
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?p=".$tmp);
} else if (strpos($info, '/star')) {
	header("HTTP/1.1 301 Moved Permanently");
	$tmp = $prefix=='cn' ? 618 : 150;
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?cat=".$tmp);
} else if (strpos($info, '/view')) {
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?feed=comments-rss2");
} else if (strpos($info, '/category')) {
	header("HTTP/1.1 301 Moved Permanently");
	$tmp = explode('_', pathinfo($info, PATHINFO_FILENAME));
	if ($prefix == 'cn') {
		if (count($tmp) &gt; 1) {
			if ($tmp[1] == '2') {
				header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
			} else {
				header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?cat=" .
				    $tmp[1]);
			}
		} else {
			header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
		}
	} else {
		$catmap = array('7' =&gt; 6, '8' =&gt; 7, '9' =&gt; 9, '0' =&gt; 117, '1' =&gt; 11, '2' =&gt; 147,
                                          '6' =&gt; 12, '10' =&gt; 148, '3' =&gt; 4, '4' =&gt; 8, '5' =&gt; 10);
		if (count($tmp) &gt; 1) {
			if (array_search($tmp[1], array_keys($catmap)) !== false) {
				header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?cat=" .
				    $catmap[$tmp[1]]);
			} else {
				header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
			}
		} else {
			header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
		}
	}
} else if (strpos($info, '/archive')) {
	header("HTTP/1.1 301 Moved Permanently");
	$tmp = explode('_', pathinfo($info, PATHINFO_FILENAME));
	if (count($tmp) &gt; 2) {
		if (strlen($tmp[1]) == 1) {
			$tmp[1] = '0'.$tmp[1];
		}
		if ($tmp[2] &lt; 2007 || $tmp[2] &gt; 2009) {
			header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
		} else {
			header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?m=".$tmp[2].$tmp[1]);
		}
	} else {
		header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
	}
} else if (strpos($info, '/showday')) {
	header("HTTP/1.1 301 Moved Permanently");
	$tmp = explode('_', pathinfo($info, PATHINFO_FILENAME));
	if (count($tmp) &gt; 3) {
		if (strlen($tmp[2]) == 1) {
			$tmp[2] = '0'.$tmp[2];
		}
		if (strlen($tmp[3]) == 1) {
			$tmp[3] = '0'.$tmp[3];
		}
		if ($tmp[2] &lt; 2007 || $tmp[2] &gt; 2009) {
			header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
		} else {
			header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?m=".$tmp[1] .
				$tmp[2].$tmp[3]);
		}
	} else {
		header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
	}
} else if (strpos($info, '/attachment')) {
	header("HTTP/1.1 301 Moved Permanently");
	$tmp = pathinfo(urldecode($info), PATHINFO_BASENAME);
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/wp-content/uploads/".$tmp);
} else if (strpos($info, '?tag=')) {
	header("HTTP/1.1 301 Moved Permanently");
	$tmp = '';
	if (isset($_REQUEST["tag"])) {
		$tmp = $_REQUEST["tag"];
	}
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?tag=".$tmp);
} else if ($info == '/'.$prefix.'/tag/') {
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
} else if (strpos($info, 'read.php')) {
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/?p=" .
		pathinfo($info, PATHINFO_FILENAME));
} else if (strpos($info, 'links.php')) {
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
} else if (strpos($info, 'cv_yihui')) {
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://$_SERVER[HTTP_HOST]/cv/cv_yihui_".$prefix.".htm");
} else if (strpos($info, 'visit.php')) {
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
} else if (strpos($info, 'securitycode.php')) {
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
} else if (strpos($info, 'login.php')) {
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/wp-login.php");
}

else {

//if(array_search($ext, array('gif', 'js', 'png', 'jpg', 'jpeg', 'css')) !== false) {
if (strpos($info, '/images/js') || strpos($info, '/images/lightbox')
		|| strpos($info, '/images/arrows') || strpos($info, '/template/fighting/')
		|| strpos($info, '/emot/thumbnail/') || strpos($info, '/editor/ubb/')
		|| strpos($info, '/images/r.css') || strpos($info, '/images/others')
		|| strpos($info, '/images/weather') || strpos($info, '/images/weather')
		|| strpos($info, 'jslang.js')) {
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://$_SERVER[HTTP_HOST]/".$prefix."/");
} else {
	mail('404@yihui.name',
			"Invalid link: " . urldecode($info),
			'Request page: http://yihui.name' . $info . PHP_EOL .
			 'Referer: ' . $_SERVER['HTTP_REFERER']. PHP_EOL .
			  print_r($_SERVER, true),
			"From: Yihui Xie &lt;xie@yihui.name&gt;");
}

?&gt;

&lt;?php get_header(); ?&gt;

&lt;div id="wrapper"&gt;

	&lt;div id="home_content"&gt;

		&lt;div class="post"&gt;
		  &lt;p&gt;Sorry, I'm changing my blog system now; if the page you are looking for
		  doesn't exist, please visit
		  &lt;a href="http://yihui.name/&lt;?php echo $prefix; ?&gt;/"&gt;http://yihui.name/
		  &lt;?php echo $prefix; ?&gt;/&lt;/a&gt;.
		  I'll fix the original links soon. Thanks!&lt;/p&gt;
		  &lt;p&gt;&lt;img src="&lt;?php bloginfo('template_directory'); ?&gt;/images/mal.jpg"
		  alt="a questioning duck" class="errorduck" /&gt;
	          &lt;/p&gt;
		&lt;/div&gt;

		&lt;div class="main_meta"&gt;
			&lt;ul&gt;
				&lt;li&gt;Mal the Error Duck says, "Uh oh! 404! That means the page you are
				looking for doesn't exist, at least not anymore."&lt;/li&gt;
			&lt;/ul&gt;
    &lt;h2&gt;Latest &lt;?php print(isset($getOptions["num_posts"])?$getOptions["num_posts"]:"10"); ?&gt;
        articles&lt;/h2&gt;
	&lt;ul&gt;
			&lt;?php get_archives('postbypost',
				isset($getOptions["num_posts"]) ? $getOptions["num_posts"]:10,
				'', '&lt;li&gt;', '&lt;/li&gt;'); ?&gt;
	&lt;/ul&gt;
		&lt;/div&gt;

    &lt;/div&gt;

&lt;/div&gt;

&lt;?php get_footer(); ?&gt;

&lt;?php } ?&gt;</pre>
<p>然后就每天看看邮件报告，有没有出现新的404错误，能解决的话就在上面的代码中加上一条<code>if</code>语句。</p>
<p>看看，搬个家容易嘛我。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/05/10 -- <a href="http://yihui.name/cn/2009/05/turning-to-wordpress/" title="我也想转WP啊……">我也想转WP啊……</a> (19)</li><li>2010/04/24 -- <a href="http://yihui.name/cn/2010/04/conditional-captcha-stops-spam-comments/" title="Conditional CAPTCHA：进一步阻拦垃圾评论">Conditional CAPTCHA：进一步阻拦垃圾评论</a> (15)</li><li>2010/02/02 -- <a href="http://yihui.name/cn/2010/02/a-big-thank-you-to-linlin-yan/" title="特别致谢颜林林对COS的贡献">特别致谢颜林林对COS的贡献</a> (6)</li><li>2009/06/10 -- <a href="http://yihui.name/cn/2009/06/creating-tag-cloud-using-r-and-flash-javascript/" title="用R语言和Flash以及JavaScript生成标签云">用R语言和Flash以及JavaScript生成标签云</a> (7)</li><li>2009/05/30 -- <a href="http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/" title="用Google Chart API展示简单的数据以及WordPress示例">用Google Chart API展示简单的数据以及WordPress示例</a> (5)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/05/php-301-redirect-from-bo-blog-to-wordpress/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>MySQL数据库操作笔记若干</title>
		<link>http://yihui.name/cn/2009/05/mysql-database-manipulation-notes/</link>
		<comments>http://yihui.name/cn/2009/05/mysql-database-manipulation-notes/#comments</comments>
		<pubDate>Fri, 22 May 2009 06:00:59 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[计算机应用]]></category>
		<category><![CDATA[INTERVAL]]></category>
		<category><![CDATA[MySQL]]></category>
		<category><![CDATA[REPLACE]]></category>
		<category><![CDATA[SQL]]></category>
		<category><![CDATA[UPDATE]]></category>
		<category><![CDATA[数据库]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=956</guid>
		<description><![CDATA[学习最好的方法莫过于实践，最快的途径莫过于示例，这段时间网站搬家，迫使我不断去看一些SQL操作方法，最终记载于此，以便将来参考。 1、时间操作 例：将GMT时间更改为GMT+8，可用INTERVAL把一段时间加到一个字段上。 UPDATE `wpcn_posts` SET `post_date` = `post_date_gmt` + INTERVAL 8 HOUR WHERE `post_date_gmt` = `post_date` 本例是为了对付Bo-Blog搬家到WP时大部分时间记录都没有被正确转换到GMT+8时区的问题。 2、字符查找替换 例：将某个图片的错误文件名更改为正确文件名。 UPDATE `wpcn_comments` SET `comment_content` = REPLACE ( `comment_content`, 'emot/ok', 'emot/pig' ) WHERE `comment_content` LIKE '%emot/ok%' 本例是为了对付Bo-Blog的pig.gif图片文件名被错误替换为ok.gif的问题，用到了REPLACE函数和LIKE操作符，注意LIKE后面的字段用%%匹配，而非*。 3、用R帮忙 例：批量更新日志的永久链接。 cat(sprintf("UPDATE `wpen_posts` SET post_name = '%s' WHERE ID =%d;", x[, 3], x[, 1]), sep = "\n") 由于我不知道SQL里面如何用数组或向量，因此在批量处理的时候就用笨办法执行了，即：写n条SQL语句一起执行。R一向都是向量化操作，因此只需要把日志的ID和post_name准备好，然后用一个sprintf()就生成所有的SQL语句了，扔到phpMyAdmin中执行一下，所有的日志链接就更新了，省得把每一篇日志打开依次修改。 [...]]]></description>
			<content:encoded><![CDATA[<p>学习最好的方法莫过于实践，最快的途径莫过于示例，这段时间网站搬家，迫使我不断去看一些SQL操作方法，最终记载于此，以便将来参考。</p>
<h1>1、时间操作</h1>
<p>例：将GMT时间更改为GMT+8，可用<code>INTERVAL</code>把一段时间加到一个字段上。</p>
<pre>UPDATE `wpcn_posts` SET `post_date` = `post_date_gmt` + INTERVAL 8 HOUR
  WHERE `post_date_gmt` = `post_date`</pre>
<p>本例是为了对付Bo-Blog搬家到WP时大部分时间记录都没有被正确转换到GMT+8时区的问题。</p>
<h1>2、字符查找替换</h1>
<p>例：将某个图片的错误文件名更改为正确文件名。</p>
<pre>UPDATE `wpcn_comments` SET `comment_content` = REPLACE (
`comment_content`,
'emot/ok',
'emot/pig'
)
WHERE `comment_content` LIKE '%emot/ok%'</pre>
<p>本例是为了对付Bo-Blog的pig.gif图片文件名被错误替换为ok.gif的问题，用到了<code>REPLACE</code>函数和<code>LIKE</code>操作符，注意<code>LIKE</code>后面的字段用<code>%%</code>匹配，而非<code>*</code>。</p>
<h1>3、用R帮忙</h1>
<p>例：批量更新日志的永久链接。</p>
<pre>cat(sprintf("UPDATE `wpen_posts` SET post_name = '%s' WHERE ID =%d;",
    x[, 3], x[, 1]), sep = "\n")</pre>
<p>由于我不知道SQL里面如何用数组或向量，因此在批量处理的时候就用笨办法执行了，即：写n条SQL语句一起执行。R一向都是向量化操作，因此只需要把日志的ID和post_name准备好，然后用一个<code>sprintf()</code>就生成所有的SQL语句了，扔到phpMyAdmin中执行一下，所有的日志链接就更新了，省得把每一篇日志打开依次修改。</p>
<p>以上R语句生成如下结果：</p>
<pre>UPDATE `wpen_posts` SET post_name = 'tidy-up-your-r-code' WHERE ID =1;
UPDATE `wpen_posts` SET post_name = 'dare-be-defeated' WHERE ID =2;
....</pre>
<p>插一句，对于英文日志，永久链接就是把空格替换为-，用正则表达式删掉不是<code>[:alnum:]</code>的字符即可。</p>
<h1>4、用<code>mysqldump</code>备份数据库</h1>
<p>这个命令可以以多种形式备份MySQL数据库，这里举例将数据库备份为<code>*.sql</code>的SQL语句脚本：</p>
<pre>mysqldump -u db_user -p -r result_filename.sql database_name</pre>
<p>由于<code>mysqldump</code>命令是独立的程序，所以不要先登录进mysql界面，直接在终端或command窗口运行即可。这样的备份文件可以在将来在mysql中用<code>source</code>命令导入：</p>
<pre>source result_filename.sql</pre>
<p>这样看来备份数据库也是很容易的事情，不过导入导出的时候可能会遇到编码问题。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/06/19 -- <a href="http://yihui.name/cn/2009/06/how-to-build-a-website-as-a-dummy/" title="新手教程：建立网站的全套流程与详细解释">新手教程：建立网站的全套流程与详细解释</a> (23)</li><li>2010/02/02 -- <a href="http://yihui.name/cn/2010/02/a-big-thank-you-to-linlin-yan/" title="特别致谢颜林林对COS的贡献">特别致谢颜林林对COS的贡献</a> (6)</li><li>2008/12/01 -- <a href="http://yihui.name/cn/2008/12/two-excellent-boys/" title="赞两位小伙儿">赞两位小伙儿</a> (4)</li><li>2007/11/17 -- <a href="http://yihui.name/cn/2007/11/ubuntu-server/" title="Ubuntu Server：两眼一抹黑">Ubuntu Server：两眼一抹黑</a> (2)</li><li>2007/09/13 -- <a href="http://yihui.name/cn/2007/09/search-for-unread-emails/" title="查找未阅读邮件的计算机手">查找未阅读邮件的计算机手</a> (5)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/05/mysql-database-manipulation-notes/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>拿小概率事件说事：中央政治局常委对年轻人的七项忠告</title>
		<link>http://yihui.name/cn/2009/05/rare-event-rarely-happens/</link>
		<comments>http://yihui.name/cn/2009/05/rare-event-rarely-happens/#comments</comments>
		<pubDate>Wed, 20 May 2009 14:43:10 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[生活]]></category>
		<category><![CDATA[假设检验]]></category>
		<category><![CDATA[小样本]]></category>
		<category><![CDATA[小概率事件]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=719</guid>
		<description><![CDATA[果我们时刻扛着假设检验的大旗，那么网络上很多文字便不攻自破。据我的总结，网文容易犯的问题有：（1）拿小概率事件说事，说得就像一不小心就能发生了；（2）拿小样本说事，也就是俗话说的“一杆子打翻一船人”，看那些反美反日反法反**的文章，几乎一律如此，激动起来恨不得因为一个人灭了那一群人。以下的“忠告”，看起来似乎很好，似乎什么背景对前途都没关系，但说到底，每一点都是小概率事件。 第一不要怕学校不理想，贾庆林的母校到现在也没几个人知道&#8212;&#8212;石家庄工业学院； 第二不要怕短暂的停留，李长春毕业后曾经留校两年待分配； 第三不要怕起点低,吴邦国毕业后直接进厂当了工人，况且一干就是10年； 第四不要怕条件苦，胡锦涛参加工作时就在甘肃的大山里修水电站，居然还被评为劳模； 第五不要怕地方偏，温家宝在甘肃修水库一直到四十岁才进机关； 第六不要怕提拔慢，贺国强三十七岁才当上车间主任； 第七看完后赶紧去做自己的事情，别以为自己真能当常委……! 例如我们的各位core们有多大比例出身于某工业学院？有多少毕业了找不到工作？有多少毕业就当工人的？……把每个概率算算，就直接看第七条好了。 爷还想看：2009/02/27 -- 统计分布的检验 (11)2008/09/23 -- 一种新的检验方法：眼球检验（Eyeball Test）【请路人帮忙】 (12)2008/05/02 -- 不再接受关于结构方程模型的咨询 (8)2007/09/09 -- 什么叫“统计意义”——莫名其妙的称谓 (7)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/05/rare-event-rarely-happens/"><span class="dropcap-blue">如</span></a>果我们时刻扛着假设检验的大旗，那么网络上很多文字便不攻自破。据我的总结，网文容易犯的问题有：（1）拿小概率事件说事，说得就像一不小心就能发生了；（2）拿小样本说事，也就是俗话说的“一杆子打翻一船人”，看那些反美反日反法反**的文章，几乎一律如此，激动起来恨不得因为一个人灭了那一群人。以下的“忠告”，看起来似乎很好，似乎什么背景对前途都没关系，但说到底，每一点都是小概率事件。</p>
<blockquote><p>第一不要怕学校不理想，贾庆林的母校到现在也没几个人知道&#8212;&#8212;石家庄工业学院；<br />
第二不要怕短暂的停留，李长春毕业后曾经留校两年待分配；<br />
第三不要怕起点低,吴邦国毕业后直接进厂当了工人，况且一干就是10年；<br />
第四不要怕条件苦，胡锦涛参加工作时就在甘肃的大山里修水电站，居然还被评为劳模；<br />
第五不要怕地方偏，温家宝在甘肃修水库一直到四十岁才进机关；<br />
第六不要怕提拔慢，贺国强三十七岁才当上车间主任；<br />
第七看完后赶紧去做自己的事情，别以为自己真能当常委……!</p></blockquote>
<p>例如我们的各位core们有多大比例出身于某工业学院？有多少毕业了找不到工作？有多少毕业就当工人的？……把每个概率算算，就直接看第七条好了。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/02/27 -- <a href="http://yihui.name/cn/2009/02/test-statistical-distributions/" title="统计分布的检验">统计分布的检验</a> (11)</li><li>2008/09/23 -- <a href="http://yihui.name/cn/2008/09/eyeball-test-fake-coin/" title="一种新的检验方法：眼球检验（Eyeball Test）【请路人帮忙】">一种新的检验方法：眼球检验（Eyeball Test）【请路人帮忙】</a> (12)</li><li>2008/05/02 -- <a href="http://yihui.name/cn/2008/05/no-more-consultation-about-structural-equation-models/" title="不再接受关于结构方程模型的咨询">不再接受关于结构方程模型的咨询</a> (8)</li><li>2007/09/09 -- <a href="http://yihui.name/cn/2007/09/strange-statistical-significance/" title="什么叫“统计意义”——莫名其妙的称谓">什么叫“统计意义”——莫名其妙的称谓</a> (7)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/05/rare-event-rarely-happens/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>超长文章在WordPress中不能显示的解决办法（与shortcode有关）</title>
		<link>http://yihui.name/cn/2009/05/blank-long-post-in-wordpress-and-shortcode/</link>
		<comments>http://yihui.name/cn/2009/05/blank-long-post-in-wordpress-and-shortcode/#comments</comments>
		<pubDate>Fri, 15 May 2009 09:14:14 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[网站和网页]]></category>
		<category><![CDATA[shortcode]]></category>
		<category><![CDATA[Wordpress]]></category>
		<category><![CDATA[博客]]></category>
		<category><![CDATA[正则表达式]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=704</guid>
		<description><![CDATA[两天捣鼓Wordpress，遇到了无数的问题，估计Google不下百次，有些问题实在诡异，不过幸好都让我找到了答案。例如，昨天被这个问题搞得几乎崩溃：有的帖子在更新发布之后就变成空白了，刚开始我以为是数据库连接问题，后来在phpMyAdmin中检查了一遍又一遍，甚至直接更改数据库，都没法让文章显示出来，于是又去查codex，看the_content()等函数，依旧无果。最后在千般尝试下，发现把文章删除一部分文字之后就可以显示出来了，于是我意识到这与被删的文字有关，但从未听说Wordpress系统对文章内容有审查啊，所以应该不是关键词过滤的问题，我于是一句一句话地删除，看删到哪里之后文章就发不出了，最后统计了一下字节数，但这个数字对解决问题根本没用，因为不能因此就避免长文章。 我想来想去，想到了可能是插件的问题，由于需要“头文字”效果，我安装了TinyCode插件，它的内部用到了WP的shortcode。在将TinyCode禁用的情况下，长文章可以显示，问题便找到了：出在shortcode上。继续Google，发现几个月前有人出现了类似的问题，一位德国高手提供了解决方案，修改/wp-includes/shortcodes.php文件。找到： function get_shortcode_regex() { global $shortcode_tags; $tagnames = array_keys($shortcode_tags); $tagregexp = join( '&#124;', array_map('preg_quote', $tagnames) ); return '\[('.$tagregexp.')\b(.*?)(?:(\/))?\](?:(.+?)\[\/\1\])?'; } 将正则表达式替换为： return '\[('.$tagregexp.')\b([^\]]*?)(\/)?\](?:(.+?)\[\/\1\])?'; 这样问题便解决了。Wordpress这么完善的系统也会有Bug…… 爷还想看：2010/04/24 -- Conditional CAPTCHA：进一步阻拦垃圾评论 (15)2009/06/19 -- 新手教程：建立网站的全套流程与详细解释 (23)2009/06/10 -- 用R语言和Flash以及JavaScript生成标签云 (7)2009/05/30 -- 用Google Chart API展示简单的数据以及WordPress示例 (5)2009/05/24 -- PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作） (5)]]></description>
			<content:encoded><![CDATA[<span class="alert">2009-06-14更新：自从WordPress 2.8开始，这里的正则表达式又变了，经本人测试，<code>'(.?)\[('.$tagregexp.')\b([^\[\]\r\n]*?)(?:(\/))?\](?:(.+?)\[\/\2\])?(.?)'</code>是有效的。</span>
<p><a href="http://yihui.name/cn/2009/05/blank-long-post-in-wordpress-and-shortcode/"><span class="dropcap-grey">这</span></a>两天捣鼓Wordpress，遇到了无数的问题，估计Google不下百次，有些问题实在诡异，不过幸好都让我找到了答案。例如，昨天被这个问题搞得几乎崩溃：有的帖子在更新发布之后就变成空白了，刚开始我以为是数据库连接问题，后来在phpMyAdmin中检查了一遍又一遍，甚至直接更改数据库，都没法让文章显示出来，于是又去查codex，看<code>the_content()</code>等函数，依旧无果。最后在千般尝试下，发现把文章删除一部分文字之后就可以显示出来了，于是我意识到这与被删的文字有关，但从未听说Wordpress系统对文章内容有审查啊，所以应该不是关键词过滤的问题，我于是一句一句话地删除，看删到哪里之后文章就发不出了，最后统计了一下字节数，但这个数字对解决问题根本没用，因为不能因此就避免长文章。</p>
<p>我想来想去，想到了可能是插件的问题，由于需要“头文字”效果，我安装了TinyCode插件，它的内部用到了WP的shortcode。在将TinyCode禁用的情况下，长文章可以显示，问题便找到了：出在shortcode上。继续Google，发现几个月前有人出现了类似的问题，一位德国高手提供了解决方案，修改<code>/wp-includes/shortcodes.php</code>文件。找到：</p>
<pre>function get_shortcode_regex() {
	global $shortcode_tags;
	$tagnames = array_keys($shortcode_tags);
	$tagregexp = join( '|', array_map('preg_quote', $tagnames) );

	return '\[('.$tagregexp.')\b(.*?)(?:(\/))?\](?:(.+?)\[\/\1\])?';
}</pre>
<p>将正则表达式替换为：</p>
<pre>	return '\[('.$tagregexp.')\b([^\]]*?)(\/)?\](?:(.+?)\[\/\1\])?';</pre>
<p>这样问题便解决了。Wordpress这么完善的系统也会有Bug……</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/04/24 -- <a href="http://yihui.name/cn/2010/04/conditional-captcha-stops-spam-comments/" title="Conditional CAPTCHA：进一步阻拦垃圾评论">Conditional CAPTCHA：进一步阻拦垃圾评论</a> (15)</li><li>2009/06/19 -- <a href="http://yihui.name/cn/2009/06/how-to-build-a-website-as-a-dummy/" title="新手教程：建立网站的全套流程与详细解释">新手教程：建立网站的全套流程与详细解释</a> (23)</li><li>2009/06/10 -- <a href="http://yihui.name/cn/2009/06/creating-tag-cloud-using-r-and-flash-javascript/" title="用R语言和Flash以及JavaScript生成标签云">用R语言和Flash以及JavaScript生成标签云</a> (7)</li><li>2009/05/30 -- <a href="http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/" title="用Google Chart API展示简单的数据以及WordPress示例">用Google Chart API展示简单的数据以及WordPress示例</a> (5)</li><li>2009/05/24 -- <a href="http://yihui.name/cn/2009/05/php-301-redirect-from-bo-blog-to-wordpress/" title="PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作）">PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作）</a> (5)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/05/blank-long-post-in-wordpress-and-shortcode/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>我也想转WP啊……</title>
		<link>http://yihui.name/cn/2009/05/turning-to-wordpress/</link>
		<comments>http://yihui.name/cn/2009/05/turning-to-wordpress/#comments</comments>
		<pubDate>Sun, 10 May 2009 12:09:37 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[网站和网页]]></category>
		<category><![CDATA[Wordpress]]></category>
		<category><![CDATA[搬家]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=293</guid>
		<description><![CDATA[说我也早就想用WP了，只是嫌换系统麻烦。今日遇见一位女博主，着实吓了我一跳。网上溜达这些年，还真没见过哪位lady会自个儿捣鼓PHP+MySQL之类的东西。溜了一圈，发现这位大人也是从别的博客系统转入Wordpress的，继而发现已经有从Bo-blog转到WP的教程了。于是乎，还看什么看？搬！ 爷还想看：2009/05/24 -- PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作） (5)2010/04/24 -- Conditional CAPTCHA：进一步阻拦垃圾评论 (15)2009/06/10 -- 用R语言和Flash以及JavaScript生成标签云 (7)2009/05/30 -- 用Google Chart API展示简单的数据以及WordPress示例 (5)2009/05/15 -- 超长文章在Wordpress中不能显示的解决办法（与shortcode有关） (2)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2009/05/turning-to-wordpress/"><span class="dropcap-red">话</span></a>说我也早就想用WP了，只是嫌换系统麻烦。今日遇见一位<a title="http://www.loyhome.cn" href="http://www.loyhome.cn" target="_blank">女博主</a>，着实吓了我一跳。网上溜达这些年，还真没见过哪位lady会自个儿捣鼓PHP+MySQL之类的东西。溜了一圈，发现这位大人也是从别的博客系统转入Wordpress的，继而发现已经有从Bo-blog转到WP的教程了。于是乎，还看什么看？搬！</p>
<p align="center"><img src="http://yihui.name/cn/wp-content/uploads/1241957340_0.jpg" border="0" alt="" /></p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2009/05/24 -- <a href="http://yihui.name/cn/2009/05/php-301-redirect-from-bo-blog-to-wordpress/" title="PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作）">PHP的301重定向（从Bo-Blog搬家到Wordpress的后续工作）</a> (5)</li><li>2010/04/24 -- <a href="http://yihui.name/cn/2010/04/conditional-captcha-stops-spam-comments/" title="Conditional CAPTCHA：进一步阻拦垃圾评论">Conditional CAPTCHA：进一步阻拦垃圾评论</a> (15)</li><li>2009/06/10 -- <a href="http://yihui.name/cn/2009/06/creating-tag-cloud-using-r-and-flash-javascript/" title="用R语言和Flash以及JavaScript生成标签云">用R语言和Flash以及JavaScript生成标签云</a> (7)</li><li>2009/05/30 -- <a href="http://yihui.name/cn/2009/05/visualize-simple-data-with-google-chart-api/" title="用Google Chart API展示简单的数据以及WordPress示例">用Google Chart API展示简单的数据以及WordPress示例</a> (5)</li><li>2009/05/15 -- <a href="http://yihui.name/cn/2009/05/blank-long-post-in-wordpress-and-shortcode/" title="超长文章在Wordpress中不能显示的解决办法（与shortcode有关）">超长文章在Wordpress中不能显示的解决办法（与shortcode有关）</a> (2)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2009/05/turning-to-wordpress/feed/</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
	</channel>
</rss>
