陈丽云这篇博客“真的是只大狐狸吗?对江西财经陈军昌博士的探究”让我想起一个长期以来我关心的一个话题。我对陈军昌这个人本身不如我对他的摘要的兴趣大,此君提到:
本文预言:在不久的未来,计算机技术将会借助非线性问题的进展彻底占据经济学的主流地位。这项技术不再是简单的用于经验数据的回归预测,而将成为主流形式化逻辑。 本文作者甚至计划在将来使用纯计算机程序的形式化逻辑写作一篇经济学论文。
我完全相信这段预言。倒不是说我觉得这种做法是对的,只是在目前可见的范围内,我严重怀疑堆积如山的经济学论文是否还需要人的脑子,我甚至想象,给一个Sweave模板,提供几个参数(如欲选择用什么模型、生成什么样式的图形),然后把数据读进来用R跑一遍,一篇论文就自动生成了,加上LaTeX本身就显得正式,这种论文一定人模狗样的,很能忽悠人。比如:
\Sexpr{names(dat)[1]}的均值为\Sexpr{mean(dat[ ,1])},标准差为 xxx。图\ref{...}为\Sexpr{figname[1]}:……
\Sexpr{modname[1]}模型显示,斜率项为\Sexpr{coef(dat.lm)[2]}(t 检验结果为\Sexpr{ifelse{coef(summary(dat.lm))[2,4]<0.05, '显著', '不显著'}})。
把目前主流杂志上的经济学论文遍历一下,总结一个八股规则,生成统计分析部分。至于结尾嘛,就把所有论文的结论部分分条存在一个数据库中,随机抽取5条就可以了,反正大家的结论都很NB,都对社会主义建设有重大意义。
调侃归调侃。如果这位陈博士的论文真的能被广为接受的话,我估摸着将来大多数期刊是不是要去喝西北风了。以上是经济学界的事情,与我没啥关系,暂不多说。还是回头说统计。
今天在R-sig-teaching列表中读到一组讨论,让我连连拍大腿!楼主的帖子在这里,当我看到4楼Douglas Bates的回帖之后,大为激动。举几个例子:
- 能做密度估计了还要啥直方图呀,扔进垃圾堆吧
- 能做关于分布概率的精确计算了还讲啥近似啊(如用泊松去逼近二项)
- 有了P值还讲个鬼alpha啊(以及临界值、拒绝域)
- 回归系数在计算机中不是直接用X’X求逆计算的(如R语言),还讲个鬼的简化公式
啊,直接交待一下目标是最小化残差平方和,剩下的工作要么讲真正的计算,要么讲如何建模、如何检验残差等
很解恨,很过瘾。最近看那些考研题,要是按照这些标准,简直要杀掉80%的题。然后看看统计的专业课,我想杀掉20%的内容应该是没问题的。
Hadley的跟帖:
- 查表的内容也该扔掉(如查正态分布函数值)
早就该扔了。
忍了又忍,实在想发一句牢骚,COS论坛上有些问题让人真是哭笑不得。某大哥(or大姐)在R里写了个程序,关了R再打开,就说找不到之前辛辛苦苦写的程序了,问应该怎样保存,又问该怎样打开已保存的文件。我没有任何笑话的意思,但我实在觉得这种问题凡是会用计算机的人都应该明白。
9号通宵大战,总算大致赶完了一篇报告。这个通宵让我创下了42小时不睡觉的记录,其惨烈程度可想而知。这篇 报告的主题是针对人口抽样调查数据进行分析,得出地区人口素质的一些描述性结论。其实我的相当大一部分时间都花在了处理数据上面,因为数据比较庞大,一共 有260万行、90个变量,数据文件大小在FoxPro存储格式下为424M,首先我要想办法将 FoxPro数据转化为一般常见的数据库格式,因此将之导出为dBase IV(*.dbf),这样SPSS就可以读了(当然也可以用R的RODBC包读), 从dBase IV转为SPSS格式(*.sav)之后文件大小变为约1.5G,但很容易就能找出减小数据文件大小的办法:将以文本形式(String)表示的数字转化 为数值型(Numeric)即可(其实这份数据中的大部分数值都是用文本形式保存的,除非以零开头,都可以直接转换为数值形式)——我并不了解真正的 SPSS存储形式,但我猜测对于字符数据,至少要比数值数据多两个引号吧。初步整理之后,文件大小能缩减到400多M,当然我是不会直接用SPSS来作分 析的,因为速度太慢,一个变量的频数统计就要花半分钟时间,我可没那么多时间和耐心去等。最终我采用的办法是将数据存为纯文本格式,具体来说是逗号分隔符 数据(*.csv),然后开始用R来作分析。到这里,数据的预处理仍然没有结束,我为了让分析做得更快,又采取了一个策略:将每一列变量都单独存为一个数 据文件。要达到这样的目的,当然要首先把每一列变量提取出来,那么怎样依次提取变量呢?方法很简单,用SQL的select语句即可。文本文件当然也可以 当作数据库来处理,因为Windows一般会有文本文件的ODBC Driver,利用R的RODBC包结合SQL的select语句,变量就可以顺利被选择出来了。
网络最大的好处在于省去了很多跑腿的时间,而不在于有QQ可以聊天。Windows的远程桌面连接也算是节省跑腿功夫的一种办法,它可以通过网络让我们从自己的计算机连接到远程计算机,连接上之后就如同真正登录到那台计算机的系统一样,我们可以进行系统管理员的几乎所有操作。
设置很简单,必要条件是要在远程系统的Windows防火墙(控制面板–>Windows防火墙)中打开系统对远程桌面连接的限制(如下图),然后就可以从自己的计算机登录该远程计算机了,不过这里还有一个小前提——远程计算机的管理员必须设置密码!这样我们才可以用管理员的帐号和密码登录。
如果想用两台电脑同时干活,或者同学同事谁的电脑出问题了,都可以采用这种方法登录操作,但我现在不知道远程连接究竟会占用本机多大的内存,通过任务管理器,似乎也没看到远程桌面连接很明显占用了多少内存。

最近评论