Yihui Xie

搜索结果频数的小小应用

谢益辉 / 2005-11-05


这几天给王星老师打杂,一直忙着翻译一本Computational Statistics的书中的一部分,其中的数学专业名词让我大伤脑筋,因此没少用Baidu和Google,今日在此介绍我自己发明的一些搜索引擎用法。学统计的有个特点,就是比较注意数字,因为整天跟数据打交道嘛,不过我也不知道其他人是否有这个特征,至少我自己是这样的吧。

注意到每个搜索引擎在列出搜索结果的同时,也会列出一项数据,就是找到了多少篇网页(当然还有搜索用时多少),例如百度:“百度一下,找到相关网页约48,000篇,用时0.001秒 ”;Google:“简体中文网页中,约有 255 项符合贝耶斯的查询结果,以下是第 1 - 10 项。 (搜索用时 0.34 秒)”。

若是装装样子吓唬吓唬别人,我可以说这就是“频数”啊!(估计不懂统计的外行就会以极其崇拜的眼神看着我:哇,原来除了贾俊平老师书中之外,在这里也会有频数出现啊?)各位看官先别吐,听我继续说:频数具有某种特定特征的数据的个数(我没有用贾老的定义,自己编的“谢氏定义”),既然是一个数目,那么就可以跟其他数比较大小(旁白:你TM废话!这还用你说?)。比较频数大小的意义在于看数据的集中趋势,说到现在才说到了正道上。

数据的集中趋势,在实际应用中可以有多种解释。在这里,对于网络搜索引擎的结果数目数据(频数),我们知道这是“具有或包含搜索关键词(这就是前面所说的‘特定特征’)的所有收录网页的数目”,哪个关键词所搜索出来的网页数目多,也就表示网页内容向这个关键词的集中程度越高,换句话说,就是这个关键词在网页中使用的频率越高。

为什么要比较关键词的使用频率呢?我举个例子,比如翻译人名“Bayes”,到底是译作“贝耶斯”呢还是译作“贝叶斯”呢?我需要了解大家的翻译习惯,因此可以使用Baidu分别搜索一下这两个词,得到的结果分别是“百度一下,找到相关网页约1,080篇,用时0.001秒”和“百度一下,找到相关网页约48,000篇,用时0.001秒”,很明显,使用“贝叶斯”的网页比“贝耶斯”远远要多!因此,译作“贝叶斯”是比较符合大家的习惯的。

大家认为频数分析低级也好,弱智也好,白痴也好,不管怎么说,我觉得重要的不在于方法,而在于细心的观察和巧妙的应用。方法本身只有难易繁简之分,而无高低之分,就像我前面一篇文章“强者·境界·智慧”中所说,“境界有大小,不以是而分优劣”。