做统计假设检验的同志们注意了,今天我们介绍一种新的检验方法,姑且称之为“眼球检验”,顾名思义,也就是用你的一对眼珠子去完成检验。
问题来源于Dennis Lin的课堂作业,说是有两份抛硬币得到的结果,1代表正面,0代表反面,两份结果如下:
(A) 11110000000000100000101100000100000101001111001100 01111110010110110101101001111001100011011101100000 10001001111110100100001011001011101101110001010010 01100111111100011100101000101001110011100010100111 (B) 01110010010010100010011110010100010011010111001110 01111011010111101101001000111001101011010101101001 00101001110110100100001110101101101001110101100110 01110011110110001110011010111001110011110010100111
现在请问你觉得哪份结果可能是作弊(或者哪枚硬币不均匀)?
Lin在课堂上提供了三种方法:(1)求和,看正面朝上的次数是否正常;(2)求游程数,看游程的数目是否正常;(3)游程最大长度是否正常(连续出现最多的0或1的长度)。我觉得这三个统计量的分布用简单的概率论都可以推导出来,不过Lin主张用Monte Carlo方法偷懒去做,也就是随机模拟长度为200的伯努利分布序列(p = 0.5),然后看三种统计量的分布如何,再看从以上样本计算出的统计量是否处于极端的位置,由此得到P值。这都是正道,而我通常是喜欢研究旁门左道的人,我琢磨着能否用眼珠子直接看出来哪份结果可疑,因此本次节目想拿各位路人做一个心理认知试验。说明如下:
A和B的序列在下面的Flash动画中分别由x1(上)和x2(下)表示,我用阶梯状的线图表示硬币正正反反的变化,从图中对硬币翻转了多少次以及每次保持一面的长度多长都能有一个大致的了解,比如B的翻转次数是不是更密集?A保持同一面不变的长度是不是更长?等等。更多信息请各位客官仔细观察,我就不加干扰了,免得影响判断。中间的图形表示随机模拟的序列,这个模拟在不断进行,每次你们看到的都是一串长度为200的伯努利随机数,注意拿它和上下两幅图分别做对比,看模拟的图与两幅实际样本图中的哪幅更像?当然,越是觉得实际和模拟差异明显,那就越说明该硬币有问题(或记录者作弊了),因为大量的模拟所扮演的角色就是真实的母体。那么究竟哪个是母体的“孩子”呢?请在后面给出你的猜测,谢谢!【点击放大Flash】
我不是完全在开玩笑,国外有人真的做过这方面的理论,将假设检验的理论与图形检验的理论对应,不过时间太长我忘了是谁。如果lixiaoxu老师看到这篇日志,还请对这个试验多多提出宝贵建议:)
你这个方法的确很新颖啊
个人感觉B硬币可能不均匀。
期待谢博士和其他高手给出更精辟的评论
这个动画做得很有意思。
数学心理学经典文献上的案例是问,已知独立地抛硬币,看到TTTTTFFFFF的概率和TFFTTTFFTF的概率哪个大。人的认知本能会把后者和一大堆类似的基本事件搅和在一起,所以后者在认知中是一个更大事件集合的代表,被代表的集合概率更大。–我现在讲课都宁可费点唾沫说事件集合四个字,似乎所有学生都不知道概率以及p值是定义在集合上。感觉的是基本事件,知觉的是事件集合。
纯粹从统计上说,这是H1相对H0方向的问题。只要是连续分布,任何基本事件概率都是0,只要H1作特别的定义,观测到的都可以作为极端事件,号称属于某个小概率拒绝域。如果我们看到有人报告的实验数据qq图笔直,就Post hoc地认为丫显著地伪造数据。但如果我们看到的是直方图,也许就没法Post hoc出这个H1。
另外一个有关的判断题是:如果已经知道样本顺序被随机地打乱过,还要不要做DW检验。
以序列A和序列B的呈现方式,认知中的差异主要在序列自相关,不是在单次实验的分布。如果呈现的是经验分布图,AB可能没差别。
数学心理学中对概率统计的认知研究主题十有八九是有限理性。人脑对真实分布许多特征的辨别是很差的,比如我在课上随便捞个自由度比较小的t分布密度图,问,谁有把握说它是t还是z?没有参照线的时候,所有人都没把握区分出二者。但如果是偏度不同的分布,知觉就很敏感。
x1
感觉x1稀疏一点
感觉这个方法很有意思阿~按你的说法看下来,我觉得中间的和上面的更像
谢谢!其他人不要受别人结论的影响,自己独立判断啊
你有时间的话可以用数值的方法验证一下你的判断,或者直接Email问我答案:xie [at] yihui [dot] name
最近正好有人想邀我投稿给一本心理学方面的论文集,所以就想起干脆在这里搞一个心理试验好了。我做完这个动画之后突然考虑起来“经验分布”在这个试验中的意义,想得不是太明白,但我有种感觉,这种不断重复产生的随机数的印象在我们脑中逐渐积累,等积累多了我们也就对真实分布有了大致的意识,这和那格里文科定理有相当的类似之处——n趋于无穷时,经验分布趋于真实分布。动画的效果就是不断增加n,让人们在脑子里对分布的形状进行积累,于是最后人的意识也会趋于真实分布的形状。这样无形中(有点像“潜意识”)也就可以判断A和B硬币在真实分布中的位置了。
如果打乱了样本的顺序,自相关就没有意义了,DW检验应该也没意义。
我已经有意无意提醒路人观察正反面改变次数以及正反面持续的最大长度了,剩下的事情就是看他们观察的数量和A、B的数量去比较了,这个差异应该比t和z的差异要大一些(我现在的看法已经有点Post hoc了……)
谢谢,也就是你认为x2像是伪造记录喽?
看来眼球检验还真的有效啊:)