数据收集

收集数据的方法

152010

流浪荡云儿提到

我最近想做下关于大学生挂科率影响因素。但是我感觉在出调查问卷的时候,很多人不会将自己的挂科情况如实反应,这该怎么办?还有变量之间或多或少都有一定的相关性,这该怎么办啊?

又及:

只是老师布置的期末作业——选择合适的题目,收集相应的数据,建立统计模型,进行统计分析,直到你认为满意为止(咱们老师的原话)。是不是我的题目选的不好啊?

再及:

如果直接访谈的话,我感觉暨很费时间,而且结果也不一定准确(其中也会受很多因素的影响),如果用回归的话,做问卷我可以改成匿名形式,只是变量的选取和设定变的有难度(对于我来说)

原本这是一个如何保护受访者隐私的问题。这种问题有一些经典的解决办法,比如让受访者自己抛硬币,如果正面就回答“是否挂过科”,反面就回答“宿舍电话最后一位数字是否是奇数”,访员不干涉受访者填问卷的过程,最终我们也不知道受访者的硬币是正面还是反面(从而不知道他们究竟回答的是哪个问题),只知道他们回答了多少“是”和“否”。只要样本量充分大,我们就知道挂科的比例了。

至于变量间的相关性,这不是问题,因为世上完全独立的变量似乎还没生出来。即使再独立,不还存在所谓的“蝴蝶效应”么?退一步讲,回归也没有要求自变量相互独立,相关性太强也有解决办法。

十二 262009

情缘起于段炼同学9天前给我看的他的一篇博客:统计数字是不是拍脑袋出来的?87.53%。当时我在考试,没太仔细琢磨这件事情;现在邮件处理到了这一封,于是一层一层链接都打开来看,越看越摇头。这统计学在大家眼中敢情成了找借口的高级工具?抑或凡是有不正常的数字现象,都可以找到可能的“统计学”原因?这也太杯具了。

这个87.53%已经被证实只是个玩笑。在众多(只顾怀疑、相互抄袭、转载、或来路不明的)博客文章中,段炼的角度显然和所有人都不一样,他把所有的百分比数据的搜索频数都下载了下来,大家一看就知道,87.53这个数字本身并没有什么奇怪的,你去搜87.52或87.54都一样。众人纷纷解释这个0.53(100人中哪里来的0.53个人),不知道谁第一个提起了置信区间,总之我刚才看到的杯具有(考虑了一下,不是啥好事,就不给链接了):

……在计算样本容量的时候要考虑一个置信区间的问题,也就是说调查了100个人,但是并不认为这100个人都是认真作答的,因此会在样本容量上再乘上一个置信度

置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。

第一种说法简直错了十万八千里,我闻所未闻,真是木有想到,置信度原来还有这种功效;第二种说法是对置信区间常见的误解;我正欲吐血时,竟然看见了维基百科的身影:置信区间。这下是真的杯具了,维基上赫然写着:

052008

原帖在这里;下载链接请点击此处

顺路行个方便,免得大家浪费时间。

WWW.YIHUI.NAME XIE@YIHUI.NAME © 2007 - 2010 by Yihui Xie