<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Keep on Fighting! &#187; 自由度</title>
	<atom:link href="http://yihui.name/cn/tag/%e8%87%aa%e7%94%b1%e5%ba%a6/feed/" rel="self" type="application/rss+xml" />
	<link>http://yihui.name/cn</link>
	<description>谢益辉</description>
	<lastBuildDate>Sat, 31 Jul 2010 03:17:03 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		
<!-- Start Of Script Generated By WP-PostViews Plus -->
<script type='text/javascript' src='http://yihui.name/cn/wp-includes/js/jquery/jquery.js?ver=1.3.2'></script>
<script type="text/javascript">
/* <![CDATA[ */
/* ]]> */
</script>
<!-- End Of Script Generated By WP-PostViews Plus -->
	<item>
		<title>t检验方差不齐有多重要</title>
		<link>http://yihui.name/cn/2010/01/unequal-variance-in-t-test/</link>
		<comments>http://yihui.name/cn/2010/01/unequal-variance-in-t-test/#comments</comments>
		<pubDate>Tue, 05 Jan 2010 21:02:56 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[推荐]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[统计计算]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Satterthwaite]]></category>
		<category><![CDATA[t检验]]></category>
		<category><![CDATA[Welch校正]]></category>
		<category><![CDATA[数值模拟]]></category>
		<category><![CDATA[方差齐性]]></category>
		<category><![CDATA[自由度]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=1238</guid>
		<description><![CDATA[统统计教科书大多会提及t检验中方差齐性这个问题，因为检验的假设条件是需要总体方差相等的。然而这个问题实际上可能并没有人们想象的那么重要，这里给两个简单的数值计算结果，看看方差不等对检验结果有什么影响。
par(mar = c(4, 4, 0.5, 0.5), mfrow = c(1, 2))
set.seed(123)
plot(pval &#60;- t(replicate(1000, {
    x1 = rnorm(100, mean = 0, sd = runif(1, 0.5, 1))
    x2 = rnorm(100, mean = 1, sd = runif(1, 2, 5))
    c(t.test(x1, x2, var.equal = TRUE)$p.value, t.test(x1, x2,
     [...]]]></description>
			<content:encoded><![CDATA[<a href="http://yihui.name/cn/2010/01/unequal-variance-in-t-test/"><span class="dropcap-green">传</span></a>统统计教科书大多会提及t检验中方差齐性这个问题，因为检验的假设条件是需要总体方差相等的。然而这个问题实际上可能并没有人们想象的那么重要，这里给两个简单的数值计算结果，看看方差不等对检验结果有什么影响。</p>
<pre>par(mar = c(4, 4, 0.5, 0.5), mfrow = c(1, 2))
set.seed(123)
plot(pval &lt;- t(replicate(1000, {
    x1 = rnorm(100, mean = 0, sd = runif(1, 0.5, 1))
    x2 = rnorm(100, mean = 1, sd = runif(1, 2, 5))
    c(t.test(x1, x2, var.equal = TRUE)$p.value, t.test(x1, x2,
        var.equal = FALSE)$p.value)
})), xlab = "P-value: equal variance", ylab = "P-value: unequal variance",
    pch = 20, asp = 1)
abline(0, 1)
plot(pval[, 1], pval[, 2] - pval[, 1], xlab = "P-value: equal variance",
    ylab = "Diff of p-values (unequal var - equal var)", pch = 20)
</pre>
<p>过程是：从两个正态总体中生成样本，第一个总体均值为0，标准差随机取自<code>U(0.5, 1)</code>，第二个总体均值为1，标准差取自<code>U(2, 5)</code>，显然两个总体标准差不相等，那么在t检验时设定和不设定方差相等的选项对结果有多大影响？把两种情况的P值都画出来：左图是原始P值，可见基本在对角线上，说明大致相等，若眼神儿不好，可看右图，即P值的差异，可见方差不等时P值偏大（原因很简单，因为Welch校正的自由度小于等于不校正的自由度，样本量相等的时候统计量的分母即标准误一样，因此统计量完全一样，自由度越小，P值越大嘛），但大多少呢？其实也没大多少。</p>
<p><div id="attachment_1239" class="wp-caption aligncenter" style="width: 610px"><img class="size-full wp-image-1239" title="方差齐与不齐时t检验的结果对照" src="http://yihui.name/cn/wp-content/uploads/2010/01/t-test-unequal-variance.png" alt="方差齐与不齐时t检验的结果对照" width="600" height="300" /><p class="wp-caption-text">方差齐与不齐时t检验的结果对照</p></div>
<p><span id="more-1238"></span>Welch/Satterthwaite当然不是吃饱了没事干，要校正自由度当然也是有用武之地的，尤其是当样本量严重不相等时，这两者的结果就差远了。把第一个样本量改成10，然后如法炮制：</p>
<pre>par(mar = c(4, 4, 0.5, 0.5), mfrow = c(1, 2))
set.seed(123)
plot(pval &lt;- t(replicate(1000, {
    x1 = rnorm(10, mean = 0, sd = runif(1, 0.5, 1))
    x2 = rnorm(100, mean = 1, sd = runif(1, 2, 5))
    c(t.test(x1, x2, var.equal = TRUE)$p.value, t.test(x1, x2,
        var.equal = FALSE)$p.value)
})), xlab = "P-value: equal variance", ylab = "P-value: unequal variance",
    pch = 20, asp = 1)
abline(0, 1)
abline(h = 0.05, v = 0.05, col = "gray")
plot(pval[, 1], pval[, 2] - pval[, 1], xlab = "P-value: equal variance",
    ylab = "Diff of p-values (unequal var - equal var)", pch = 20)
</pre>
<div id="attachment_1240" class="wp-caption aligncenter" style="width: 610px"><img class="size-full wp-image-1240" title="方差齐与不齐时t检验的结果对照（样本量不同）" src="http://yihui.name/cn/wp-content/uploads/2010/01/t-test-unequal-variance-sample-size.png" alt="方差齐与不齐时t检验的结果对照（样本量不同）" width="600" height="300" /><p class="wp-caption-text">方差齐与不齐时t检验的结果对照（样本量不同）</p></div>
<p>这文章，上COS主站寒酸了点，有人能扩展一下就好了。不过这个过程倒是可以提醒广大人民群众避免“路见不平一声吼，吼完继续往前走”，尤其是懒得翻公式的人（像我这样），遇见问题，可以偷懒用计算的方法找答案。</p>
<p>附“大家来找茬”一则：第二次的代码和第一次有啥不一样（除了样本量变了之外）？为啥有这么个变化？这小子想干啥？</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2008/12/24 -- <a href="http://yihui.name/cn/2008/12/speed-of-computing-square-root/" title="开平方的速度">开平方的速度</a> (6)</li><li>2008/10/07 -- <a href="http://yihui.name/cn/2008/10/why-avoid-excel-in-statistics/" title="再谈为什么不用Excel做统计分析">再谈为什么不用Excel做统计分析</a> (0)</li><li>2010/04/14 -- <a href="http://yihui.name/cn/2010/04/stat-computation-math-logic/" title="统计计算与数学推导及逻辑分析">统计计算与数学推导及逻辑分析</a> (2)</li><li>2009/12/08 -- <a href="http://yihui.name/cn/2009/12/meeting-r-core-members/" title="最近跟R core们经常打照面">最近跟R core们经常打照面</a> (9)</li><li>2009/12/04 -- <a href="http://yihui.name/cn/2009/12/snow-in-ames-and-2nd-chinese-r-conference/" title="2009第一场雪和第二届中国R语言会议">2009第一场雪和第二届中国R语言会议</a> (43)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2010/01/unequal-variance-in-t-test/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>自由度与自由</title>
		<link>http://yihui.name/cn/2007/10/degree-of-freedom/</link>
		<comments>http://yihui.name/cn/2007/10/degree-of-freedom/#comments</comments>
		<pubDate>Wed, 03 Oct 2007 15:43:24 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[数据分析]]></category>
		<category><![CDATA[t分布]]></category>
		<category><![CDATA[正态分布]]></category>
		<category><![CDATA[自由度]]></category>

		<guid isPermaLink="false">http://yihui.name/cn/?p=41</guid>
		<description><![CDATA[从来不觉得对“自由度”这个概念作出解释有什么用，或者说，把自由度与自由挂钩是一件没什么意义的事情。常常见人问，“为什么自由度是n &#8211; p -1（或者其它数值）”这样的问题，我认为，数学上证明了统计量有什么样的性质就足够了，干嘛要费尽心思去解释DF这个数字呢。自由度说到底在统计学里面最终是用到了某个统计分布的参数中（比如χ2、t或F分布等），是否解释数值的由来对于解决问题毫无帮助。样本标准差用n作分母对总体标准差的估计来说是有偏估计，用n &#8211; 1就是无偏估计了，非要琢磨一下这个-1是为什么吗？有的整数自由度琢磨半天也许七拼八凑能找出一种解释方式，那要是遇上分数的自由度呢，怎么凑？（样本量不相等、总体方差也不相等的两独立样本t检验往往就是这样，t分布的自由度不是整数）
Wikipedia上对于&#8220;Degree of Freedom&#8221;的解释也比较空洞，寥寥数语讲了一件盒子里摆球的故事，很简单，但也不知道用意何在（这是Wikipedia上至今为止第一个我看了之后觉得没讲清楚的页面）。
不过在搜索&#8221;Degree of Freedom&#8221;的时候倒是发现了这个网页，里面关于正态分布和t分布的解释仍然像一些教科书一样给人一个完全糊涂的概念，认为用Z还是用t取决于样本量，大于30就正态了，否则就只能用t。扯啊。当然，它关于自由度的解释也仍然是：糊涂。
爷还想看：2010/01/05 -- t检验方差不齐有多重要 (6)2009/02/25 -- 正态分布与统计教条主义 (9)2009/02/19 -- 正态分布变量和均匀分布变量分别的累加有什么关系 (4)2009/01/07 -- 小蝌蚪找妈妈、钟形曲线与核密度估计 (6)2008/10/19 -- Java比R更容易表达连续型动画 (2)]]></description>
			<content:encoded><![CDATA[<p><a href="http://yihui.name/cn/2007/10/degree-of-freedom/"><span class="dropcap">我</span></a>从来不觉得对“自由度”这个概念作出解释有什么用，或者说，把自由度与自由挂钩是一件没什么意义的事情。常常见人问，“为什么自由度是<span style="font-family: Bitstream Vera Sans Mono,courier new,monospace">n &#8211; p -1</span>（或者其它数值）”这样的问题，我认为，数学上证明了统计量有什么样的性质就足够了，干嘛要费尽心思去解释DF这个数字呢。自由度说到底在统计学里面最终是用到了<strong>某个统计分布的参数</strong>中（比如χ<sup>2</sup>、t或F分布等），是否解释数值的由来对于解决问题毫无帮助。样本标准差用<span style="font-family: Bitstream Vera Sans Mono,courier new,monospace">n</span>作分母对总体标准差的估计来说是有偏估计，用<span style="font-family: Bitstream Vera Sans Mono,courier new,monospace">n &#8211; 1</span>就是无偏估计了，非要琢磨一下这个<span style="font-family: Bitstream Vera Sans Mono,courier new,monospace">-1</span>是为什么吗？有的<strong>整数</strong>自由度琢磨半天也许七拼八凑能找出一种解释方式，那要是遇上<strong>分数</strong>的自由度呢，怎么凑？（样本量不相等、总体方差也不相等的两独立样本t检验往往就是这样，t分布的自由度不是整数）</p>
<p>Wikipedia上对于<a title="Wikipedia上关于自由度的解释" href="http://en.wikipedia.org/wiki/Degrees_of_freedom_%28statistics%29" target="_blank">&#8220;Degree of Freedom&#8221;的解释</a>也比较空洞，寥寥数语讲了一件盒子里摆球的故事，很简单，但也不知道用意何在（这是Wikipedia上至今为止第一个我看了之后觉得没讲清楚的页面）。</p>
<p>不过在搜索&#8221;Degree of Freedom&#8221;的时候倒是发现了<a href="http://www.bized.co.uk/timeweb/digging/dig_source_dof.htm" target="_blank">这个网页</a>，里面关于正态分布和t分布的解释仍然像一些教科书一样给人一个完全糊涂的概念，认为用Z还是用t取决于样本量，大于30就正态了，否则就只能用t。扯啊。当然，它关于自由度的解释也仍然是：糊涂。</p>
<h2  class="related_post_title">爷还想看：</h2><ul class="related_post"><li>2010/01/05 -- <a href="http://yihui.name/cn/2010/01/unequal-variance-in-t-test/" title="t检验方差不齐有多重要">t检验方差不齐有多重要</a> (6)</li><li>2009/02/25 -- <a href="http://yihui.name/cn/2009/02/gaussian-distribution-and-statistical-dogmatism/" title="正态分布与统计教条主义">正态分布与统计教条主义</a> (9)</li><li>2009/02/19 -- <a href="http://yihui.name/cn/2009/02/cumsum-of-normal-var-and-uniform-var/" title="正态分布变量和均匀分布变量分别的累加有什么关系">正态分布变量和均匀分布变量分别的累加有什么关系</a> (4)</li><li>2009/01/07 -- <a href="http://yihui.name/cn/2009/01/bell-shaped-curve-and-density-estimation/" title="小蝌蚪找妈妈、钟形曲线与核密度估计">小蝌蚪找妈妈、钟形曲线与核密度估计</a> (6)</li><li>2008/10/19 -- <a href="http://yihui.name/cn/2008/10/java-is-better-than-r-in-animation/" title="Java比R更容易表达连续型动画">Java比R更容易表达连续型动画</a> (2)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://yihui.name/cn/2007/10/degree-of-freedom/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
	</channel>
</rss>
