维希特分布(Wishart)的分布密度

这是伟大的SEM工程之——Wishart分布篇！要用最大似然估计（ML）的话，目前似乎只有这一条路可走，今日强忍着看多元统计分析的书没吐出来，实在是佩服张尧庭老师，他简直不是人——只能说是神¹……其中用到的高等代数证明我几乎一个都没看懂，汗如雨下。此分布由Wishart于1928年推导出来（因此我认为Wishart也不是人），据称有人就用这个时间作为多元统计分析的诞生时间，由此可见Wishart分布之牛X。废话少说，言归正传：

首先定义一个矩阵X_nxm=(x_ij)的分布，X的分布即其列向量一个个拼接起来形成的长向量的分布；若X是n阶对称矩阵，那么只需要取上三角（或下三角）部分组成长向量即可，此时

样本矩阵仍然是：

其中假定y_(i)相互独立，且y_(i)~N_m(μ_i, V)，Y的期望记作：

此时就可以给出Wishart分布的定义了。以下二式中，（1）式是非中心Wishart分布（τ≠0），（2）式是中心Wishart分布（τ=0）：

现隆重推出中心Wishart分布的密度函数：

注意当A不是正定阵时，f(A)=0，在SEM参数的最大似然估计中，似乎没看见对A的正定性的检验，这是目前我的一点小疑问。现在给出密度函数之后，可以顺便说说SEM参数最大似然估计的思路：首先将结构方程模型中的样本标准化（如果只是做ML那么事实上只需要中心化就可以了），使各个样品的均值为零，这一步其实就是为中心Wishart分布做准备（使得τ=0），那么现在容易证明A其实就是样本协方差阵S。而SEM参数估计的关键工作（或者说目的）也就在于使理论推导出的协方差阵（Σ(θ)）与实际样本协方差阵S尽可能接近；理论协方差阵Σ(θ)也就是上式密度函数中的V，那么现在要做的就是知道了S来估计Σ(θ)，也即知道了A来估计V，正好就顺路上了最大似然估计的“贼船”，如果最大似然估计的原理忘了请参见尾注²。还有一点需要提醒注意的是，最大似然估计本身并没有直接达到使Σ(θ)与S尽量接近的目的，看估计的效果如何，还得在估计之后再对结果进行检验（拟合指数）。

我可以放话：世界上不容怀疑的事情只有两件——一是太阳从东边升起；二是张尧庭老师是神。 ↩︎
最大似然估计法（Maximum Likelihood Estimation）：设 $X_1$ , $X_2$ , …, $X_n$ 是来自总体 $X \sim f(x; \theta)$ （其中 $\theta$ 未知）的样本，而 $x_1$ , $x_2$ , …, $x_n$ 为样本值，使似然函数

$$L(\theta;x_1,x_2,\ldots,x_n)=f(x_1;\theta) f(x_2;\theta) \cdots f(x_n;\theta)$$

达到最大的 $\hat{\theta}$ 称为参数 $\theta$ 的最大似然估计值。一般地， $\theta$ 的最大似然估计值 $\hat{\theta}$ 满足：

$$\frac{d \ln L}{d \theta}=0$$ ↩︎

谢益辉 2006-03-12