[SQUEAKING]
[RUSTLING]
[CLICKING]
PETER KEMPTHORNE:
好的。那我们继续讨论线性回归建模。正如上次所介绍的,有几种方式可以形式化模型拟合:提出模型,指定用于评判不同拟合或模型参数估计量的准则,然后找到最佳估计量,接着检查我们对准则设定的假设。如果必要的话,还要修改模型,因为我们所做的假设未得到满足。因此,我们可能需要添加额外的假设,或考虑对模型进行变换。
对于普通最小二乘回归,我们有一个用于指定回归参数的准则。我们用 y 向量来表示,它包含数据中各案例的因变量取值,用 x 矩阵来表示,它有 n 行 p 列。
我们记一般元素为 Xij。我们的模型是 y 等于 x 矩阵乘以 β 向量。因此我们可以有一个包含 p 个分量的 β 向量,以及一个包含 n 项的误差向量,对应于 n 个案例。
在指定回归模型时,我们有 n 维向量 y 将是 x 列的线性组合,并且会有一个误差向量来刻画与之的偏差。
如果我们采用最小二乘准则,应该如何指定这个 β 向量?我们可以看 Σi=1ⁿ (yi − ŷi),其中 ŷ 等于 x β̂。这个准则本质上是平方和准则,也就是误差的平方和。
现在可以仅用简单的微积分来最小化它。把公式代入后得到的平方和准则就是 y − xβ 的转置乘以 y − xβ。所以 Q(β) 基本上是 (y − xβ)²。
这就是我们的 n 维向量与预测值(或拟合值)之间的距离。也许我这里把 β̂ 写出来会更明确。我们基本上希望拟合值尽可能接近真实值。
因为这个准则是关于回归系数的二次函数,我们可以对 Q 求导并令导数等于 0,从而得到一阶条件。那我们怎么知道这个方程的解真的最小化了平方误差准则呢?
一阶条件是函数的导数等于 0。这可能是最小值,也可能是最大值,对吗?
PETER
AUDIENCE: 你还需要检查二阶导数并确保它是正的。
KEMPTHORNE:
是的。我们要取二阶导数。如果它是正的,那么函数就是凸的。于是一阶导数的解就是我们要的。
现在这是第一导数方程。如果我们看 dQ(β) / dβj——对,就是 βj。
如果我们看二阶导数 dβ dβᵀ,那么解析上我们基本上会得到一个负的 X 项。于是它会变成一个正的项,涉及 X 列的乘积以及完整的 X 矩阵。因此我们得到这组方程。
如果你阅读回归理论、线性模型理论,这个关于 Q 对 β 的导数等于 0 的方程等价于这里的方程,它只是通过消去 −2 因子并求解 β 得到的。这被称为正规方程(normal equations)。
对一些人来说熟悉的是,在统计理论中,重要术语的名称往往并不十分高深,这里我们称之为正规方程。其实并没有什么“正常”的含义,只是指定我们需要求解的一组方程的方式。
如果 XᵀX 矩阵是可逆的,那么我们可以通过两边同乘其逆矩阵得到解。为了使这个过程可行,X 必须具有满列秩。
好的。所以这里,如果我们代入最小二乘估计——β̂ = (XᵀX)⁻¹ Xᵀ y。把它代入拟合值的公式,则得到这个公式乘以 y。我会在它周围加上方括号。这被某些统计学家称为帽子矩阵(hat matrix)。
现在这个矩阵 H 实际上是一个非常特殊的矩阵。它具有特殊性质。有人知道这些特殊性质是什么吗?后排的 Kai 知道吗?
AUDIENCE: 记得它是对 X 的列空间的投影。
PETER
KEMPTHORNE: 是的,正是如此。H 是一个投影矩阵,投影到 X 矩阵的列空间上。那么投影矩阵有什么性质?
如果我们把投影矩阵自身相乘,仍然得到投影矩阵。相关的是,如果我们取 Hŷ,即 H 乘以 Hŷ,如果第一个项已经在 X 的列空间中作为投影,那么再投影到同一列空间不会有变化。这在逻辑上应该是这样。如果我们把投影矩阵自身相乘,就得到这个性质。
好。建模中非常重要的一点是观察残差,即模型误差。如果我们有 ε̂ = y − ŷ,这等价于 y − (I − H) y。这里的矩阵乘以 y 给出我们的残差,它也是一个投影矩阵。
所以这也是一个投影。如果我们把 (I − H) 与自身相乘并展开,就得到 I² − 2H + H²,等于 I − H。我们可以用数学方式验证它是投影。
这个残差向量的一个非常重要的性质是它与拟合值正交。在正规方程中,这个等式必须等于零。这里的项是残差向量。如果我们把这个 n 维向量左乘 Xᵀ,得到 0,那么我们必须有误差向量 ε̂ 与 X 正交。
现在让我们看看。我不确定下一张幻灯片是否有这个内容。我想提醒大家,在使用线性代数进行最小二乘时,有一点非常有用:我们有 y,位于 n 维空间;我们有 X 矩阵(n×p),对应于 X 的列空间,它是 ℝⁿ 的一个子空间。
如果我们有 ŷ 和 ε̂,它们彼此正交。那么在 n 维空间中,想象有一个 y 向量和一个 ŷ 向量。如果我们取从 ŷ 到 y 的向量,即 y − ŷ,那么它与 ŷ 正交。也就是说,ŷ 向量与误差向量之间形成直角。
因此我们有 y 的平方长度等于 ŷ 的平方长度加上残差向量的平方长度。展开这个平方长度,由于正交性,交叉项为 0。
所以在最小二乘中,我们基本上拥有一个从二维到 n 维的勾股定理。这一推广在我们考虑误差的概率分布时非常方便且有用。
这引导我们尝试把数学回归模型扩展为概率模型。于是我们对 X 矩阵中的自变量、回归参数作常数假设,但误差项将被假设遵循某种概率模型。
有用的思考是,最简单的概率模型是什么?我们可以假设误差是 i.i.d.(独立同分布),并且为了方便,假设它们服从正态分布。因此,这就是一个普通线性回归模型。当我们在这里写出模型方程时,模型方程基本上是常数加上误差向量。误差向量 ε₁ 到 εₙ 是独立同分布的正态分布,实际上,这相当于一个维度为 n 的多元正态分布,其均值向量为 0,协方差矩阵为对角矩阵且方差相同。
因此,这将是一个方便的模型供我们使用。我们将看到,对回归模型中不同自变量重要性的不同推断,可以使用该模型作为基准模型进行评估。重要的是,残差的分布导致因变量向量 y 的分布。
因此,在本幻灯片中,我们使用 μ 向量来表示在给定 x 和 β 时 y 向量的条件期望。我们将其定义为一个 μ 向量,即 n 维向量。
我们将定义 y 向量的协方差矩阵,即条件协方差。它等于 (y−E[y]) 与 (y−E[y])ᵀ 的乘积。因此这是一个 n×1 与 1×n 的乘积,得到一个 n×n 矩阵。我们将其记为大写 Σ,作为协方差矩阵。
现在,对于独立同分布误差的特殊情况,这个协方差矩阵将是对角矩阵,且对角线为常数 σ²。结果表明,y 在给定 x 和 β 时的条件分布是均值向量 μ、协方差矩阵 Σ 的多元正态分布,即 n 维多元正态分布。
好的。接下来我们将展示 y 向量的分布以及使用矩母函数求得最小二乘估计的分布。矩母函数的这个应用示例非常简洁,因为其推导过程非常直观且易于理解。
如果我们有一个随机向量 y 和一个常数向量 t,则 y 向量的矩母函数等于 E[exp(tᵀ y)]。因此矩母函数是 t 向量的函数,我们只需将其代入公式即可。
由于 y 的各分量实际上相互独立,期望的乘积等于各期望的乘积。我们将利用这种独立性,即乘积的期望等于期望的乘积。
然后对每个 y_i,我们代入其矩母函数,即 exp(t_i μ_i + ½ t_i² σ²)。我们在概率论章节中已经推导过这个矩母函数。
现在,这个例子的重要之处在于,如果我们把所有矩母函数的乘积写成 t 向量、μ 向量和 Σ 矩阵的形式,就得到下面的公式。该公式实际上就是均值向量 μ、协方差矩阵 Σ 的多元正态分布的矩母函数。这一结果是显而易见的,并不令人惊讶。
不那么令人惊讶的是,我们可以利用矩母函数求得最小二乘估计的分布。因此这里的第一个公式是 β̂ 的矩母函数。写成 M_{β̂}(τ),其中 τ 是 p 维向量。它等于 E[exp(τᵀ β̂)],这就是矩母函数的定义。
如果我们定义矩阵 A 为得到 β̂ 的前乘因子,即 β̂ = A y,那么 β̂ 的矩母函数可以写成 M_{β̂}(τ) = M_y(Aᵀ τ),即将 τᵀ A 记作 tᵀ。
因此,β̂ 的矩母函数实际上是多元正态向量的矩母函数在 t = Aᵀ τ 处的取值。我们只需将 t 替换为 Aᵀ τ,即可得到结果。
于是 tᵀ μ = τᵀ β,且 tᵀ Σ t 等于相应的乘积。化简后,我们得到最小二乘估计的均值向量为 β,协方差矩阵为 σ² (Xᵀ X)^{-1}。
这就是 β̂ 的矩母函数。由于矩母函数的唯一性,我们可以认定 β̂ 服从均值向量 β、协方差矩阵 σ² (Xᵀ X)^{-1} 的多元正态分布。因此,最小二乘估计具有多元正态性,这非常方便且有用。
由此可得每个最小二乘估计的边际分布都是正态的。具体到 β̂ 的第 j 个分量,它服从均值为 β_j、方差为 σ²·[(Xᵀ X)^{-1}]_{jj} 的一元正态分布。于是得到这个简洁的分布结果。
这里还有更多的分布理论可供探讨。但有一点值得思考且非常有用:在某些模型中,我们可以控制自变量矩阵。在科学实验中,我们可以改变实验条件,从而得到不同 x 条件下的 y。
基于这些模型,我们可能关注 X 矩阵的某一列,并希望估计对应的回归参数 β_j。若我们能够控制 X 矩阵,就可以使第 j 列的方差(即对角线元素)尽可能小,从而使该回归参数估计的精度最高。
为简化起见,假设 Xᵀ X 是对角矩阵。设其第 j 个对角元素为 C_j,则 (Xᵀ X)^{-1} 的对角元素就是 1/C_j。
对角元素越小,说明第 j 列的规模越大。因此,在回归模型和实验设计中,我们通常希望自变量的取值范围尽可能大,以便更好地确定回归线。
因此,考虑 y 对 X 的回归模型时,如果我们将观测点的 x 值尽可能远离其样本均值,那么对斜率参数的估计将更为精确。
也就是说,离均值越远的点对回归线的确定贡献越大。这在实验设计中尤为重要,设计者可以构造满足上述性质的 X 矩阵。
正如预期的那样,这些性质与 Xᵀ X 的特征值有关,通常通过最大化特征值来实现。
好的。我们可以进一步探讨分布理论,例如研究误差向量 y 的分布,或者研究任意矩阵 A 乘以 y 的变换分布。该变换是 y 的线性组合,对应于向量 z 的每个分量。
它实际上服从 m 维多元正态分布,均值为 A·E[y],协方差矩阵为 A·Cov(y)·Aᵀ。
因此,矩阵 A 可以用来得到 β̂ 的分布,正如我们之前所做的。我们也可以对 A 和 z 采用不同的定义。正态分布理论导出线性模型的关键性质:β̂ 最小二乘估计服从多元正态分布。我们有误差向量 (\hat\varepsilon) 也是多项式分布的。但它是 n 维的多项式分布,均值向量为 0。因此 (\hat\varepsilon = I - H y) 的分布是 n 维的多项式分布,其协方差矩阵为 (\sigma^{2}) 乘以投影矩阵。
现在重要的是,这个协方差矩阵不是满秩的。它是奇异的(不是可逆的)。
那这意味着什么?
这意味着误差向量的某些线性组合的方差为零,误差向量之间存在线性依赖。因此如果我们考虑 (\hat x) 和 (\hat x^{\top}),它们等于零向量,这就是正规方程。
我们基本上得到这些残差的固定线性组合恰好为 0。于是我们并没有 n 个相互独立的误差项。正因为如此,当我们估计误差方差 (\sigma^{2}) 时,如果取残差平方和,它等于残差向量协方差矩阵的迹。
而该迹等于投影矩阵 (I_n - H) 的迹。矩阵的迹之和等于各自的迹,且 (\operatorname{tr}(AB)=\operatorname{tr}(BA))。于是得到 (\sigma^{2}(n - \operatorname{tr}(H)))。
于是期望值为 (\sigma^{2}(n - p))。在正态线性回归模型中,我们利用这一关系来估计 (\sigma^{2})。两边除以 (n-p) 就得到误差方差的无偏估计。
另外,根据该定理的 C 部分,误差向量 (\hat\varepsilon) 与回归参数向量 (\hat\beta) 彼此独立。独立性可以通过考察 (\mathbf{A}y) 的联合矩母函数并证明它等于 (\hat\beta) 的矩母函数乘以 (\hat\varepsilon) 的矩母函数来得到。矩母函数的乘积表明两者独立。
当误差向量与回归参数向量独立时,我们可以对回归参数计算 t 统计量。正如笔记中所述,(t_j = \dfrac{\hat\beta_j - \beta_j}{\hat\sigma \sqrt{C_{jj}}})。
该统计量服从 t 分布。当你学习统计学时,一定接触过 t 分布。t 分布相当特殊:它等价于一个均值为 0、方差为某值的正态分布除以一个自由度为 (\nu) 的卡方分布的平方根,且两者相互独立。t 分布相较于正态分布的性质是什么?
t 分布是对称的,形状类似钟形。如果分子是正态的而分母是随机的(大约在 1 附近),则会得到更厚尾的分布。
因此我们需要量化 t 统计量与 0 的显著差异。如果原假设 (H_0) 为 (\beta_j = 0),则该统计量服从自由度为 (n-p) 的 t 分布。
于是我们可以判断数据是否提供了反对原假设的证据。我们也可以检验其他假设,而不仅仅是 (\beta_j = 0)。稍后我们将在今天发放的讲义中更详细地讨论这些内容。
不过——让我们看看,有谁了解 t 分布的历史是如何被发现的?
KEMPTHORNE:
AUDIENCE: 通过 Guinness,Guinness 工厂?
PETER
是的。有位统计学家在 Guinness 的质量控制部门工作。他会查看非常小的样本(比如四个观测值),我们这里就写成 “Guinness”。他会计算样本均值 (\bar{x}) 和样本标准差 (s_x = \sqrt{\frac{\sum (x_i - \bar{x})^2}{3}})(实际上是除以 3)。
他发现,如果我们看 (Z = \frac{\bar{x}}{s_x}),这些经过适当尺度变换的样本均值本应服从标准正态分布((N(0,1))),但实际却表现出更大的变异性。
于是这位研究者不能以真名发表论文,只能用笔名 “Student”。于是我们现在称之为 Student 的 t 分布。
真正令人惊讶的是,在小样本中,这类统计量的变异性理论上应接近正态,但实际上系统性地更大。再举一个回归中的例子,可以构造 F 检验来检验除前 p 个回归参数之外的所有参数是否全为 0。
我们可以比较完整模型的残差平方和与仅使用前 k(抱歉,是前 k)个参数的子模型的残差平方和。F 统计量是归一化的平方和之比。
该 F 检验实际上是方差分析统计量的一种形式,利用完整模型的残差平方和估计变异性,再比较子模型的残差平方和。如果两个模型都成立(即 (\beta_{k+1},\dots,\beta_p = 0)),则这两个公式估计的是同一方差且相互独立。于是 F 分布就成为两个自由度不同的卡方分布之比。
下面我们来看一些真实数据。我要介绍的示例数据集其实不是金融数据,而是医学研究。该示例出自 Brad Efron 和 Trevor Hastie 的工作,他们合著了《Statistical Learning Elements》(《统计学习要素》)以及 Efron 的《Computational Statistics》(《计算统计学》),后者是我在 18655 课程中使用的教材。
在这个数据集中,基本上有一个响应变量和若干自变量。关键是,针对一个回归问题的经验可以推广到其他回归问题——变量名不同,但面临的相同问题仍然存在。这里我们尝试预测 lpsa 变量随其他自变量的变化,该数据集来自前列腺癌患者。
对于任何数据集,都可以计算摘要统计量,以帮助我们发现数据是否存在问题。R 语言中的 pairs 函数非常方便,可以一次性显示所有变量两两之间的散点图。若查看该 Pairs Plot,数据集中的每一对变量都会在散点图中呈现。
对角线上是变量名,其他位置显示变量之间的关系。如果 lpsa 是我们关注的因变量,沿着对应的行可以看到它与各自变量的散点图。看起来 lca_vol 与 lpsa 之间的关系非常强。还有一些变量是离散的,这一点也能在图中看出。如果我们仅仅拟合一个简单回归,我们会得到回归的输出,其中包括估计值。我们有一个系数表,包含估计列、标准误差列、t 值列,最后还有所谓的 p 值列。这是观察到更大 t 统计量的概率。表中列出的内容是对每个回归系数在真实模型中是否等于 0 的假设检验结果。
因此我们拥有这些不同回归参数的估计值。我们可以得到它们的标准误差。标准误差对应 sigmâ C_{jj}。实际上,我认为它是 sigma^2 C_{jj} 的平方根。
然后 t 值只是信号估计与噪声的比率,它在量级上反映了这些因素的重要性。我们可以计算 p 值。比如说,如果我们有 β̂_j 的值,它服从以真实 β_j 为中心、尺度由 Ĉ_j 的平方根决定的 t 分布,我们基本上可以检验 β_j 是否等于 0。
因此,如果我们把它设为 0,当我们观察到 β̂_j 的值时,可以计算得到 (β̂_j - β_j)/ (σ̂ C_{jj}) 的概率。这就是我们的 t 统计量。我们可以计算得到 t 统计量取更大值的概率。
由此可见,如果我们把尺度改为 β̂_j 除以 σ̂ C_{jj} 的平方根,这就是我们的 t 统计量,那么最小二乘估计的结果服从 t 分布。我们在计算如果真实回归参数为 0,得到同样大或更大 t 统计量的概率。
现在,观察这些估计值时,一个挑战是参数估计的尺度取决于自变量的单位。因此在某些问题中,数据集中的自变量种类繁多,单位只是数据的属性,并非问题的核心。我们可以通过将协变量标准化,使其均值为 0、标准差为 1 来处理。
假设我们有 X 矩阵——怎么做呢?如果 X 矩阵有 P 列,我们可以把 X₁ 转换为 (X₁ - \bar{X}_1·\mathbf{1}) 除以 X₁ 的标准差。我们把得到的标准化值向量记为 Z₁。
如果这样做,我们实际上是对 X 进行平移并重新缩放,结果是使用 Z 分数(标准化得分)的回归模型与原始单位下的回归系数是等价的。可以说这很显然。
设 y = β₁ X₁ + β₂ X₂ + … + β_P X_P + ε(误差向量)。我们把 Z_j 定义为 X_j 减去 \bar{X}_j·\mathbf{1} 再除以 s_j,其中 s_j 是 X_j 的样本标准差(或方差的平方根)。
基本上我们可以把每个 X 的表达式代入。于是 \bar{X}_j = s_j Z_j + \bar{X}_j。将其代入后,得到的方程仍然包含相同的回归参数。
当我们对标准化后的自变量模型进行拟合时,会发现这两个回归的 t 值和 p 值是相同的。例如,选择最大的 t 值,svi——虽然这不是最大的 lca vol,但我们取 svi,2.949。
如果回到原始单位,所有变量的 t 统计量和 p 值都完全相同。因此在解释各变量重要性时,t 值和 p 值给出的判断是一致的。不过使用标准化协变量的一个特别有用之处在于,系数的大小对应于自变量移动一个标准差所产生的影响。
比如说,年龄值比均值高一个标准差,对因变量的影响可能不大;而 svi 若比 z 分数 1 高一个标准差,则对因变量的影响更大。因此,使用标准差单位是一种非常方便的数据重新缩放方式。
好了。评估回归模型的质量时,我们可以计算拟合值并与观测值配对,绘制观测值与拟合值的散点图。该散点图会有相关系数统计量,其平方称为多重决定系数(multiple R-squared),即决定系数。
如果你熟悉简单线性回归中计算相关系数,那么平方的相关系数就是有用的。在多元回归中,我们用多重 R 平方系数来概括单一相关系数,它基本上反映了在给定自变量的情况下,因变量的可预测程度。
现在谈到评估回归模型假设时,我们可以对已拟合模型进行回归诊断,并使用多种重要指标。在 stats 包中,有 influence.measures 通用函数,可提供各种统计量的表格;还有 rstudent 用于计算学生化残差。
设 \hat{ε} 服从均值为 0、协方差矩阵为 (I - H)σ² 的多元正态分布。由于协方差中的 (I - H) 因子,残差的方差可能差异很大。因此学生化残差实际上是把残差除以该方差的平方根以及其估计值。
除数中的方差估计导致 \hat{ε} 服从非正态而是 t 分布。我们稍后会看到这一点。还有其他统计量,例如在包含或排除不同数据点时回归参数的变化程度。
下面看一些结果。这里是该回归模型的学生化残差以及其直方图,呈单峰对称。下面是残差的分位数图(quantile plot),如果数据符合正态分布模型(以及通过方差估计进行标准化的 t 分布),则该图应呈直线。
使用这些方法处理不同回归问题时,一个很有用的观察是会出现抽样变异性,即仅由于所用数据集的不同。若在相同条件下重新收集数据,结果会不同。图中的红色带表示不同样本之间可能出现的变动范围。
下面这个图是 car 包中的 influencePlot,绘制了帽子值(hat values)与学生化残差的关系。帽子值是 H 矩阵的对角线元素。关于帽子值的重要性在于——
如果帽子值等于 1(即 H_{ii}=1),则 \hat{y}_i 实际上等于 y_i。此时第 i 条观测是数据集中唯一能够估计该值的案例,因而具有极高的影响力。
通常帽子值接近 p/n,数值越低表示影响力越小。学生化残差的大小即为这些数值。我相信此幻灯片中绘制的圆的大小与 Cook 距离成比例。使用 Cook 距离时,如果我们有 β̂ = (XᵀX)⁻¹Xᵀy,可以考虑 β̂_{‑i},即在排除第 i 条观测后得到的最小二乘估计。因此这对应于排除第 i 条案例。
接下来我们知道,这个 β̂ 服从具有均值向量(真实的 β)和协方差矩阵的多项式分布(multinomial)。我们实际上可以查看 β̂ − β̂_i,或者 β̂_i − β̂,然后考虑这种差距的大小或 β 的变化幅度。由于这种关系,Cook 距离实际上与卡方分布(Chi‑squared)非常接近。
因此我们基本上是在考察 β̂_i 与真实 β 之间的距离,并用协方差矩阵对其进行标准化。现在来看,有许多不同的诊断方法可以绘图,我认为使用图形化手段来突出可能重要的内容非常有用。
在使用 car 包或 plot.lm 绘图时,我们可以看到残差与拟合值的比较。我们不希望在该图中看到任何系统性模式,理想情况下应当是平坦的。有时随着拟合值的增大,残差的幅度也会增大,这表明残差可能依赖于拟合值的大小。
我们还可以查看正态 Q‑Q 图,以判断数据是否符合正态分布。随后可以检查残差尺度的度量。
因此可以取标准化残差的平方根(或其幅度),观察其随拟合值大小的变化情况。这里似乎存在非线性关系。当我们发现这种关系时,就需要对模型假设进行改进。
实际上,这个残差图的功能是检验线性回归模型对潜在非线性(即对自变量的依赖)的敏感性。它尝试在模型残差中拟合曲率项。如果残差中出现曲率,则可能需要使用非线性模型并加入相应的非线性项。
对于这个普通线性模型,我们可以考虑其背后的假设——正态性之外的高斯‑马尔可夫假设(Gauss‑Markov assumptions)。设回归模型的响应向量为 y,设计矩阵为 X,则条件期望为 Xβ,协方差矩阵为 σ²I。
在这些高斯‑马尔可夫假设下,线性模型中有一个非常重要的定理:回归参数的最小二乘估计是任何真实回归参数线性组合的最佳估计。
如果我们想估计参数 θ,它是回归参数的线性组合,那么在满足高斯‑马尔可夫假设的前提下,使用最小二乘估计代入即可得到无偏且方差最小的估计量。
这类估计被称为最佳线性无偏估计(Best Linear Unbiased Estimates,BLUE)。值得注意的是,这一定理非常一般化。例如,常数 c₁,…,c_p 对应于特定案例的解释变量取值,我们可以估计该案例的真实均值。
如果我们有两个不同案例的 x 向量,并关心这两者均值的差异,那么可以让这些 c 表示 x 的差异,从而估计 y 的差异,即不同案例的均值差。因此,这一定理极其通用。
虽然该定理非常优美,但它依赖于高斯‑马尔可夫假设。我们可以将这些假设推广:仍然假设误差均值为 0,但误差的协方差矩阵为 σ²Σ,其中 Σ 为已知的正定矩阵。
这种误差协方差结构在时间序列建模中经常出现——相邻时间点的误差可能比远距离的误差更相关,误差的协方差结构可以用已知的 Σ 矩阵的倍数来系统地表示。
如果出现上述情况,我们可以先用 Σ 的逆平方根对原始数据进行预乘,同样对 X 矩阵进行相同变换。这样就把模型转化为星号形式(Y*、X*),此时 ε* 的均值为 0,协方差矩阵为对角且方差恒定。
在这种变换后的模型中,回归参数保持不变,ε* 满足高斯‑马尔可夫假设。依据高斯‑马尔可夫定理,我们可以直接用 X* 和 Y* 写出最小二乘估计,进而得到广义最小二乘估计的公式。
因此,当误差的方差不一致且我们已知其相对变化时,可以使用广义最小二乘公式获得最佳估计。重要的是,广义最小二乘实际上是一种加权回归,对每个案例的权重与该随机变量方差的倒数成比例。
如果 Σ 实际上是对角矩阵且各对角线元素不同,我们就会对高方差的案例降低权重,以加权方式进行最小二乘计算。这就是广义最小二乘估计。好了,今天就讲到这里,下一次我们将继续讨论回归。