[SQUEAKING]
[RUSTLING]
[CLICKING]
PETER KEMPTHORNE:
好,讓我們繼續討論線性迴歸建模。正如上次所介紹的,我們可以以正式的方式擬合模型:先提出模型,指定判斷不同擬合或模型參數估計量的準則,然後找出最佳估計量,接著檢查我們對準則規範所依賴的假設,必要時再修改模型,因為先前的假設未被滿足。因此,我們可能需要加入額外的假設或考慮對模型進行變換。
對於普通最小平方法迴歸,我們有這個用來指定迴歸參數的準則。我們以 y 向量來表示,它包含資料中各案例的因變數值;再以 x 矩陣表示,它有 n 列 p 欄。
矩陣中的一般元素記為 Xij。我們的模型是 y 等於 x 矩陣乘以 β 向量。因此 β 向量有 p 個分量,誤差向量則有 n 個項目,對應於 n 個案例。
在指定迴歸模型時,我們的 n 維向量 y 會是 x 各欄的線性組合,並會有一個誤差向量描述與之的差異。
如果我們使用最小平方法準則,應如何指定這個 β 向量?我們可以考慮 Σi=1ⁿ (yi−ŷi)²,其中 ŷ 等於 x β̂。這個準則基本上是平方和準則,也就是平方誤差之和。
最小化這個準則只需要簡單的微積分。我們把公式代入,得到平方和準則 Q(β)=‖y−Xβ‖²,即 y−Xβ 的平方和。
這表示我們的 n 維向量與預測(或擬合)值之間的距離。或許我會把 β̂ 寫在這裡以示明確。我們基本上希望擬合值盡可能接近實際值。
因為這個準則是關於迴歸係數的二次函數,我們只要對 Q 取導數並令其等於 0,即可得到一階條件。那麼,我們如何知道這個方程式的解真的能最小化平方誤差準則呢?
一階條件是函數的導數等於 0。這可能是最小值,也可能是最大值,對吧?
PETER
AUDIENCE: 你還需要檢查二階導數,確保它是正的。
KEMPTHORNE:
是的,我們要取二階導數。如果它是正的,則函數是凸的,第一導數的解就會是最小值。
現在這是第一導數方程式。如果我們看 dQ/dβj——就是 βj,對吧。
如果我們看二階導數 d²Q/(dβ dβᵀ),解析上會得到一個負 X 的項,最終會得到一個正的項,涉及 X 欄的乘積以及整個 X 矩陣。因此,我們得到這組方程式。
如果你閱讀迴歸理論、線性模型理論,Q 對 β 的導數等於 0 的方程式等價於此方程式,這只是把負 2 的因子消去後求解 β。這稱為常態方程式(normal equations)。
對某些人而言,統計理論中重要術語的名稱往往不太精緻,例如我們稱之為常態方程式,實際上並沒有什麼「正常」的意思,只是用來表示我們需要解決的一組方程式。
只要 XᵀX 矩陣可逆,我們就可以透過兩邊同乘其逆矩陣得到解。為了使此程序成立,我們必須保證 X 具有滿秩(full column rank)。
好,現在如果代入最小平方法估計式——β̂ = (XᵀX)⁻¹ Xᵀ y。把它代入擬合值的公式,則得到 H y,其中 H 為某些統計學家稱為「帽子矩陣」的矩陣。
這個矩陣 H 實際上是一個非常特殊的矩陣,具有特殊性質。有人知道這些特殊性質是什麼嗎?後排的 Kai 知道嗎?
AUDIENCE: 記得它是一個投影到 X 欄空間的投影矩陣。
PETER
KEMPTHORNE: 沒錯,正是如此。H 是投影矩陣,投影到 X 矩陣的欄空間。那麼投影矩陣有哪些性質?
若我們把投影矩陣自行相乘,仍會得到同一個投影矩陣。若把 ŷ 投影再投影一次(即 H·ŷ),因為 ŷ 已在 X 的欄空間中,再投影不會改變結果。這正是它的邏輯,而且若把投影矩陣與自身相乘,就會得到這個性質。
好。模型中非常重要的一點是檢視殘差(模型誤差)。若 ε̂ = y−ŷ,即 y−(I−H)y,這個將 y 乘以的矩陣也是投影矩陣。
因此 I−H 也是投影矩陣。若把 (I−H)² 展開,我們得到 I²−2H+H² = I−H,從而數學上驗證它仍是投影。
這個殘差向量的一個非常重要的性質是,它與擬合值正交。在常態方程式中,我們有 Xᵀε̂ = 0,亦即誤差向量 ε̂ 與 X 正交。
現在讓我們想想。使用最小平方法時,我們有 y 位於 n 維空間,X 為 n×p 矩陣,其欄空間是 Rⁿ 的子空間。
若 ŷ 與 ε̂ 互相正交,則在 n 維空間中,y 向量可以分解為 ŷ 向量與 ε̂ 向量兩個互相垂直的分量。也就是說,y−ŷ(即殘差向量)與 ŷ 正交。
因此 y 的平方長度等於 ŷ 的平方長度加上殘差向量的平方長度,展開後因正交性會消掉交叉項。
換句話說,最小平方法滿足一個從二維到 n 維的畢氏定理。這個概念在我們不僅僅討論最小平方法的數學運算,而是考慮誤差的機率分布時,非常方便且有用。
這讓我們想把數學迴歸模型擴展成機率模型。對於 X 矩陣的自變量與迴歸參數,我們仍假設為常數;但誤差項則假設遵從某種機率模型。
思考最簡單的機率模型是什麼?我們可以假設誤差是 i.i.d.(獨立且同分布),且為方便起見,假設它們服從常態分布。因此這是一個普通的線性迴歸模型。當我們在此寫出模型方程式時,模型方程式基本上是常數加上誤差向量。誤差向量 ε₁ 到 εₙ 為獨立同分布的常態分布,事實上這相當於一個 n 維的多變量常態分布,其均值為零向量,協方差矩陣為對角線且具有恆定變異數。
因此這將是一個方便我們使用的模型。我們將看到,關於迴歸模型中不同自變量重要性的各種推論,可以以此模型作為基線模型來評估。重要的是,殘差的分布會導致因變量向量 y 的分布。
因此在此投影片中,我們使用 μ 向量來表示給定 x 與 β 時 y 向量的條件期望。我們將其定義為一個 μ 向量,即 n 維向量。
接著我們定義 y 向量的協方差矩陣,或稱條件協方差。這將等於 (y 減去其均值) 與 (y 減去其均值) 的轉置的乘積。也就是一個 n×1 乘以 1×n 的項,形成 n×n 矩陣。我們將此稱為大寫 Σ,作為協方差矩陣。
現在,對於獨立同分布的誤差這個特殊情況,協方差矩陣將是對角線且具有恆定的 σ²。結果顯示,給定 x 與 β 時 y 的條件分布為多元常態分布,均值向量為 μ,協方差矩陣為 Σ,即 n 維的多變量常態分布。
好,我們將展示 y 向量的分布結果,以及利用矩母函數(moment‑generating function)說明最小平方法估計量的分布。這個矩母函數應用的例子相當精巧,因為其推導非常簡單且易於理解。
假設我們有一個隨機向量 y(不變量)與一個常數向量 t,則 y 向量的矩母函數等於 t 的轉置與 Y 的指數期望值。這個矩母函數是 t 向量的函數,我們只需將其代入公式即可。
由於 Y 的各分量實際上彼此獨立,我們有期望的乘積等於期望的乘積。因此,我們利用獨立性的性質,將乘積的期望分解為各期望的乘積。
接著對每個 Y_i,我們代入其矩母函數,即 e^{t_i μ_i + \frac{1}{2} t_i^2 σ^2}。我們在機率論一節已經討論過此矩母函數。
此例中重要的是,若將所有矩母函數的乘積表示為 t 向量、μ 向量與 Σ 矩陣的形式,我們會得到以下公式。此公式實際上就是具有給定均值向量 μ 與協方差矩陣 Σ 的多元常態分布的矩母函數。此結果顯而易見,並不令人驚訝。
較不令人驚訝的是,我們可以利用矩母函數求得最小平方法估計量的分布。因此此處的第一個公式是 β̂ 的矩母函數。寫成 M_{β̂} 時,我會使用另一個參數 τ,為 p 維向量,並將其定義為 τ 的轉置與 β̂ 的指數期望值,即矩母函數的定義。
若將矩陣 A 定義為產生 β̂ 的前乘因子,則 β̂ 的矩母函數可寫成此表達式,只需將 AY 代入 β̂。此時 τ 的轉置乘以 A 等於 t 的轉置。
因此,β̂(最小平方法估計量)的矩母函數實際上就是多元常態向量的矩母函數,於 t = A^T τ 時的取值。我們只需將此 t 代入即可得到結果。
因此 t 的轉置與 μ 的乘積等於 τ 的轉置與 β 的乘積;t 的轉置 Σ t 等於此乘積。若化簡後,我們得到最小平方法估計量的均值向量為 β,協方差矩陣為 σ^2 (X^T X)^{-1}。
這就是 β̂ 的矩母函數。根據矩母函數的唯一性,我們可辨識其為具有給定均值向量與協方差矩陣的多元常態分布。因此最小平方法估計量服從多元常態,這相當便利且有用。
由此,我們得到每個最小平方法估計量的邊際分布皆為常態分布。以此投影片為例,β̂ 的第 j 個分量服從單變量常態分布,均值為 β_j,變異數為 σ^2 乘以 (X^T X)^{-1} 的第 j 個對角元素。於是得到這樣的分布結果。
還有更多的分布理論可供探討。但讓我們思考一個我認為相當有力的觀點:在某些例子中,我們對自變量矩陣 X 有控制權。在科學實驗中,我們可以改變實驗的不同條件,從而得到對應於不同 x 條件的 y。
利用這些模型,我們可能關注 X 矩陣的特定欄位,並想估計對應的 β_j(迴歸參數)。若我們能控制 X 矩陣,則可嘗試使第 j 個對角元素盡可能小,以使該迴歸參數估計的精度盡可能高。
因此,為了簡化,假設 X 矩陣使得 X^T X 為對角矩陣。此時 X^T X 的逆矩陣的對角值僅為其對角元素的倒數。
對角項會越小,表示第 j 欄的值越大。因此,在考慮迴歸模型與實驗時,我們通常希望自變量的變異範圍盡可能大,以便更精確地確定迴歸線。
若考慮 y 對 X 的迴歸模型,且有一組 x 與 y 的觀測點,若觀察 X 的樣本平均值,並將 x 值盡可能分散遠離平均值,則預期能更精確地估計關係中的斜率參數。
換句話說,觀測到遠離平均值的點會對迴歸線的確定貢獻最大。這個問題在實驗設計中尤為重要,設計者會思考如何構造具備此類特性的 X 矩陣。
正如預期,這些性質與 X^T X 的特徵值相關,且可透過最大化特徵值的方法來達成。
好,我們可以進一步探討分布理論,先檢視誤差向量 y 的分布;亦可考慮任意矩陣 A 乘以 y,研究其轉換後的分布。這將是 y 的線性組合,形成向量 z 的每個分量。
實際上,z 會服從 m 維的多元常態分布,其均值為 A·E[y],協方差矩陣為 A·Cov(y)·A^T。
因此矩陣 A 可用來得到 β̂ 的分布,如前所述。但我們亦可對 A 與 z 作不同的定義。正態分布理論導出正線性模型的關鍵性質:β̂(最小平方法估計)服從多元常態分布。我們知道誤差向量 (\hat\epsilon) 也是多項式分佈。但它是在 n 維空間中的多項式,均值向量為 0。因此 (\hat\epsilon = I - Hy) 的分佈是一個 n 維的多項式,其協方差矩陣為 (\sigma^2) 乘以投影矩陣。
現在重要的是,這個協方差矩陣並非滿秩。因此它不是非奇異的。實際上,這個詞對嗎?不,應該說它是奇異的。也就是說它不可逆。
那意味著什麼?
這表示誤差向量存在線性組合的變異為零。誤差向量之間存在線性相依性。因此,如果我們考慮 (\hat x) 與其轉置,且這等於零向量,這就是正規方程式。
基本上,我們得到這些殘差的固定線性組合恆等於 0。殘差向量皆為零。因此我們沒有 n 個獨立的誤差項。基於此,當我們估計誤差變異 (\sigma^2) 時,例如取殘差平方和,這等同於殘差向量協方差矩陣的跡。
而這等於投影矩陣 (I_n - H) 的跡。矩陣之和的跡等於各自跡的總和。矩陣乘積的跡亦等於逆序乘積的跡。因此得到 (\sigma^2 (n - \operatorname{tr}(H)))。
我們得到 (\mathbb{E}[\hat\sigma^2] = \sigma^2 \frac{n-p}{n-p} = \sigma^2)。在正態線性迴歸模型中,我們利用此關係來估計 (\sigma^2)。將兩邊除以 (n-p),即可得到誤差變異的無偏估計。
根據此定理的 C 部分,另一個附加性質是誤差向量 (\hat\epsilon) 與迴歸參數 (\hat\beta) 彼此獨立。這種獨立性可透過檢視 (\mathbf{A}y) 的聯合分佈,即其聯合矩母函數,證明其等於 (\hat\beta) 的矩母函數乘以 (\hat\epsilon) 的矩母函數。矩母函數的乘積即表明了獨立性。
當誤差向量與迴歸參數向量獨立時,我們即可計算迴歸參數的 t 統計量。根據筆記,(t_j = \frac{\hat\beta_j - \beta_j}{\hat\sigma \sqrt{C_{jj}}})。
此統計量服從 t 分佈。當你學習統計學時,若曾修過統計課程,應該已經接觸過 t 分佈。t 分佈相當特殊:它等價於一個均值為 0、變異為某值的常態分佈,除以一個自由度為 (\nu) 的卡方分佈的平方根,且兩者相互獨立。因此 t 分佈——誰能說明 t 分佈相較於常態分佈有哪些特性?
t 分佈是對稱的,形狀類似鐘形。若分子為常態,分母為隨機且大致在 1 附近,我們會得到較厚尾的 t 分佈。
因此我們必須量化 t 統計量與 0 的顯著差異。若原假設 (H_0: \beta_j = 0),則該統計量服從自由度為 (n-p) 的 t 分佈。
如此我們即可判斷資料是否提供反對此虛無假設的證據。亦可檢驗其他假設,而不僅限於 (\beta_j = 0)。我們將在今天發放的講義中更詳細說明。
不過——讓我們看看。有誰知道 t 分佈的歷史,及其發現過程?
KEMPTHORNE:
AUDIENCE: 透過 Guinness,Guinness 工廠?
PETER
是的。有位統計學家在 Guinness 從事品質管制工作。他會檢視——檢視非常小的樣本,樣本大小為四,來自——我們就在此寫「Guinness」。
他會觀察一組測量樣本,例如 (x_1, x_2, x_3, x_4)。我不確定具體的品質指標是什麼,但他會計算樣本平均 (\bar{x}) 以及 (x) 的標準差,即 (\sqrt{\frac{\sum (x_i - \bar{x})^2}{3}})。
實際上,我想他是這樣做的——好,我寫成除以 3。其發現是,若考慮 (Z = \frac{\bar{x}}{s_x}),這些經過適當重新縮放的樣本平均值本應遵循常態分佈(因為是 z 分數),但實際上並未呈現標準正態(0,1)分佈,而是具有更大的變異性。
因此,從事此研究的人不允許以真名發表,於是以筆名「Student」發表論文。於是我們現在稱之為 Student 的 t 分佈。
真正令人驚訝的是,在小樣本下,這類統計量的變異理論上應接近常態,然而實際上卻系統性地不同。再說回迴歸中其他問題,我們可以構造 F 檢驗,以判斷除前 (p) 個之外的所有迴歸參數是否皆為 0。
我們可以比較完整模型的殘差平方和與僅使用前 (k) 個變數的子模型的殘差平方和(抱歉,我說錯了,是前 (k) 個)。此時的 F 統計量是兩個正規化平方和之比,…
此 F 檢驗統計量在變異數分析中出現,我們可利用完整模型的殘差平方和來估計變異,亦可使用子模型的殘差平方和。若兩個模型皆成立,即 (\beta_{k+1},\dots,\beta_p = 0),則上述公式估計相同的變異且彼此獨立,於是得到兩個卡方分佈比值的 F 分佈。
好,我們來看一些真實資料。我要介紹的範例資料集其實不是金融資料,而是醫學研究。這個範例出現在 Brad Efron 與 Trevor Hastie 的研究中,他們合著了《統計學習要素》(The Elements of Statistical Learning),以及與 Efron 合寫的《計算統計學進階》(Advanced Book on Computational Statistics),這本教材我在 18655 課程中使用。
在這個資料集中,基本上有一個應變變數與多個自變數。關鍵在於,對一個迴歸問題的經驗可延伸至其他迴歸問題;變數名稱不同,但面臨的問題相同。因此,我們利用此資料集,嘗試以其他自變數預測 lpsa 變數在受試者間的變化。
這個資料集是關於前列腺癌患者的資料。對任何資料集,我們都可以計算摘要統計量,以偵測資料是否有問題。R 語言的 pairs 函數相當便利,可一次顯示所有變數的配對圖。若觀察這個配對圖(Pairs Plot),資料集中每兩個變數皆以散佈圖呈現。
對角線上顯示變數名稱,並展示各變數之間的關係。若 lpsa 為我們關注的應變變數,觀察該行即可看到各自變數與 lpsa 的散佈圖。看起來 lca vol 與 lpsa 之間的關係相當強烈。事實上,有些變數是離散的,我們也能在圖中看到。如果我們只對一個簡單迴歸模型進行擬合,最終會得到迴歸的輸出,這些輸出包含估計值。我們有一個係數表,裡面有「估計值」欄位、「標準誤」欄位,接著是 t 值,最後是所謂的 p 值欄位。p 值代表觀測到更大 t 統計量的機率。此表格呈現的是對每一個迴歸係數是否等於 0(在真實模型中)的假設檢定結果。
因此,我們得到這些不同迴歸參數的估計值,並可取得它們的標準誤。標準誤對應於 (\hat{\sigma} C_{jj})。實際上,它是 (\sigma^2 C_{jj}) 的平方根。
t 值就是訊號估計與噪聲比率,衡量這些因素的重要程度。我們可以計算 p 值。例如,若有 (\hat{\beta}_j) 且其 t 分布以真實 (\beta_j) 為中心,散布度為 (\hat{C}_j^{1/2}),我們就能檢驗 (\beta_j) 是否等於 0。
若將 (\beta_j = 0) 作為虛無假設,觀測到 (\hat{\beta}_j) 時,我們可以計算 (\frac{\hat{\beta}j - \beta_j}{\hat{\sigma} C{jj}})(即 t 統計量)大於某個值的機率。換句話說,若將尺度改為 (\frac{\hat{\beta}j}{\hat{\sigma} C{jj}^{1/2}}),這就是我們的 t 統計量,表示最小平方法估計的 t 分布。我們在計算若真實迴歸參數為 0(或不為 0)時,取得同樣大或更大 t 統計量的可能性。
在觀察這些估計值時,一個挑戰是參數估計的尺度會因自變數的單位而異。某些問題的資料集中自變數單位差異很大,而這些單位本身並非問題的核心。因此,我們可以將協變數標準化,使其均值為 0、標準差為 1。
假設我們的 (X) 矩陣有 (P) 個欄位,我們可以將第 (1) 欄的 (X_1) 轉換為 (\frac{X_1 - \bar{X}1\mathbf{1}}{s{X_1}}),得到一個隨機向量 (Z_1)(標準化後的值)。如此一來,對 (Z) 分數(標準化分數)的迴歸模型,其係數與原始單位下的迴歸係數相同,這是顯而易見的。
若有模型 (y = \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_P X_P + \varepsilon),且定義 (Z_j = \frac{X_j - \bar{X}_j\mathbf{1}}{s_j}),其中 (s_j) 為 (X_j) 的樣本標準差,我們可以把每個 (X_j) 以此公式代入,最終得到相同的迴歸參數。
當我們以標準化的自變數擬合模型時,兩個模型的 t 值與 p 值會完全相同。例如,若選擇最大的 t 值(如 svi 為 2.949),回到原始單位時,所有變數的 t 統計量與 p 值仍保持一致。因此,無論是解釋變數的重要性還是判斷 t 值與 p 值,結果皆相同。標準化的好處在於,係數的大小直接對應於自變數變動一個標準差所產生的影響。
舉例來說,若年齡值高出平均值一個標準差,對因變數的影響可能不大;若 svi 的 z 分數提升一個標準差,則對因變數的影響較大。使用標準差單位是一種方便的資料重新縮放方式。
在評估迴歸模型品質時,我們可以計算擬合值,並將其與觀測值配對,繪製觀測值對擬合值的散佈圖。此簡單散佈圖會產生相關係數統計量,其平方稱為「多重決定係數」或 (R^2)。若熟悉簡單線性迴歸的相關係數,則可將平方的相關係數視為有用的指標;在多元迴歸中,我們以多重 (R^2) 係數概括單一相關係數,說明在給定自變數時,因變數的可預測程度。
至於檢驗迴歸模型假設,我們可以對擬合模型進行迴歸診斷,使用多種重要指標。R 的 influence.measures 函式會產生一個包含各種統計量的表格,rstudent 用於計算 studentized 殘差。
若 (\hat{\varepsilon}) 服從多變量常態分布,均值為 0,協方差矩陣為 (I - H) 乘以 (\sigma^2)。因為 (I - H) 的因素,殘差的變異可能相差很大。Studentized 殘差會將殘差除以該變異的平方根以及其估計值,因而產生非正態但 t 分布的 (\hat{\varepsilon})。稍後會看到此現象。其他統計量則衡量若加入或排除不同資料點時,迴歸參數的變化程度。
以下是此迴歸模型的 studentized 殘差結果。我們有一個單峰、對稱的直方圖;還有所謂的殘差分位圖(quantile plot),若資料符合常態分布,分位圖會呈直線,t 分布則用於以變異估計值正規化殘差。
使用這些方法處理不同迴歸問題時,會發現資料本身具有抽樣變異性。若在相同條件下重新收集資料,結果會不同。圖中的紅色帶代表在不同樣本之間可能出現的變異範圍。
此圖為 car 套件中的 influencePlot,繪製 hat 值對 studentized 殘差。hat 值是 (H) 矩陣的對角線元素。若 hat 值等於 1(即 (H_{ii}=1)),則 (\hat{y}_i = y_i),此觀測點在資料集中唯一決定該值,影響力極高。
一般而言,hat 值接近 (\frac{p}{n}),值越低表示影響力越小。studentized 殘差則以其大小呈現。我相信此投影片中所示的圓形大小與 Cook 距離成比例。使用 Cook 距離時,如果我們的 β̂ 等於 Xᵀ X⁻¹ Xᵀ y,我們可以考慮 β̂₋ᵢ,即在排除第 i 個樣本時的最小平方法估計。因此這相當於排除第 i 個樣本。
接著,我們知道這個 β̂ 服從多項式分佈(multinomial),其均值向量為真實的 β,協方差矩陣如前所示。我們實際上可以檢視 β̂₋ᵢ 或 β̂ᵢ 與 β̂ 之差,並考慮這個差距或 β 的變化幅度。由於此關係,Cook 距離實際上與卡方分佈(Chi‑squared)非常接近。
因此,我們基本上在測量 β̂ᵢ 與真實 β 之間的距離,並以協方差矩陣進行正規化。接下來,我們可以繪製各種診斷圖表,我認為使用圖形方法來突顯可能重要的資訊非常有用。
觀察來自 car 套件或 plot.lm 的繪圖時,我們可以看到殘差與擬合值的比較。我們不希望在圖中看到任何系統性的模式,理想情況是平坦的。有時候,隨著擬合值增大,殘差的絕對值也可能增大,這暗示殘差依賴於擬合值的大小。
我們也可以檢視常態 Q‑Q 圖,以判斷資料是否符合常態分佈;接著可以觀察殘差尺度的測量值。
因此,我們可以取標準化殘差的平方根(或其絕對值),觀察其變化是否隨擬合值的大小而異。此處似乎存在非線性關係,發現此類關係後,我們會進一步修正模型假設。
這個殘差圖的功能是檢測線性迴歸模型對自變量可能的非線性依賴性的敏感度。它會嘗試在模型的殘差中加入曲率項;若殘差中出現曲率,則可能需要使用非線性模型並加入相應的非線性項。
接下來,對於這個普通線性模型,我們可以考慮其背後的假設——即高斯-馬爾可夫假設(Gauss‑Markov assumptions)。若我們的迴歸模型為 y 向量與 X 矩陣,則條件期望為 Xβ,協方差矩陣為 σ²I。
在這些高斯-馬爾可夫假設下,線性模型中有一個非常重要的定理:最小平方法估計的迴歸參數是任何真實迴歸參數線性組合的最佳估計。
因此,若我們想估計參數 θ(為迴歸參數的線性組合),只要滿足高斯-馬爾可夫假設,使用最小平方法的估計值即可得到無偏且變異最小的估計量。
這類估計稱為最佳線性無偏估計(best linear unbiased estimates,簡稱 BLUE)。這個結論相當一般化。假設常數 c₁ 到 c_p 代表不同樣本的解釋變數取值,我們便可估計該樣本對應的真實平均值。
若有兩組 x 向量(代表不同樣本),我們關心的是兩者平均值的差異,則可讓 c 向量表示 x 的差異,進而估計 y 值的差異,即不同樣本的平均值差。這確實是一個非常廣泛的定理。
雖然此定理相當美妙,但仍依賴高斯-馬爾可夫假設。因此,我們可以將其概括:仍假設誤差均值為 0,但誤差的協方差矩陣為 σ²Σ(大寫 Σ 為已知矩陣)。
此類誤差協方差結構常見於時間序列模型,因為隨時間排列的資料中,相鄰時間點的誤差往往較為相關,而遠距離的誤差相關性較低;這種結構可用已知的 Σ 矩陣乘以一個比例因子來系統性地表示。
若情況如此,我們可先以 Σ⁻¹ᐟ² 左乘原始資料,同時對 X 矩陣做相同變換。如此一來,我們的模型就轉換為星號形式(Y*、X*),此時 ε* 的期望為 0,且其協方差矩陣為對角且具有恆定變異。
在此變換後的情形下,迴歸參數保持不變,ε* 亦滿足高斯-馬爾可夫假設。根據高斯-馬爾可夫定理,我們可直接以 X* 與 Y* 計算最小平方法估計;展開後即得到廣義最小平方法(generalized least squares,GLS)的估計公式。
因此,若誤差變異不均且已知其相對變異,我們可利用此廣義最小平方法公式取得最佳估計。重要的是,GLS 本質上是加權迴歸,權重與隨機變數變異的倒數成正比。
若 Σ 確實為對角矩陣且各對角線元素為不同變異,我們會對高變異的樣本給予較低權重,並以加權方式執行最小平方法計算。這就是廣義最小平方法的概念。
好,今天就先到此,下次再討論更多迴歸內容。