
用(yòng) Venn Diagram 理(lǐ)解多(duō)←Ω元線性回歸的(de) OLS 估計(jì)
發布時(shí)間(jiān):2020-10-12 | γΩ£♥ 來(lái)源: 川總寫量化(huà)
作(zuò)者:石川
摘要(yào):Venn diagram 為(wèi)理(lǐ)解多(duō)元•∞≤♦回歸模型的(de) OLS 估計(jì)提供了(le)直觀思路♠€↓↓(lù)。通(tōng)過它,人(rén)們很(hěn)容易δ≈ε搞懂(dǒng)共線性、遺漏變量造成的(de)問(w® $èn)題,并直觀的(de)感受 R-squared、回歸系數• ≥♦(shù)估計(jì)以及其誤差的(de)高(Ωε×gāo)低(dī)。
1 引言
線性回歸模型以及其估計(jì)方法 OLS 在實證資産定價中發揮了(le)©<重要(yào)的(de)作(zuò)用(yòng)。例如(rú)傳統 Fa↔&↕≠ma-French 三因子(zǐ)時(shí)序✔ 回歸模型以及 Fama and MacBeth (1973)₩λ 截面回歸都(dōu)是(shì)這(zhè)樣的(d÷∏e)例子(zǐ)。相(xiàng)信各位小(xiǎo)夥伴對(duì)>λ此都(dōu)不(bù)陌生(shēng)。
今天這(zhè)篇小(xiǎo)文(wén∞₹★™)将從(cóng)一(yī)個(gè)非常直觀的(de$₽)角度解釋多(duō)元線性回歸背後的(de)機(jī)制(zhì),并探≠γ✘討(tǎo)常見(jiàn)的(de)多(duō)重δ♥£共線性以及遺漏變量将會(huì)對(duì)回歸系數(shù)估☆γ計(jì)造成何種影(yǐng)響。這(zhè)個(gè)直↑×®↔觀的(de)角度就(jiù)是(shì) Venn Diagram(韋恩圖)。必須強調的(de)是(shì),Venn diagram 的(de)目€∞≈的(de)是(shì)提供直觀理(lǐ)解,加深人(≈$≠rén)們對(duì) OLS 估計(jì)機(jī)理(lǐ)的(de)∏✔≥認知(zhī)。Venn Diagram 由英國(guó)數(shù)學家(jiāβσ) John Venn 發明(míng),用(yòng)于展↑↑↑示在不(bù)同的(de)事(shì)物(wù)群組(γ↑集合)之間(jiān)的(de)數(shù)學或 ∏↕$邏輯聯系。
A Venn diagram, also calle €÷>d primary diagram, set ≈¶↑diagram or logic diagram, iδ↑♠s a diagram that shows all&↕ possible logical relations between a ★ δ↔finite collection of diff ♦erent sets.
例如(rú)下(xià)面這(zhè)組圖就(j¥↓iù)展示了(le)兩個(gè)集合之間(jiān)的(de¥÷ )不(bù)同關系(出處:wikipediaεσ):
那(nà)麽 Venn diagram 和(hé) OLS 又★•₩$(yòu)有(yǒu)什(shén)麽關系?将 V♣®enn diagram 用(yòng)于解釋多(duō)元線性回歸可✘(kě)以追溯到(dào) Cohen and¶₽ Cohen (1975),之後 Kennedy (1981, 2002)、I¥"σp (2001) 等在其基礎上(shàng)又(yòu)有(yǒu)了λ£§(le)大(dà)量的(de)拓展。此外(wài),邱λα$嘉平教授的(de)《因果推斷實用(yòng)計(jπ★✘☆ì)量方法》一(yī)書(shū)對(duì) Venn diagΩ↑ram 也(yě)有(yǒu)涉及。下(xià)面就(jiù)先來(lái)說(shuō)σ€€↔說(shuō)基本要(yào)素。
2 基本要(yào)素
當使用(yòng) Venn diagram 研究回歸™∑∞問(wèn)題時(shí),每個(gè)變量可(kě)被表示成一(yī)∏§γ個(gè)圓圈,而圓圈的(de)面積則用(yòn•♣&g)來(lái)表示每個(gè)變量的(de)方差 ₩≠—— 面積越大(dà)表示方差越大(dà);而兩個≈₽(gè)圓圈重疊的(de)部分(fēn)則表示兩變量相(xiàng)≈♣>互關聯的(de)部分(fēn),即協方差。以上(shàng)就(jiù)是(shì)研究的(de)基本要(yà$®♠o)素。以下(xià)圖為(wèi)例,考慮解釋變量 x 和(hé)被解釋¥"變量 y。兩個(gè)圓圈分(fēn)别表示它們各'™自(zì)的(de)方差,重疊的(de)部分(fēn) •♦σB 則表示它們共同運動的(de)部分(fēn),即 x 和(hé) y 的(d₩∞♦$e)協方差。
依照(zhào)圖中信息,y 的(de)Ω¶€↔方差 var(y) 為(wèi) A + B 的(de)面積<↔;x 的(de)方差 var(x) 為(wèi) <B + C 的(de)面積;x 和(hé) y 的(de)協方差☆¥ cov(x, y) 為(wèi) B 的(d₹♦e)面積。帶著(zhe)這(zhè)些(xiē)≈§要(yào)素,馬上(shàng)來(lá$♥i)看(kàn)單一(yī)解釋變量的(de)情況。εα♦₹
3 單個(gè)解釋變量
假設 y 和(hé) x 滿足以下(xià)線性回歸模型:
通(tōng)過 OLS 對(duì)其進行(xíng)估計(®δ®jì)可(kě)得(de)(這(zhè)裡(lǐ)我們隻關心 x_i 的(de¥≠)回歸系數(shù) b 的(de)估計(jì)®>↔β):
對(duì)應上(shàng)一(yī)節的(de) Venn diagra≥≠ αm 中的(de)定義,馬上(shàng)可(kě)以看(kàn)出 ∞↓ b 的(de)估計(jì)為(wèi)→∑↑₹ B 的(de)面積和(hé) B + C 面積之♠®比:
結合 Venn diagram 和(hé) b 估計(jì)量φσε≥的(de)定義可(kě)以總結出以下(xià)三點:
1. 在 OLS 估計(jì)時(shí),xγ 和(hé) y 重疊的(de)部分(fēn) B 将被用(yòng)來(l'∞ái)估計(jì) x 的(de)系數(shù) b;€φ如(rú)果 B 所包含的(de)信息僅和(hé) x 有(yǒu)↕ 關(而和(hé)其他(tā)解釋變量無關;多(duō)元回歸問(wèn ≠↔)題将在下(xià)一(yī)節說(shuō)明(míαφng)),那(nà)麽使用(yòng)這(zhè)部分(fēn)信息得(de£✔☆₩)到(dào)的(de) b 的(de)估計(jì)就(jiù≤₹)是(shì)無偏的(de);
2. 若 B 的(de)面積越大(dà),則用(yòng)來(lσ✔•ái)估計(jì)回歸系數(shù) b 的(de)信息越多(dπ∏uō),因此 \hat b 的(de) '¶standard error 就(jiù)越小(↓λxiǎo)(如(rú)何通(tōng)過→§$ Venn diagram 中不(bù)同部分§☆(fēn)的(de)面積推斷 standard ♠error 的(de)大(dà)小(xiǎo)将在多(duō)元回歸中說(s☆φ≤$huō)明(míng))。
3. 圖中,A 是(shì) x 無法解釋的(de) y 的(dβεπe)波動,即回歸模型中擾動項 e 的(de)方差。
以上(shàng)就(jiù)是(shì)×✔∏一(yī)元回歸的(de)直觀理(lǐ)解。
4 多(duō)元回歸
下(xià)面來(lái)看(kàn)多(duō)元↑¥回歸的(de)情況。多(duō)元回歸要&←®γ(yào)比一(yī)元回歸有(yǒu)(fu)趣(za)的(de∞ )多(duō)。為(wèi)了(le)便于理(lǐ)解,考慮兩個(gè)不Ω§λ←(bù)完全獨立的(de)解釋變量 x_1 和(hé) ₹φ✘δx_2,以及被解釋變量 y。它們之間(jiān)的(de)關系滿↔ σ₽足以下(xià)線性回歸模型:
當使用(yòng) Venn diagram ₩時(shí),它們的(de)關系如(rú)下(xià)圖所示。♥®<
從(cóng)圖中可(kě)知(zhī),x_1 和(hé© γ) y 相(xiàng)關聯的(de)部分( ♠fēn)可(kě)通(tōng)過 B + D 的(de)面積 ↑↓表示,而 x_2 和(hé) y 相(xiàng)關聯的(de)部分(fēφ≈n)則可(kě)由 F + D 表示。而這(zhè)其中 D 是(shì)共有(yǒu)的(de)部分(fēn),即×§← D 部分(fēn)表示的(de) y ∞的(de)波動是(shì)由 x_1 和(hé) x_2 共$↕★同驅動的(de)。那(nà)麽問(wèn)題來(lái)了(le),在 OLS 估計(jΩ←¥ì) b_1 和(hé) b_2 時(sΩ>♥≤hí),應該用(yòng)到(dào) Venn diagram±>δ 中的(de)哪部分(fēn)信息?得(de)到(dào)的(de)估計(j≠>ì)又(yòu)是(shì)否是(shì)無偏的(de•δ✘)?考慮以下(xià)三個(gè)選項,你(nǐ)認為(wèi)哪個(↔<&☆gè)是(shì)正确的(de)?
1. 使用(yòng) B + D 包含的(de)信息估計(jì) ↑x_1 的(de)系數(shù) b_1、F + D 包≤∞含的(de)信息估計(jì) x_2 的(de)系數(shù×∏) b_2;
2. 通(tōng)過某種巧妙的(de)方法分(fēn)割 D 的(de)信• Ω★息,使之一(yī)部分(fēn)和(hé) B 一®α∑(yī)起估計(jì) x_1 的(de)系φ>數(shù) b_1、另一(yī)部分(✘♦®fēn)和(hé) F 一(yī)起估計(jì) x_2 的(de)≈≠系數(shù) b_2;
3. 舍棄 D,僅使用(yòng) B 的(de)®$ε信息來(lái)估計(jì) x_1 的($γde)系數(shù) b_1、僅使用(yòng) F 包含的(de)↓>☆≥信息估計(jì) x_2 的(de)系數(shù) b_2。
怎麽樣?思考一(yī)下(xià)。如(rú)果你(nǐ)選擇了(le) 3,那(nà)麽×≈<恭喜你(nǐ)!1 和(hé) 2 之所以不(bù)對(duì),恰恰是(<δ÷↓shì)因為(wèi) D 部分(fēn)表示的(de) y 的(de)波₹λ動是(shì)由 x_1 和(hé) x_2 共同驅π₩動的(de),因此難以分(fēn)清兩個(gè)解釋變量各自(zì)的δ∏(de)貢獻;D 又(yòu)被稱為(wèi)被污染的(de)信息。Ω♦此外(wài),當僅使用(yòng) B 和(hé)σ∏ F 分(fēn)别估計(jì) b_1 和(hé) b_2 時(sh∏™↓í),由于 B 和(hé) x_2 無關,F 和(hé) ±←x_1 無關,因此得(de)到(dào)的(de) b_1 和(hé)♥→ b_2 的(de)估計(jì)也(yě)都≠≈(dōu)是(shì)無偏的(de)。OLS 背後的(de)數(shù)學↔γ€原理(lǐ)也(yě)恰恰保證了(le)這(zhè)✔εα一(yī)點。如(rú)果用(yòng)α↕↓" Venn diagram 圖中的(de)部分(fēn)↓ 表示,則 b_1 和(hé) b_2 的(d¶£λ>e)估計(jì)量分(fēn)别為(wèi):
除此之外(wài),和(hé)一(yī)元回歸類似,在上(shàng)←£≈圖中 A 的(de)部分(fēn)代表 y 中無法被 x_§φ×1 和(hé) x_2 解釋的(de)部分(≥λfēn),因此它是(shì)擾動項 e 的(de)方差。此外(wà₽★"i),通(tōng)過 Venn diagram 也(yě)可(∞αkě)以方便的(de)看(kàn)出可(kě)決系數(shù) R-sγφ≈quared 的(de)定義,它是(shì) B、D、 ∞σF 三部分(fēn)面積之和(hé)與 A、B、D、F 四部分(fēn)面積×↑之和(hé)之比:
有(yǒu)的(de)小(xiǎo)夥伴可(kě≈ ♣)能(néng)已經注意到(dào)了(leα¥ ),雖然在估計(jì)回歸系數(shù)時(shí)舍棄了(le) D✘♦¶×,但(dàn)是(shì)在計(jì)算(suàn) R÷∞ β-squared 時(shí)卻沒有(yǒu)。這(zhè)÷☆★是(shì)因為(wèi) D 是(shì)兩個(gè)解釋變量共同✔≤☆ε解釋 y 的(de)部分(fēn)。雖然我們無法分(fēn)清每個σ$γ(gè)變量貢獻了(le)多(duō)少(shǎo),但(dàn)∑₹→它們作(zuò)為(wèi)一(yī)個(gè)整體(tǐ)依然對(↑ ₩duì)解釋 y 的(de)波動有(yǒu)貢獻,因此♦©在計(jì)算(suàn) R-squared 時(shí)應考慮 Venn φ✔δdiagram 中 D 的(de)面積。α♥
回到(dào)我們關注的(de)問(wèn)題 —— 實證✔¶ ¶資産定價,僅僅得(de)到(dào)回歸系數(shù)的(de)估計(jì©§σ)是(shì)不(bù)夠的(de),很(h¥✘☆ěn)多(duō)時(shí)候都(dō↔u)要(yào)知(zhī)道(dào)估計(jì)的 ♠↕(de) standard error,才能(néng)進行(xín±♣g)檢驗。由 OLS 性質可(kě)知(zhī),對(duì)±β∏☆于回歸系數(shù) b_i,其估計(jì)值的(de)方差可(kě)由下(₽'≈xià)式決定:
式中的(de)分(fēn)子(zǐ)是(shì)模型中¶♥随機(jī)擾動項的(de)方差(實際中代入樣本方差♠♠即可(kě),再對(duì)上(shàng)式開(kāi)根号就(j∞₩→'iù)得(de)到(dào) standard erro≠≤Ω÷r)。R_i^2 為(wèi)用(yòng) x_i 對(duì)×₹₩其他(tā)所有(yǒu) x_j 回歸的♣'δ(de)可(kě)決系數(shù);R_i^2 越高(gāo)說(shuō)明(míng) x_i→&™ε 和(hé)其他(tā)解釋變量相(xiàng)關性越高(gāo)。§≠&最後,SST_i 是(shì)變量 x_i 的(de) total sa✘€♥φmple variation(不(bù)難看(kàn)出它λ★ >和(hé) x_i 的(de)方差就(ji↓ε∏ ù)差一(yī)個(gè)系數(shù)):
Var(\hat b_i) 的(de)表達式說(shuō)明(míng),當 x_i 自(zì)身(shēn)的(de)波動越大(dà)且/或 x_★♣←♦i 和(hé)其他(tā)解釋變量的(de¶ε)相(xiàng)關性越低(dī)時(shí♦↔α≥),其估計(jì)誤差越小(xiǎo)。
由于 Venn diagram 中的(de∏×)面積表示方差或協方差,且結合前述 R-sq♠₹δ∑uared 的(de)定義,就(jiù)可(k♦™™ě)以通(tōng)過 Venn diagram 中的™Ω<(de)元素清晰的(de)反映出 var(\hat b_i) 的(de)表達♥ε ε式。舉例來(lái)說(shuō),在本≈"₹§節考慮的(de)二元回歸模型中,x_1 的(≤§de)回歸系數(shù)估計(jì) \hatγ&♣ b_1 的(de)方差如(rú)下(xià)圖所示。
顯然,當 B + C 的(de)面積非常小(xiǎo)時(shí),var☆φ¶(\hat b_1) 就(jiù)會(huì)非常大(dà)。什$≤(shén)麽時(shí)候 B + C 會(huì)非常小≤∑¥™(xiǎo)呢(ne)?解釋變量之間(jiān)存在高(gāo)度相(x£♠iàng)關時(shí)就(jiù)會(huìα &¥)出現(xiàn)這(zhè)種情況。下(xià)面就(jiù)來(lái)討(tǎo)論這(zhè) ♠₩Ω一(yī)問(wèn)題。
5 高(gāo)度共線性
多(duō)元回歸中,經常遇到(dào)的(de)問(wèn¥→₹ε)題就(jiù)是(shì)解釋變量之間(jiσ$→ān)高(gāo)度相(xiàng)關。以下(xià)面兩圖為(wè&¥i)例,左邊是(shì)一(yī)個(gè) x_"λ↕1 和(hé) x_2 有(yǒu)正常關系的☆≠(de) Venn diagram,右側則是(shì) <©x_1 和(hé) x_2 高(gāo)度共線性的(de) V♥×enn diagram。二者的(de)相(xià∏♥★ng)關性體(tǐ)現(xiàn)在 x_1 和(hé) x_2 的₩α¶(de)圓圈重疊部分(fēn)非常大(dà)(即 D β<÷♥+ E 的(de)面積非常大(dà))。
由 OLS 可(kě)知(zhī),由于 D 部分(fēn)是(sπhì)被污染的(de)信息,因此在估計(jì) b_1 和(hé)$☆✔ b_2 時(shí)被舍棄了(le)。如(rú)果 ©♣↔€D 的(de)面積非常大(dà)(解釋變量高(↔±£gāo)度相(xiàng)關),那(nà)麽剩餘的(d≠₩♥e)面積(上(shàng)圖中的(de) B 和(hé) F)就(jiù)會( δ₩∑huì)很(hěn)少(shǎo),相(☆™xiàng)當于隻有(yǒu)很(hěn)少(≥λshǎo)的(de)信息用(yòng)來(lái)>∞估計(jì) b_1 和(hé) b_2,因此可→ ↕(kě)想而知(zhī)估計(jì)誤差就(jiù)會≥λ≥(huì)更高(gāo)。在極端情況下(xià),當 x_1 和(hé) x$✔α_2 完全共線性時(shí)(即代表它們的(de)兩個(gè)圓圈完α®λ全重合),則 B 和(hé) F 均消失,這(zhè)時(shí)将沒★>∞¶有(yǒu)任何信息用(yòng)來(lái)估計(jì) b_1 和(hé)✘¶$$ b_2。依照(zhào)上(shàng)一(yī)節給出的¥λ¶φ(de) var(\hat b_i) 的(deε≈↓→)直觀解釋,var(\hat b_1) 和(hé) var(\hat€σ'π b_2) 分(fēn)别滿足:
當存在高(gāo)度共線性時(shí),B、C、F、G 都(dōu)會(hu±♠β¶ì)變得(de)非常小(xiǎo),因此上(∏∑shàng)述中的(de)分(fēn)母就(jiù)會(huì)非常小(xi ♥€ǎo),導緻很(hěn)大(dà)的(d£★e)方差。但(dàn)需要(yào)強調的(de)★☆< 是(shì),即便存在高(gāo)度共線性,但(dàn)上(shàng↓§π)述 OLS 中 b_1 和(hé) b_2 的(de₹$φπ)估計(jì)也(yě)是(shì)無偏的(de),因為(wèi)依然僅使用(yòng)了(le) B 和(hé) →←F 來(lái)分(fēn)别估計(jì),而沒有™₽↓₩(yǒu)用(yòng)到(dào)被污染的(de)信息 D。另一(yī)方面,由 R-squared 的(d¶≤÷e)定義可(kě)知(zhī),在計(j₩γ÷δì)算(suàn)它時(shí)無需剔除 D。因此,♠±©<這(zhè)将會(huì)造成一(yī)個(gè)& $非常有(yǒu)意思的(de)現(xiàn)象,即當高(gāo)度共線性存在時(shí),R-sq $uared 很(hěn)大(dà)(即所有(yǒu)解釋變量有("σyǒu)很(hěn)好(hǎo)的(de)共同解釋力),但(dàn)每≈×↕個(gè)解釋變量的(de)回歸系數(shù)卻都(dōu)不(b≈£≠×ù)顯著(因為(wèi) standard✘↕ error 太大(dà))。在實際數(shù)據中,如(rú)果發現(xiàn)這(zhè)個ε®¶"(gè)現(xiàn)象,很(hěn)可(kě)能(n✘γ✘éng)是(shì)多(duō)重共線性惹的(deβ•)禍。
既然談到(dào)相(xiàng)關性,再捎帶手聊一(yī)下(x♦☆₽ià)正交化(huà)的(de)問(wèn)題。假設使用(y± δ òng) x_2 對(duì) x_1 回歸,求出殘差作(z ∑₹∏uò)為(wèi)正交化(huà)之後的(de) x_2,記ε₹♣為(wèi) ox_2。下(xià)圖中右側 Venn diagr<★∞♣am 中的(de)紅(hóng)色“月(yuè)牙”就(jiù)是(s↑$hì) ox_2,綠(lǜ)色是(shì)不(≥★δbù)受影(yǐng)響的(de) x_1。
從(cóng) Venn diagram 不(€☆bù)難看(kàn)出,當不(bù)正交化(huà)時(✔φ↑¶shí)(上(shàng)方左圖),會(huì)使用(yò↕'₩✔ng) B 和(hé) F 分(fēn)别估計(jì) b_1 和(★≤♣hé) b_2;而當對(duì) x_2 正交化(huà)之後(上(s→≠∏ hàng)方右圖),則會(huì)使用(yòng) B + D>≠σ 估計(jì) b_1、使用(yòng) F 來(lái)><估計(jì) b_2。因此對(duì) x_2 正交化(huà)對(duì"★) b_2 的(de)估計(jì)是(shì)沒有(yǒu)影(yǐn✘∏g)響的(de),但(dàn)其依然會(huì)影(yǐng)€↔∞→響 b_1 的(de)估計(jì)結果。以下(xià)是(shì)一(yī €↔$)個(gè)簡單的(de)例子(zǐ)說(shuō)明(míng)上(shà↓ng)述這(zhè)一(yī)點。
由于正交化(huà)後的(de) ox_2 Ω÷和(hé) x_1 不(bù)相(xiàng)關(體(tǐ)現σ↕β₩(xiàn)在圖上(shàng)就(jiù)是(shì)兩者不(bù>♦₩)相(xiàng)交),因此模型一(yī)(僅有(yǒu) x_1)<$ 和(hé)模型三(包含 x_1 和(hé) ox_2)中 ♣×$b_1 的(de)估計(jì)值是(shì)一(yī)¥↓≈π樣的(de)。另一(yī)方面,由于正交化(>™huà) x_2 不(bù)改變 x_2 的(de)估計(jì),因此在模型二≤♥(包含 x_1 和(hé) x_2)和(hé)三中,b_2 的(de)估®€計(jì)值是(shì)一(yī)樣的(de)∏&。最後,由于在模型三中,x_2 被正交化(huà<∏↓),因此 B + D 被用(yòng)來(lá&±±i)估計(jì) b_1,因此相(xiàng)比模型二,其估計(jì)值的(dδ ↓e) standard error 更低(dī)。
6 遺漏變量
通(tōng)過下(xià)圖解釋遺漏變量問(wèn)題。假設解釋<¶γ 變量 x_1、x_2 以及被解釋變量 y 的(de)關系如(rúΩ®™) Venn diagram 所示,并考慮圖中兩個(gè)模型,其中模型一(y§€ī)因為(wèi)僅考慮了(le) x_1,因此存在遺漏ε∞變量問(wèn)題。
對(duì) x_1 的(de)系數(shù®α) b_1 來(lái)說(shuō),在這(zhè)兩個(gè)模&÷型中,其 OLS 估計(jì)分(fēn)别為(wèi):↕&§
由于遺漏變量,第一(yī)個(gè)模型錯(cuò)誤的(de)使用(yòn •g) D 所包含的(de)信息(被污染的(de)信♦≤<息),因此第一(yī)個(gè)模型中 b_1 的(de$σ>)估計(jì)是(shì)有(yǒu)偏的(de)(例外(wài)是(shì) x_1 和(£$&≤hé) x_2 不(bù)相(xiàng)關,則 D 不(bù)存±↓在)。然而,遺漏變量也(yě)并非都(dōu)是¶♦(shì)缺點,其優點(姑且算(suàn)作(zuò)優♣♣ ™點)是(shì)由于更多(duō)的(de)信息≠•<←(D)被用(yòng)來(lái)估計(jì≥) b_1,因此它的(de) standard error 更低(dī₽§)。另一(yī)點值得(de)說(shuō)明(míng)的(de)是(sh↕§₩≥ì),當遺漏 x_2 時(shí),由 Venn diagram 可(kě↓¶π¥)知(zhī),圖中 A + F 的(d$≠£e)面積被錯(cuò)誤的(de)當作(zuò)擾動項 e 的('®₩•de)方差;而實際當同時(shí)使用(yòng)₩÷π x_1 和(hé) x_2 時(shí),其<ε< 方差應為(wèi) A。遺漏變量造成擾動項 e 的(de)方差被高(gāo)估。
最後,若 x_1 和(hé) x_2 不(bù)相σ∏₹ (xiàng)關時(shí)(下(xià)圖;解釋變量不(bù)相(xi àng)關體(tǐ)現(xiàn)在 Ve λ₽∑nn diagram 上(shàng)代表 x_1 和(hé↓₩) x_2 的(de)兩個(gè)圓圈沒有(yǒu)重疊),則遺漏 γ&'x_2 不(bù)會(huì)對(duì)ε™> b_1 的(de)估計(jì)造成影(yǐng)響φ€ ≥。這(zhè)是(shì)因為(wèi)無論是(shì) y 僅對(dαΩ∏uì) x_1 回歸還(hái)是(shì)同§$時(shí)對(duì) x_1 和(hé) x_2 回歸,在估計(₹÷÷jì) b_1 時(shí)用(yòng)到(dà∏ ✔o)的(de)均是(shì) B 的(de≤↕")信息。由于 x_1 和(hé) x_2 不(bù)相(xiàng)關,因♠此區(qū)域 B 不(bù)受 x_2 的(de)影(yǐng)響。
7 結語
通(tōng)過利用(yòng) Venn diagram,人(rén)們¶¥λσ很(hěn)容易搞懂(dǒng)共線性、遺漏變量造成的(de∏α)問(wèn)題,并直觀的(de)感受 R-squar•↔ed、回歸系數(shù)估計(jì)以及其誤差的(de)高(gāo)低 ←'(dī)。照(zhào)例總結一(yī)下(xià):當存在共線性時(shí),估計(jì)依然是(shì)無偏的(de),但(dà₩•≥n)是(shì) standard error 會(huì)變大(dà);而<λ當存在遺漏變量且遺漏的(de)變量和(hé)現(xiàn)有(yǒ←↔©←u)的(de)解釋變量相(xiàng)關時(shí),那(nà)麽估計β∑≠(jì)将會(huì)是(shì)有(yǒuπ≈)偏的(de)、但(dàn) standard error 會(hu₽∑ì)降低(dī),且 y 的(de)擾動項π 的(de)方差會(huì)被高(gāo)估。
不(bù)過 Venn diagram 也(yě)絕非無所不(bù)能(♠←néng)。比如(rú)圖中重疊的(de)部分(fēn)僅僅表示兩個↕∑π(gè)變量之間(jiān)存在相(xiàng)關性,♦↔ε±但(dàn)它無法說(shuō)明(míng)ε♥φ是(shì)正相(xiàng)關還(hái)是(shì)負相(xi↕λ>àng)關。無論如(rú)何,Venn diagram 為(wèi)加深人(÷✘∑ rén)們對(duì)多(duō)元回歸模型的(de) OLS 估計(j↓•™±ì)的(de)理(lǐ)解提供了(le)非常直×∏觀的(de)思路(lù),是(shì)一> (yī)個(gè)非常好(hǎo)用(yòng)的(de)思考工(g↑§±≠ōng)具。希望本文(wén)的(de)介紹能(néng↕¥☆≈)帶給你(nǐ)這(zhè)種體(tǐ)會(huγβ®★ì)。
參考文(wén)獻
Cohen, J. and P. Cohen ® "♠(1975). Applied Multiple Regression/Correlati©∏∑on Analysis for the Behavioral Sciδφ€$ence. Hillside, NJ: LawreΩ"nce Erlbaum Associates.
Fama, E. F. and J. D. M£βacBeth (1973). Risk, return, $≥and equilibrium: Empiα₹'≈rical tests. Journal of Political Economy 81(3), 607 – 636.
Ip, E. H. S. (2001). Visualizing muε×¶ltiple regression. Journal of Statistics Educa÷αδtion 9(1).
Kennedy, P. E. (1981). The “€≈↔→Ballentine”: A graphical aid αfor econometrics. Australian Economic Pa ♠ pers 20(37), 414 – 416.
Kennedy, P. E. (2002). More on Venn Diγ®×€agrams for regression. Journal of Statistics Education 10(1).
邱嘉平 (2020). 因果推斷實用(yòng)計(jì)量方法. 上(shàng)海(hǎi)财經大(dà)學出版社.
免責聲明(míng):入市(shì)有(yǒu)風(fēng)險,投資需謹慎。在任何情∞"☆♥況下(xià),本文(wén)的(de)內(nèi∑γ)容、信息及數(shù)據或所表述的(de)意見×∞≤≈(jiàn)并不(bù)構成對(duì)任何人(rén)的(d₹e)投資建議(yì)。在任何情況下(xià& "),本文(wén)作(zuò)者及所屬機(jī)構不φ↓±☆(bù)對(duì)任何人(rén)因使用(yòng)本文(wén)的(de∞←)任何內(nèi)容所引緻的(de)任何損失負§$≈任何責任。除特别說(shuō)明(míng)外(w&✔↕ài),文(wén)中圖表均直接或間(jiān)接來(lái)自(zì)于™©相(xiàng)應論文(wén),僅為(wèi)→→€"介紹之用(yòng),版權歸原作(zuò)者和(hé)期刊所有(yǒu&←<)。