
用(yòng) Bootstrap 進行(xíng)參數(shù)估計(ε÷™jì)大(dà)有(yǒu)可(kě)為(wèi)
發布時(shí)間(jiān):2017-09-18 | ¶₩ 來(lái)源: 川總寫量化(huà)
作(zuò)者:石川
摘要(yào):本文(wén)介紹如(rú)何φ€β使用(yòng) Bootstrap 進行(xíng)參數ε∏(shù)估計(jì)。該方法對(duì)總體(tǐ)↕₹分(fēn)布不(bù)做(zuò)假設,可(kě)以用(yòng☆∏✘♥)于各種統計(jì)量,十分(fēn)強大(✔ ♦£dà)。
1 從(cóng) t 分(fēn)布說(shuō)起
在量化(huà)投資領域,有(yǒu)大(d✔✔£↑à)量需要(yào)進行(xíng)參數(shù)估≤計(jì)(parameter estimation₹')的(de)場(chǎng)景。比如(rú)在按照(zhào)馬科(kē)維茨的(de)均值方差框架配置資 βγφ産時(shí),就(jiù)必須計(jì)算(suàn)投資品∏≤的(de)收益率均值和(hé)協方差矩陣。很(hěn)多(duō)時(shí)候,對φ(duì)于需要(yào)的(de)統計(jì)量,僅有(yǒu)點估計(jìΩ®>)(point estimate)是(shì)不(bù)夠的(de)λ>",我們更感興趣的(de)是(shì)從(cóng)樣本數→(shù)據得(de)到(dào)的(de)點估計(jì)和(hé)該統>♥♦計(jì)量在未知(zhī)總體(tǐ)中的(de)真實↑≈ε∏值之間(jiān)的(de)誤差。在這(zhè)方面,區(qū)間(jiān)估計(∏∑λjì) —— 即計(jì)算(suàn)出目标統計(jì)量的(de)置信區(qū)間(jiān)(confidenc¥∑≥e interval)—— 可(kě)以提供我們需要(yào)的(de)信息。
談到(dào)置信區(qū)間(jiān),人×↔(rén)們最熟悉的(de)當屬計(jì)算(suàn)總體(tǐ)均值(population mean)的(de)置信區(qū)間(jiān)。這(zhè)↕•>是(shì)因為(wèi)在中心極限定理(lǐ)(Central Limit T©€♦'heorem)和(hé)正态分(fēn)布假設(Normal distribut ≠ion)下(xià),總體(tǐ)均值的(de)置信區(qū)間(¶☆jiān)存在一(yī)個(gè)優雅的(de)解'>析表達。利用(yòng)樣本均值和(hé)其 standard erro♥r 計(jì)算(suàn)出的(de) test statistic γ♦滿足 t 分(fēn)布(Student's t-distribu≥ ↑tion),通(tōng)過查表找到(dào)置信區(<∏÷qū)間(jiān)兩邊各自(zì)對(duì)應的(dδ®e) t 統計(jì)量的(de)臨界值(crit₩★ical value)便可(kě)以方便的(de)₹±™求出置信區(qū)間(jiān)。由于 t 分(fēn)布是(shì)對(du≠↓πì)稱的(de),因此總體(tǐ)均值的(de)置信α區(qū)間(jiān)是(shì)關于樣本均值對(duì)稱的(de)。≠π♣
讓我們稱上(shàng)述計(jì)算(↔π★↔suàn)置信區(qū)間(jiān)的(de)方法為(wèiβ"©)傳統的(de) Normal Theo₽÷& ry 方法。我想花(huā)點時(shí)間(jiān)來(lá∏i)聊聊該方法背後的(de)兩個(gè)強大(dà)假設:中心極限定β∑理(lǐ)和(hé)正态分(fēn)布。假設總體(tǐ)滿足正态分(fēn)布,而我們想計(jì¶±¥→)算(suàn)均值的(de)置信區(qū)間(jiān¥")。如(rú)果總體(tǐ)的(de)标準差 σ 已知(zhī≠δ≤),則可(kě)以使用(yòng)正态分(fēn)布計(jì)算(su∑δ∞àn)均值的(de)置信區(qū)間(jiān);如(rú)果 σ ↓未知(zhī),則使用(yòng)樣本的(de)标準差 s 代替,并且∞₹利用(yòng) t 分(fēn)布來(lái)代替♣ 正态分(fēn)布計(jì)算(suàn)均值的(de)計(jì)算(sβ÷uàn)區(qū)間(jiān)。這(zhè)就(jiù)是("₽₽shì) t 分(fēn)布被提出來(lái)的(de)初衷≠γ。因此,使用(yòng) t 分(fēn)布計(jì)算(suàn)均值的(de)置§π®↕信區(qū)間(jiān)隐含著(zhe)總體(tǐ)分(fε∞₹★ēn)布滿足正态分(fēn)布這(zhè)個(gè)假設。但(dàn)是(shì),對(duì)于實際中的(de≠ ≤)問(wèn)題,總體(tǐ)并不(bù)滿足正态分(fēn)布,≈α©¶因此看(kàn)起來(lái)我們不(bù)能(néng)使用(yòng) tσφ§↓ 分(fēn)布計(jì)算(suàn)均值的(de)置信區(qū)間©±♣π(jiān)。好(hǎo)消息是(shì),我們還(há∑i)有(yǒu)另外(wài)一(yī)個(gè)“大(dà)•'α招”:中心極限定理(lǐ)。中心極限定理(lǐ)告訴我們,不(bù)>ε管總體(tǐ)的(de)分(fēn)布是♣"≠±(shì)什(shén)麽樣,總體(tǐ↓™)的(de)均值近(jìn)似滿足正态分(fēn)布,因此我們仍然可(kě)以'→✘→使用(yòng) t 分(fēn)布計(j∏₩φ"ì)算(suàn)置信區(qū)間(jiān₹ ♣≥)。
中心極限定理(lǐ)是(shì)概率論中的(de)一(yī↑ε)組定理(lǐ)。中心極限定理(lǐ)說(δπshuō)明(míng),大(dà)量相(xiàng)互獨立的(de&♠δ)随機(jī)變量,其均值的(de)分(fēn)布以正态分(fēn)布∑∏≈★為(wèi)極限。這(zhè)組定理(lǐ)是(s←♦÷hì)數(shù)理(lǐ)統計(jì)學和(hé)誤差分(fē♥δ<↔n)析的(de)理(lǐ)論基礎,指出了(le)大≠>•(dà)量随機(jī)變量之和(hé)近(jìn)似服從(cóng)正态分♣<≈(fēn)布的(de)條件(jiàn)。
可(kě)見(jiàn),對(duì)于一(yī)個(gè)未知(zhī™∏÷)分(fēn)布總體(tǐ)均值的(de)¶£推斷,我們必須倚賴中心極限定理(lǐ)和(hé)正态分(fēn)布的(d>∞Ωe)假設。如(rú)果未知(zhī)分(fēn)布非常不™§(bù)規則或樣本數(shù)不(bù)'£≥×足,則中心極限定理(lǐ)指出的(de)均值近(jìn)似為(wèi© ↑)正态分(fēn)布便難以成立,而基于 t 分(fēn)布¶↓ 計(jì)算(suàn)出來(lái)的(de)均值置信區(qū)間(ji¶φ↕←ān)也(yě)不(bù)夠準确。除了(le)均值外(wài),對(duì)于人(rén)們關心的(de)許₽ ≠多(duō)其他(tā)統計(jì)量,比如(rú) σ✘中位數(shù)、分(fēn)位數(shù)、标準差、<或者相(xiàng)關系數(shù),它們與均值不(bù)同,無法從(<₹cóng) Normal Theory 中可(kě)以得(de)到¶¶(dào)優雅的(de)解析表達式來(lái)計(®★→jì)算(suàn)其置信區(qū)間(jiān),因♣此上(shàng)述傳統方法無能(néng)為(wèi)力§ φ。從(cóng)上(shàng)面的(de)分(f÷ēn)析可(kě)知(zhī),僅僅掌握傳統的(de) Normal Theo∏"<→ry 方法局限性很(hěn)大(dà),使得(de)我們在求解置信區(qū)間σ§(jiān)的(de)很(hěn)多(duō)問(wèn≥≠)題面前舉步維艱。因此,今天就(jiù)給大(dà)家(jiā)介ε™紹一(yī)個(gè)利器(qì) —— Bootstrap 方法。它在計(jì)算(suàn)統計(jì)量的(d✔∏✘βe)置信區(qū)間(jiān)時(shí)大(dà)有(yǒu)可(kě☆☆)為(wèi)。
2 Bootstrap 方法
The bootstrap is a computer-•£↔based method for assigning meas↓ures of accuracy to statiπΩ×stical estimates. -- Efron & Tibshira≈∑¥ni, An introduction to∑ ' the bootstrap, 1993
自(zì) 1979 年(nián)以來β(lái),Bootstrap 方法得(de)到(dào)了(le)廣泛的★¥(de)推廣,其始作(zuò)俑者是(shì) B☆$€radley Efron (Bootstrap 這(zhè)個(>gè)詞也(yě)是(shì)他(tā)發÷"β×明(míng)的(de))。它的(de)核心思想是(shì)通(tōng)過£∑↕使用(yòng)數(shù)據本身(shēn),從(cóng₩©₽↓)而估計(jì)從(cóng)該數(shù)據中計(jì∏δ'∞)算(suàn)出來(lái)的(de)統計(jì)數(sΩ♠£hù)據的(de)變化(huà)。現(xiàn)代計(jì)算(suàn)機(jī)強大(dà)的(de)計(j"₹ì)算(suàn)能(néng)力使得(de)該方法的(de→✔)實現(xiàn)非常簡單。Bootstrap 一(yī)詞出自(zì)英文(wén)習(xí)≠€σ語“pull yourself up by yourεδ≥ bootstraps”,它的(de)直譯是(s♣εαhì)“通(tōng)過拉你(nǐ)自(zì)己靴★∏§←子(zǐ)的(de)鞋帶把你(nǐ)自(zì)己從(cóng)地(dì)面上₩₩₽↑(shàng)拉起來(lái)”。它的(de ÷)隐含意是(shì)“improve your situat
ion by your own efforts”,即“通 σ(tōng)過你(nǐ)自(zì)己的(de)努力(而非他(tā)人(r₽§én)幫助)來(lái)解決困難改善處境”。因此,₩λBootstrap 一(yī)詞就(jiù)代表了(le)“自(zβì)力更生(shēng)”。放(fàng)到(dào)參數(shù)估計(≤→jì)的(de)上(shàng)下(xià)文(wén)中,Bootstrap 意味著(zhe)我們僅僅通(tōng<↑×€)過使用(yòng)手頭上(shàng)的(de)樣本數(shù)據←>♠(樣本數(shù)據“自(zì)力更生(shēng)”)而不(b↕↔ε€ù)對(duì)總體(tǐ)的(de)分(fēn)布做(zuγ§₹ò)任何假設(比如(rú)傳統方法中的(ש★δde)正态分(fēn)布假設),來(lái)計(j←σì)算(suàn)樣本統計(jì)量在估計(jì)總體(tπ$λǐ)統計(jì)量時(shí)的(de)誤差。'₩✘
The central idea is that it Ω"£may sometimes be better to draw ≈σconclusions about the character✘λ"★istics of a population £₽strictly from the sa₩×mple at hand, rather t₹✔han by making perhaps unrea§✔×¥listic assumptions about ↔♥₹γthe population. -- Mooney δ£&φ& Duval, Bootstrapping, 1993
目标夠偉大(dà)(樣本數(shù)據自(zì)力更生(shēng₩→♦)),但(dàn)具體(tǐ)要(yào)怎麽做(zuò)呢(neε<★)?如(rú)何僅僅通(tōng)過(反複的(de))使用(yòng)手頭的(dγ↔≤↕e)數(shù)據來(lái)對(duì)同樣從(cóng)這(zh≥≥'è)些(xiē)數(shù)據中得(de)到(dλ↑ào)的(de)統計(jì)量進行(xíng£<)誤差估計(jì)呢(ne)?這(zhè)裡(lǐ)面要(yào)用(yòng)↕®♥到(dào)一(yī)個(gè)非常重要(yào)的(←εde)技(jì)巧:可(kě)置換的(de)重采樣(resampling wiδ ÷δth replacement)。在這(zhè)個(gè)定義中,“可(↕kě)置換”是(shì)核心。什(shén)麽是(¶↔shì)“可(kě)置換”呢(ne)?舉個( ↓∞gè)例子(zǐ)。假設袋子(zǐ)裡(l♦≠÷ǐ)有(yǒu)标号 1 到(dào) 10 的(de→α)小(xiǎo)球。我們“可(kě)置換”地™ε∏(dì)不(bù)斷地(dì)從(cón≈♥g)袋子(zǐ)裡(lǐ)随機(jī)抽出小(xiǎ≥§€o)球。第一(yī)次抽出了(le) 3 号≤≤×σ小(xiǎo)球;“可(kě)置換”是(shì)說(shuō)在下(xià)一♣ ✔'(yī)次抽取之前把 3 号小(xiǎo)球重新放(fàng)回到(dào)袋δ®子(zǐ)裡(lǐ);即在第二次抽取的(de)時(shí)$'¶•候,我們仍然有(yǒu)可(kě)能(néng)再次抽到(d™∞↓ào) 3 号小(xiǎo)球(它和(hé)其他(tā)ε<π 9 個(gè)球被抽到(dào)的(de)概率是(shì)一(y≈φεī)樣的(de)),這(zhè)便是(shì)•←¶∞可(kě)置換的(de)含義。作(zuò)為(wèi)對(duì)比• ,生(shēng)活中更多(duō)的(de)是(shì♣"•)“無置換的(de)抽取”,比如(rú)體(tǐ)彩 36 中 7 或者世界'₩★杯抽簽,抽出的(de)小(xiǎo)球都(dō> u)不(bù)會(huì)再放(fàng)$☆回池子(zǐ)中。
下(xià)面就(jiù)來(lái)看(kàn)看(kàn) Boo✘∑&tstrap 的(de)原則。假設我們有(yǒu)如(rú)下(xià)設定:¶£±
1. 令 v 代表我們感興趣的(de)一(yī)個(gè)總Ω ÷體(tǐ)統計(jì)量(比如(rú)均值、中位數(shδ£ù)、标準差等),它來(lái)自(zì)未知(z↓∞♥£hī)的(de)總體(tǐ)分(fēn)布 F。
2. 令 x1, x2, …, xn 為(wèi)來(lái)自(zì)總體(t♠☆ǐ)的(de)一(yī)組樣本數(shù)據,它們稱為(wèi)原始≤¶→♠樣本數(shù)據。
3. 令 u 代表從(cóng)該樣本中計(jì)算(γ$£suàn)出的(de)統計(jì)量。
4. 以原始樣本數(shù)據中的(de)數(shùφ≤ )據作(zuò)為(wèi)“總體(tǐ)”,進行(xíng≥γ)可(kě)置換的(de)重采樣,得(de)到(<→dào)一(yī)個(gè)重采樣樣本(又≈™(yòu)稱為(wèi) Bootstrap 樣本↑α¥>),記為(wèi) x1*, x2*, …, xn*(重采樣樣本中的(de∞₽§)數(shù)據個(gè)數(shù)必須和(hé)原始樣本數(sh¥ §↑ù)據中的(de)數(shù)據個(gè)數(shù)相(<λβxiàng)同)。
5. 令 u* 代表利用(yòng)上(shàng)述☆←★Ω Bootstrap 樣本數(shù)據計(jì)<←算(suàn)出來(lái)統計(jì) &Ω量。
Bootstrap 原則指出:“Bootstrap 樣本統計(jì)量®•πε u* 圍繞原始樣本統計(jì)量 u 的(de)變化(huà)(簡稱為(✘♥←≠wèi) u* 的(de)變化(huà))” 是(shì)∞₹ “原始樣本統計(jì)量 u 圍繞總體(tǐ)統計(jì® ∑)量 v 的(de)變化(huà)(簡稱為(wèi) u 的(de☆α)變化(huà))” 的(de)一(yī)個(gè)很(hěn)好(♠↑→hǎo)的(de)近(jìn)似。
為(wèi)了(le)計(jì)算(suà" ±n) u* 的(de)變化(huà),我ε&們隻需要(yào)對(duì)原始樣本數(shù)據進行(xíng)大(dβ∞≠à)量的(de)可(kě)置換重采樣(為(wèi)此需要(yào)使用(yòng)計(jì)算(suàn)機(jī×γ)的(de)計(jì)算(suàn)能(néng)力,在沒♥©₽有(yǒu)計(jì)算(suàn)機(jī)的(de)年(n♣¥ián)代,手動進行(xíng)大(dà)量重采樣的(de)工(gōng)作(±∏≈zuò)量可(kě)想而知(zhī)),得(de)到(dào)許多(duō) ∑'Bootstrap 樣本,并從(cóng)每個(gè)樣本π× 中計(jì)算(suàn)出統計(jì)量 uφ₹* 的(de)一(yī)個(gè)取值,這(zhè)些(xiē)取值便構成 u€≤* 的(de)分(fēn)布。使用(yòng) u*'$ 的(de)分(fēn)布計(jì)算(suàn)出 u* 如(rú)何圍繞←÷∞ u 變化(huà),以此來(lái)推斷α ™統計(jì)量 u 如(rú)何圍繞 v 變化(huà)。顯然,統™☆≈β計(jì)量 u 的(de)變化(huà)與樣本大(d☆¶à)小(xiǎo)有(yǒu)關。因此用(yòng) u* ☆$的(de)變化(huà)作(zuò)為(wèi) u 的(de)變化♥↓♦(huà)的(de)近(jìn)似的(de)±ε前提是(shì)每個(gè) Bootst♥→☆≈rap 樣本的(de)大(dà)小(xiǎo)和(♥>₽Ωhé)原始樣本大(dà)小(xiǎo)相(xiàn∏→g)同。根據 Bootstrap 原則,使用(yò★π✘ng)經驗 Bootstrap 方法(empiricalββ Bootstrap method)就(j" iù)可(kě)以計(jì)算(suàn∞¥φ)任何總體(tǐ)統計(jì)量的(de)置信區(qū)間(jiān)。δ€₽★
3 經驗 Bootstrap 方法
我們以計(jì)算(suàn)某未知(zh★✔∑☆ī)分(fēn)布均值的(de)置信區(qū)間(jiān)為(wφ>èi)例說(shuō)明(míng)經驗 Bootstrap 方法。假設我們從♥ (cóng)某未知(zhī)分(fēn)布的(de)總體(tǐ)中 ₩♦α得(de)到(dào)下(xià)面 10 個(gè)樣本數(shù)>$據:30,37,36,43,42,48,43,46,41,42。我們的(de)問(wèn)題有(yǒu)兩個(gΩ₩β♠è):(1)估計(jì)總體(tǐ)的(π≥de)均值(點估計(jì)),(2)計(jì)算(su§¶←&àn)置信水(shuǐ)平為(wèi) 80% 的(d₽>£↓e) Bootstrap 置信區(qū)間(jiān)。第一(yī)個(gè)問(wèn)題很(h™&★'ěn)容易回答(dá),樣本均值 40.8 就(ji✔∑↓βù)是(shì)總體(tǐ)均值 μ 的(de)點估計(jì)。對(duì×$)于第二個(gè)問(wèn)題,由于樣♠₩δ本點太少(shǎo)(僅有(yǒu) 10 個(gè' ))且總體(tǐ)分(fēn)布未知(zhī)(無法做£"↑(zuò)正态分(fēn)布假設),因此我們摒棄傳統的(deλ≥)方法,而采用(yòng)經驗 Bootstrap 方法計(j®♣≠↕ì)算(suàn)其置信區(qū)間(jiān)。
計(jì)算(suàn) μ 的(de)置信區(q×αφū)間(jiān)的(de)本質是(shì)回答(dá)這(zhè)樣一(y₹≥±ī)個(gè)問(wèn)題:樣本均值 \bar δσ"εx 的(de)分(fēn)布是(shì)如(rú)何圍繞總體♥λ (tǐ)均值 μ 變化(huà)的(de)。換句話(¶→huà)說(shuō),我們想知(zhī)道(dào)β®₩♦ δ = \bar x – μ 的(de)分(fēn)布。δ 就(jiù)是πε(shì)當我們使用(yòng) \bar x 來(lái)估↕Ω₽₽計(jì) μ 時(shí)的(de)誤差。
如(rú)果我們知(zhī)道(dào) δ 的(de)分(fēn)≈布,則可(kě)以找到(dào)待求置信≥§∏∑區(qū)間(jiān)左右兩端的(de)臨界值。在本例中,♥₹因為(wèi)我們關心的(de)是(shì<☆)置信水(shuǐ)平為(wèi) 80% ¥α♠的(de)置信區(qū)間(jiān),♥φ≥因此 δ 的(de)臨界值是(shì) 10% 和(hé) ♦∑♥90% 分(fēn)位對(duì)應的(de) δ_{0.9} 和(hé)€ δ_{0.1}。由此計(jì)算(suàn)σ±₽•出 μ 置信區(qū)間(jiān)為(wèi):
這(zhè)是(shì)因為(wèi):
值得(de)一(yī)提的(de)是(shì)←₩₩,上(shàng)面的(de)概率是(shì)條件(jiàn)概率,它表示假設總體(tǐ)均值為(wèi) μ 的(de)條件(♣π®↔jiàn)下(xià),樣本均值 \barδ< x 圍繞總體(tǐ)均值 μ 的(de)變化(huà)在 δ_{0.1} 和₩₩(hé) δ_{0.9} 之間(jiān)的(de)概率®σγ€。不(bù)幸的(de)是(shì),由于≥₩ 來(lái)自(zì)總體(tǐ)的(de)樣本隻有(yǒ§§u)一(yī)個(gè)(上(shàng)面的(de) 10 個(gè)數♥(shù))且 μ 的(de)真實值未知(zhī),我們并不(bù)知(zhī)道(dào) δ §λ'的(de)分(fēn)布(因此也(yě)就(jiù)不↔₩(bù)知(zhī)道(dào) δ_{0.9} 和(hé) δ_{0↑.1})。但(dàn)是(shì)我們仍然利器(qì)在手,那→↔<(nà)就(jiù)是(shì) Bootstra×δ↕≤p 原則。它指出雖然我們不(bù)知(zhī)道(dào) \bar x → ±®如(rú)何圍繞 μ 變化(huà)(即 δ 的(de)分(✘∏fēn)布),但(dàn)是(shì)它可(kě)以由 \b→≠ar x* 如(rú)何圍繞 \bar x 變化(huà)(即 δ* 的(σ≤de)分(fēn)布)來(lái)近(jìn)似,這(zhè)裡(lǐ) δ* 是(shì)利用(yòng) Bootstrap 樣本計(jì)算(™₽↕suàn)的(de)均值與原始樣本均值之間(jiān)的(de)"≈'₹差:
通(tōng)過進行(xíng)多(duō)次有(yǒu)置換↑">的(de)重采樣,得(de)到(dào)多(duō)個(gè) Bootstr←&₩ap 樣本,每一(yī)個(gè)樣本中都(d<>ōu)可(kě)以計(jì)算(suàn)出一(yī)個(g←→ è)均值。使用(yòng)每一(yī)個(gè) B> ≠πootstrap 樣本均值減去(qù)原始樣本均值(40.8)就(j←∑₹iù)得(de)到(dào) δ* 的(de)一±↕(yī)個(gè)取值。利用(yòng)計(π"Ωφjì)算(suàn)機(jī),很(hěn)容易産生(shēng)足夠×♥多(duō)的(de) Bootstrap 樣本,即∏£↑足夠多(duō)的(de) δ* 的(de)取值。根據大(dà)數(shù)定理(lǐ)(law of laλ↑rge numbers),随著(zhe)樣本個(gè)數(∑ shù)的(de)增加, δ* 的(de)分(f±&'♣ēn)布也(yě)越來(lái)越精确。有(yǒu)了(le) δ* 的(de)分(fēn)↕←≥δ布,就(jiù)可(kě)以找到(dào) δ*_{0.¥∏♥9} 和(hé) δ*_{0.1},并用(yòng)它們作('✔ zuò)為(wèi) δ_{0.9} 和(hé) δ_{0.1} 的(de)γ"↑估計(jì),從(cóng)而計(jì)算÷ σ(suàn)出 μ 的(de)置信區(qū)間(jiān):
上(shàng)述思路(lù)就(jiù)是(shì)經驗 Bo§± &otstrap 方法的(de)強大(dà)所在。回到(dào)上(shàng)面這(zhè)個(gè↕>£)例子(zǐ)中。利用(yòng)計(jì)算(suàn)機(jī)✘₩産生(shēng) 200 個(gè) B¶€γ≈ootstrap 樣本(下(xià)圖顯示了(le)前 10✘< 個(gè) Bootstrap 樣本,每列一(yī£β)個(gè))。
由這(zhè) 200 個(gè) Bootstrap 樣本計(jì) §λ≤算(suàn)出 200 個(gè) δ*,它們的(de)取值範圍在 - ∑✘™4.4 到(dào) 4.0 之間(ji₹δān),δ* 的(de)累積密度函數(shù)如(rú)下(xià)•"圖所示。
接下(xià)來(lái),從(cóng)這(zh↑★è) 200 個(gè) δ* 中找出 δ*_{0.9} 和(hé) δ*↑<_{0.1}。由于 δ*_{0.9} 對(duì)應的(de)是(shì) 1↓∏♣0% 分(fēn)位數(shù),而 δ*_{0.1} 對(γ→duì)應的(de)是(shì) 90% 分(fēn)位數(₩©¶←shù),我們将 200 個(gè) δ* 從(cóng)小↓≥∏(xiǎo)到(dào)大(dà)排序,其中↔↔第 20 個(gè)和(hé)第 181 個(gè)就(j∑ ☆₩iù)是(shì)我們需要(yào)的(de)☆© ≠數(shù)值:δ*_{0.9} = -1.9 以及 δΩ↓♦*_{0.1} = 2.2。由于原始樣本均值為(wèi)'' 40.8,因此求出 μ 的(de) 80% 的(de)置信區(qū)間(j≤≥iān)為(wèi):
4 Bootstrap 百分(fēn)位法
讓我們來(lái)看(kàn)看(kàn)另外(wài)一¥÷♦☆(yī)種方法:Bootstrap 百分(fēn)位法(Bootstrap percent≤↕§ile method)。它與經驗 Bootstrap 方法的(de)不(bù)同之處在于"₹,它不(bù)是(shì)用(yòng) δ* 的(de)分(fēn)布去(λ✘qù)近(jìn)似 δ 的(de)分(fēn)布,而是(shì∞∏∏)直接使用(yòng)來(lái)自(zì) Bootstrap 樣本β₩Ω的(de)統計(jì)量的(de)分(fēn) δ布作(zuò)為(wèi)原始樣本統計(jì)量的(de)分(fēn)≥✘♦布。
讓我們仍然用(yòng)上(shàng)一(yī)節中的(≠₩&de)例子(zǐ)來(lái)說(shuō)明(míng)這(zhè)種方←↔¥法。在那(nà)個(gè)例子(zǐ)中,我們對(duì)原始樣本數↓☆(shù)據進行(xíng)有(yǒu)置換的(de)重•©采樣,得(de)到(dào)了(le) ↑±200 個(gè) Bootstrap 樣本。對(duì)于每個(gè)樣本,→₽計(jì)算(suàn)出樣本均值,因此一(yī)共λε有(yǒu) 200 個(gè)均值,它們構'•成了(le) Bootstrap 樣本統計(jì)量 \bar x* 的(d®β≤♣e)分(fēn)布(下(xià)圖)。
Bootstrap 百分(fēn)位法使用φ©(yòng)來(lái)自(zì) Boots★©↕÷trap 樣本統計(jì)量 \bar x* ♣<∞的(de)分(fēn)布作(zuò)為(€>wèi)原始樣本統計(jì)量 \bar x 的(de)♦βφ®分(fēn)布的(de)一(yī)個(gè)•§↕∑近(jìn)似。因此,在這(zhè)種方法下(xià),我們隻需要(yσ☆ εào)找到(dào) \bar x* 分(fēn)布∏✘中 10% 分(fēn)位和(hé) 90% 分(fēn)位對(d÷✔↔uì)應的(de) \bar x* 的(de)取£φ值,它們就(jiù)構成了(le) μ 的(de)置信區(qū)間(jiān≠∑λ)。在本例中,這(zhè)兩個(gè)分(♦♥"fēn)位對(duì)應的(de) \bar x* 的(de)取值分(f♣♦✘±ēn)别為(wèi) 38.9 和(hé) 43,因此按這(zhè)種方法得(®£de)到(dào)的(de) μ 的(de)置信區•×≤§(qū)間(jiān)為(wèi):[38.9, 43]。不(bù)難發現(xiàn),上(shàng)述兩±☆↑σ種方法得(de)到(dào)的(de)置信區(qū•®>)間(jiān)并不(bù)相(xiàng)同。它們是(shì)各有(yǒu)千秋還(hái)是(shì)說(shuō)£©δ¶其中一(yī)個(gè)更準确呢(ne)?經驗 Bootstrap 法和(hé) Bootstrap×β' 百分(fēn)位法的(de)區(qū)别如(∏©rú)下(xià):
經驗 Bootstrap 法用(yòng) δ* 的(de)分(fēn∞®<)布去(qù)近(jìn)似 δ 的(de)分(fēn)布;之後再把誤差加到(dào)原始樣本均值的(✘↓de)兩側,該置信區(qū)間(jiān)是(sh™φ®ì)以樣本均值 \bar x 為(wèi)中心的(de)。
Bootstrap 百分(fēn)位法直接用(yòng) \bar x* 的(de)分(fēn)布來↕¥(lái)近(jìn)似 \bar x 的(de)分(f↔≤ēn)布(由于我們隻有(yǒu)一(yī)個(gè)來(lái)自(zì)于總體σβ↓(tǐ)的(de)樣本,因此我們沒有(yǒu) \bar x 的(de)分("₩fēn)布,而這(zhè)種方法說(shuō)我們δσ♣∏可(kě)以是(shì)使用(yòng) \bar ✔ x* 的(de)分(fēn)布代替);它直接用(y♣✘÷®òng)從(cóng) \bar x* 的(de)分(fēn)布€α找到(dào)的(de)置信區(qū)間(jiā×≈πn)作(zuò)為(wèi)總體(tǐ)均值的(d'♠←εe)置信區(qū)間(jiān)。這(zhè)裡(lǐ)一(yī)個(gè)很(hěn)強的(de)假設♥φβ↔是(shì) \bar x* 的(de)分('¥fēn)布是(shì) \bar x 分(fēn)布的(de)一(yī)個 Ω✘←(gè)很(hěn)好(hǎo)的(de)近(jìn)>π☆似。然而在現(xiàn)實中這(zhè)是(shì&↔)無法保證的(de),因此這(zhè)種方法不(bù)好(hǎo),它的(™∏de)準确性存疑。
Bootstrap 原則傳達的(de)是(shì)這(zh ☆è)樣一(yī)個(gè)意思:樣本統計(jì)量 \bar x 是(shì)以總體(& ↑✘tǐ)統計(jì)量 μ 為(wèi)中心圍繞其波動;Boot♣₩strap 樣本統計(jì)量 \bar ¥∑♥♠x* 是(shì)以原始樣本統計(jì)量 \bar x§∏÷ 為(wèi)中心圍繞其波動。如(rú)果 \bar x 和(hé ✔ ) μ 有(yǒu)較大(dà)的(de)差異,則δδ↑↕ \bar x 和(hé) \bar x* 的(de)分(fēn)布®λ也(yě)會(huì)不(bù)同(即 Bootstrap 百分(f→♣ēn)位法的(de)假設不(bù)成立)。λ÷反觀 δ 和(hé) δ*,它們的(de)分(fēn)布各自(zì)描™≤述 \bar x 如(rú)何圍繞 μ 波動以及 \bar x* λ>☆如(rú)何圍繞 \bar x 波動。Bootstrap 原則δ↔☆指出即使 \bar x 和(hé) \bar x* 分(fēε₽n)布不(bù)同,δ* 的(de)分(fēn)布仍然是(shì) δ 的(dוe)分(fēn)布的(de)一(yī)個(gè)✘♣≈很(hěn)好(hǎo)的(de)近(jìn)似,因此以原始樣本均值 \bar x 為(wèi)中心₽±,以 δ* 的(de)分(fēn)布計(jì)算(suàn)出'♠誤差,最終得(de)到(dào)的(de) μ 的(de)置信區(qū)間(σ βjiān)是(shì)比較準确的(de)。由此可(kě)知(zhī),經驗 Bootstrap 方法優于 ↕₽Ω≈Bootstrap 百分(fēn)位法。在實踐中,應該↓∑♠使用(yòng)前者。下(xià)圖概括了(le)上(shàng)文(wén)中對(duì)二者的(✘'₽de)比較。
5 Bootstrapped-t 方法
除了(le)上(shàng)面介紹的(de)兩種方法外(wà &¥i),最後我還(hái)想再提另一(yī)種方法:Bootstrapped-t 方法。這(zhè)種方法和(hé)第一(yī)節中介紹的(de)傳φ↑統方法十分(fēn)接近(jìn)。在傳統方法中,基于 Normal Theoγ↑★ry 的(de)假設,我們隻需要(yào)知(zhδ↕ī)道(dào) t 統計(jì)量的(dεα↑♠e)臨界值就(jiù)可(kě)以計(jì&←✔)算(suàn)均值的(de)置信區(qū)間¶←₩♥(jiān)。傳統方法假設待估計(jì)的(de)統計(↔Ω¶σjì)量的(de)分(fēn)布是(shì)對(duì)稱的(de)。然而在現(xiàn)實問(wèn)題中,這(zhè)個(gè)假設可(kě)能 π♦σ(néng)無法滿足,所以假設對(duì)稱并通(t↕≠₽×ōng)過查表找出 t 統計(jì)量的(de)臨界₹>¥≈值會(huì)有(yǒu)問(wèn)題(因為(wèi)得(de)到≠®¥™(dào)的(de)置信區(qū)間(jiān)☆&><是(shì)對(duì)稱的(de))。由此提出♣ε↓¶了(le) Bootstrapped-t 方法。
這(zhè)種方法的(de)核心思想是(shì)将每個(gè) Bε∞ootstrap 樣本中計(jì)算(suàn)↕ 的(de)統計(jì)量轉化(huà)成一(yī)個(gè)對(duì)應的↑β↕(de) t 統計(jì)量。這(zhè)樣,有(y×✔÷ǒu)多(duō)少(shǎo)個(gè) Bootstrap 樣本我們就®∑>(jiù)有(yǒu)多(duō)少(shǎo)個(gè) Bootstr✔↓apped t 統計(jì)量。由此,可(kě)以≈≥"計(jì)算(suàn)出 Bootstrapp↓≈ed t 統計(jì)量的(de)分(fēn)布。用(yòng)這(zhè) ☆↓個(gè)分(fēn)布代替查表來(lái)找到(dào)計(jì)算(suàn)置信區(qū)間(jiān)時(shí)所需↕Ω€的(de) t 統計(jì)量的(de)臨εβ界值,從(cóng)而計(jì)算(suàn)置信區(qū)間(ji♥✔ān):
其中 s_{\bar x} 是(shì) \bar x±∑× 的(de) standard error。≈≈↔以均值為(wèi)例,可(kě)以通(tōng)過下(xià)面的(de)× ♣關系式将每個(gè) Bootstrap 樣本的(de)均值轉化(huεà)為(wèi)對(duì)應的(de) Bootstrappe≥♣d t 統計(jì)量(注:如(rú)果研究的(de)對₽ (duì)象不(bù)是(shì)均值,則 Boot×≥≤strapped t 統計(jì)量會(h✔₽uì)出現(xiàn)不(bù)存在解析式的(dφ¶βe)情況):
其中,\bar x*_i 和(hé) s*_i 分(fēn)别為(wèi)♦σ第 i 個(gè) Bootstrap 樣本的(de)均值和(hπ♠é)标準差;n 為(wèi)樣本大(dà)小(xiǎo)。仍以前面的(de)例子(zǐ)說(shuō)明(míng)這(zhè)種 方法如(rú)何計(jì)算(suàn) μ 的(de)置信區(qū)間<<(jiān)。對(duì)于每個(gè) Bootstrap 樣本,計(j♦"ì)算(suàn)其 Bootstrappe×¥d t 統計(jì)量,它們的(de)累積密度函數(shù)π±→為(wèi):
通(tōng)過 Bootstrapped t ♠₩≠λ統計(jì)量很(hěn)容易找到(dào)臨∞✘↕界值 -1.17 和(hé) 1.81。因此,μ 的♦>✔ (de)置信區(qū)間(jiān)為(wè×πλi):[31.82, 46.62]。這(zhè)個(gè)置信區(qū)間££β(jiān)的(de)範圍遠(yuǎn)遠(yuǎδ₽∏n)大(dà)于前面兩種方法的(de)置信區(qū)間¶←→λ(jiān)。介紹這(zhè)種方法的(de)目ε±¶÷的(de)是(shì)為(wèi)了(l$↔e)給讀(dú)者開(kāi)拓思路(lù)。在實踐→¥×±中推薦使用(yòng)經驗 Bootstrap 方法。
6 不(bù)止均值
到(dào)目前未知(zhī),本文(wén)的(de)例子(zǐ)±±中均已均值作(zuò)為(wèi)目标統計(jì§)量,這(zhè)便于将不(bù)同的(de) Bootstrap <✔方法得(de)到(dào)的(de)置信區(qū)間(jiān∑≥)進行(xíng)比較。然而,Bootstrap 方法在計(jì)→₽↓算(suàn)置信區(qū)間(jiān)時(shí)可(kě)以考₩←慮各種傳統方法無能(néng)為(wèi)λ 力的(de)統計(jì)量。下(xià)面就(jiù)來(lái)看(kàn)看(kàn≤✔)中位數(shù)的(de)例子(zǐ)。仍然以第三節中的(de)∞<十個(gè)數(shù)(30,37,36,4 3,42,48,43,46,41,42)作(zuò)為(γ₹>wèi)來(lái)自(zì)某個(gè)未知(zhī)總體(tǐ)的("↔©de)一(yī)組樣本。采用(yòng)經驗 Boot<→®strap 方法,我們來(lái)計(jì≠≈≈)算(suàn)中位數(shù)的(de) 95% 的(de)β↑δ 置信區(qū)間(jiān)。使用(yòng)之前用(yòng)到(dào £÷)的(de) 200 個(gè) Bootstrap 樣本,可(kě)以 $↔δ得(de)到(dào)中位數(shù)誤差的(de)臨界≠<值。由于考慮的(de)是(shì) 95% 的(de)置信區(qū)間(j×☆iān),因此臨界值為(wèi) 2.5% 和βλγδ(hé) 97.5% 分(fēn)位對(duì)應的(de)誤差:-5.&γ0 和(hé) 2.5。從(cóng)原始數(shù)據易知(♠↔×zhī),樣本的(de)中位數(shù)是(shì) 42。因此,中≥'±λ位數(shù)的(de) 95% 的(de)置信區(qū"¥<∏)間(jiān)為(wèi):[39.5, 47]。
7 Bootstrap 與量化(huà)投資
本文(wén)介紹了(le)如(rú)何使用(yòng♥ ) Bootstrap 技(jì)術(shù)計(jì)算(suàn)參數(≈∏γshù)估計(jì)的(de)誤差。Boo≥$tstrap 方法對(duì)總體(tǐ)分(fēn)布不(bù)做(zuòΩ≤≥)假設,且可(kě)以被應用(yòng)于我們感興趣的>£☆(de)各種統計(jì)量,這(zhè)些(x₹≥♦iē)特點使得(de)它非常強大(dà)。當然,需要(yào)說(sγεhuō)明(míng)的(de)是(shì♥←×) Bootstrap 中的(de)重采樣并§•÷♣不(bù)能(néng)夠幫助我們改進點估計(jì)(point esti≠ mate)。以均值為(wèi)例,原始樣本均值 \bar x 就(j≈★iù)是(shì)總體(tǐ)均值 μ 的(de)點估計(jì)。我們使用(yε↕∞òng)重采樣得(de)到(dào)很(hěφ¥€n)多(duō) Bootstrap 樣本,并且得(de)到(dào)很(∞≠ hěn)多(duō) Bootstrap ¥×✘樣本均值 \bar x*,則這(zhè)些(x →★iē) \bar x* 的(de)平均值≥∞ >将會(huì)非常接近(jìn) \bar x (₩∏事(shì)實上(shàng),可(kě)以證明(míng) E[\ba×✘±r x*] —— \bar x* 的(de)期望 —— 就(jiù)是(©®shì) \bar x)。換句話(huà)說(sε♠ε♥huō),對(duì)于點估計(jì),Bootstrap 樣本均值并不(&πbù)能(néng)比 \bar x 提供任何新的(de)信息。但(dàn)'↑'是(shì),這(zhè)些(xiē) \bar x* 的(de)取值π©對(duì)于估計(jì) \bar x 如(rú)何圍繞 μ 變化(h®¶★uà)非常有(yǒu)效,這(zhè)便是(shì)我們'×在全文(wén)中反複強調的(de) B£$§ootstrap 的(de)核心。
在量化(huà)投資領域,Bootstrap 也(yě)有(yǒu)♠∏廣泛的(de)應用(yòng)。例如(rú),Bootstrap 可(¶ kě)以用(yòng)來(lái)對(duì↑↔)參數(shù)估計(jì)的(de)偏差進行(xíng)修正,比如(r↑♦<>ú)投資品收益率之間(jiān)的(de)相(xi©εΩàng)關系數(shù)。投資品的(de)曆史收益率數(sh★±&ù)據就(jiù)是(shì)我們僅有(yǒu)的(de↑₹∏)樣本,通(tōng)過重采樣并利用(yòng)經驗 Bootstrap 方Ωβ>σ法,可(kě)以求出各種統計(jì)量的(de)估計(jì)誤差♦∑,這(zhè)無疑有(yǒu)助于我們更好(hǎo↑)的(de)構建投資策略,進行(xíng)風(fēng)險防控。←€又(yòu)比如(rú),簡單的(de)分(fēn)類算(suàn)法(比→¥©"如(rú)分(fēn)類樹(shù))可(kě)以用γ α(yòng)來(lái)進行(xíng)選股☆©,但(dàn)是(shì)它對(duì)樣本數(shù)據比較敏感,預測的λ♥ (de)方差較大(dà)。在這(zhè)方面可(kě)以采用(y® ∏òng) Bootstrap 技(jì)巧作(zuò)為↑λ→σ(wèi)元算(suàn)法技(jì)術(s≤α€hù)用(yòng)于一(yī)般分(fēn)類算(suàn)法↓β÷★(比如(rú)結合 Bootstrap ₽和(hé)分(fēn)類樹(shù)得(de)到₩π←(dào)的(de)裝袋算(suàn)法),這(zh" ≤è)可(kě)以明(míng)顯地(dì)降低(dī)分(f≈↔ēn)類算(suàn)法的(de)方差,從(cóng)而提♠∏✔>高(gāo)預測的(de)準确性(感興趣的(de)讀(dú)者請₹≥ (qǐng)看(kàn)《“少(shǎo)樹(shù)”服從(cóng)“多(duō)樹δγ(shù)”(下(xià))》)。
最後,本文(wén)介紹的(de)幾種方法都(dōu)屬于無參數(sh ù) Bootstrap 方法,即對(duì)總<≈δ體(tǐ)分(fēn)布不(bù)做(zuò)任何假σ≈設。在一(yī)些(xiē)應用(yòng)中,如 γ♣×(rú)果能(néng)夠明(míng)确總體(tǐ)分↑π•(fēn)布的(de)類型,也(yě)可(kě)以使用(yòng) Boo∏α©tstrap 方法進行(xíng)參數(shù)估計 ↕¥(jì),這(zhè)稱之為(wèi)參數(s ≠♣hù)化(huà) Bootstrap 方法。比如(rú),我£©們已知(zhī)總體(tǐ)分(fēn)布滿足βδ↑<指數(shù)分(fēn)布,但(dànΩ₽₽↕)是(shì)不(bù)知(zhī)道(dào)其參數₩₽(shù) λ。這(zhè)時(shí),可(kě)以利↓♥σ♦用(yòng)參數(shù)化(huà) B"≥ootstrap 方法計(jì)算(su&✘àn)出 Bootstrap 樣本中 λα* 的(de)誤差的(de)分(fēn)✔σ布,用(yòng)它來(lái)估計(jì$α) λ 的(de)置信區(qū)間(jiān)。由于♠≤空(kōng)間(jiān)有(yǒu)限©∞,本文(wén)不(bù)再展開(kāi)介↑₩紹。
免責聲明(míng):入市(shì)有(yǒu)風(fēng)險,投資需謹慎。在任何®<δε情況下(xià),本文(wén)的(de)內(nèi)容、信息及數(shù)據$₽↕或所表述的(de)意見(jiàn)并不(b≥→ù)構成對(duì)任何人(rén)的(de)投資建議(yì)。在任↓®↑何情況下(xià),本文(wén)作(zuò)者及所屬機(jī)構不(bù∞÷)對(duì)任何人(rén)因使用(yòng)本文(wén)的(de)÷δ任何內(nèi)容所引緻的(de)任何損失負任何責任。除特✔±σ别說(shuō)明(míng)外(wài),文(wén)中圖™♣表均直接或間(jiān)接來(lái)自(♠₹✘zì)于相(xiàng)應論文(wén),僅為(wèi)介紹之用₹©(yòng),版權歸原作(zuò)者和(hé)期刊所有(yǒu)。