機(jī)器(qì)學習(xí)與資産定價: Facts an®♥d Fictions

發布時(shí)間(jiān):2023-06-21  |   ★★ 來(lái)源: 川總寫量化(huà)

作(zuò)者:石川

摘要(yào):本文(wén)從(cóng)五方面闡述中低(dī)頻(pín)實證資産 ←≤•定價中的(de)機(jī)器(qì)學習(xí)應用(yòng)。


自(zì) Gu, Kelly and Xiu (2÷±020) 這(zhè)篇綜述把機(jī)器(qì)學習(xí)ελ£₹方法正式引入實證資産定價研究以來(lái),學術(shù)界¥∏§的(de)一(yī)衆學者在這(zhè)幾年(nián)将各種(線性的(de)↓φ非線性的(de))機(jī)器(qì)學習(xí)₹☆&模型都(dōu)應用(yòng)到(dào)了(le)股票(pi'αào)收益率的(de)預測之上(shàng)。


這(zhè)背後的(de)契機(jī)是(shì)大(dà)數(shù ↑)據和(hé)機(jī)器(qì)學習(xí)時(shí)代協變量的(de)激增以及協變量和(hé)未來(lái)收益率之間(jiān)的(de)複雜"λ(zá)關系。這(zhè)二者給傳統基于計(jì)量經濟學方法的(de®≥®)實證研究帶來(lái)了(le)巨大(dà  )的(de)挑戰。毫無疑問(wèn),計(jì)量經濟學方法是(≈✔shì)可(kě)以被用(yòng)來(lái)分(®α ÷fēn)析簡單線性關系和(hé)進行(xíng)參數(shù)審定(pΩ"φarameter adjudication)的(de)利器(qì‍Ω),然而它并非處理(lǐ)高(gāo)維預測(predic¥δ<tion)問(wèn)題時(shí)的(de)首選。對(duì)于後者來(π lái)說(shuō),早在自(zì)然語言處理(lǐ)、圖像識别等其他(✔₩★Ωtā)領域證明(míng)了(le)自(z​÷✘☆ì)己的(de)機(jī)器(qì)學習(xí)算(suàn)法自(≥δzì)然而然地(dì)走進了(le)人(rén)們♠₹‍的(de)視(shì)野。


伴随而來(lái)的(de),是(shì)₹δ↓‌學界的(de)研究從(cóng) diminishing a&$✘nomalies(即提出 ad-hoc 簡約模型來(lái)消滅異象)向 increasing prom₩≥♦inence of machine le¥←arning methods(即如(rú)何通(tōngδ σ&)過機(jī)器(qì)學習(xí)算(suàn)法得(de)到(d©±♣ào)更好(hǎo)的(de)預測)的(de)轉型,并從(cóng)中形成新>&§ 的(de)研究範式。研究悄然從(cóng) procedurally λ×轉向了(le) empirically。無論認可(kě)與否,Ω÷在大(dà)勢面前,一(yī)切似乎都(d✔πōu)不(bù)可(kě)逆轉,那(nà)些(xiē)将機(jī)器(qì)®∏÷學習(xí)算(suàn)法用(yòng)于資産定價并發♦±≠表在頂刊上(shàng)的(de)實證文(wén)章(zhā≈ ÷★ng)就(jiù)是(shì)最好(hǎo)的(de)證明(míng)。


通(tōng)讀(dú)這(zhè)些(xiē)基于美(měi)股₹₩λ市(shì)場(chǎng)(當然,有(yǒu)∑§σ✘不(bù)少(shǎo)已經被 copy & paste 到(dào)了(lγσ✔αe) A 股,sorry for 吐槽)、發表Ω¥在頂刊上(shàng)的(de)實證文(wén)章∞¶λ(zhāng)其實不(bù)難發現(xiàn),無"♣£∑論是(shì)理(lǐ)論描述還(hái)是(shì)實證結果,它們都(dō₩↑≠u)有(yǒu)很(hěn)多(duō)的(de)共性。§§深入理(lǐ)解它們,有(yǒu)助于加→∞深對(duì)将機(jī)器(qì)學習(γ↔Ωxí)算(suàn)法應用(yòng)于實證資産定價的(de)正确認知±"(zhī)。因此,今天這(zhè)篇小(xiǎo)文(wén)♠σ 就(jiù)以 Facts 和(hé) ‌≈•÷Fictions 為(wèi)題從(cóng)五方面 ¥•₹梳理(lǐ)這(zhè)類研究的(de)“是(sh★αì)”與“非”。希望通(tōng)過此文(wén)幫♦&'™你(nǐ)客觀了(le)解實證研究的(de)現(xiàn)狀 •€§。


最後想要(yào)強調的(de)是(shì),本文(wén)的(de)闡述僅限α↔•§于中低(dī)頻(pín)實證資産定價中的(de)機(jī)器(qì)學習(xí)應用¶ (yòng)。在國(guó)內(nèi)外(₩≈≠wài)的(de)量化(huà)投資實踐中,注定會(huì≤¥)有(yǒu)一(yī)些(xiē)領先于學術(s♠σ¶hù)研究的(de)內(nèi)容,但(dàn)它們不(bù)在本文(wé$‌&n)討(tǎo)論範圍之內(nèi)。另外(©​wài),本文(wén)參考文(wén)獻中優先引用(β™✔yòng)已發表的(de)版本。



1


Fiction: 将數(shù)據無腦(nǎo)扔進高(gāo)級算(suàn)法,單純指λ♣↕§望數(shù)據發聲。


金(jīn)融數(shù)據低(dī)信噪比和(hé)不(bù)滿足‍→≤α平穩性這(zhè)兩個(gè)特點足以打消人(rén)們單純φ& ε指望數(shù)據發聲的(de)良好(hǎo)願景。就(ji§<ù)資産定價來(lái)說(shuō),¶>參數(shù)先驗、協變量尺度縮放(fࣶπ≠ng)、正則化(huà)罰項以及調參依據選擇等都(dōu®> )會(huì)影(yǐng)響最終的(de)結果π∏(Nagel 2021,我和(hé)王熙老(lǎo)師(shī)的(de)翻譯在此)。


下(xià)面這(zhè)個(gè)例子(zǐ)來(lái)自✔α✔(zì) Nagel (2021),雖然簡單♠¥→,但(dàn)能(néng)清晰闡明(míng)上(shàng)面δ★≤©的(de)問(wèn)題。假設我們使用(yòng)過去(q$™σ>ù) 120 期的(de)曆史收益率以及它們的(d↓πλ>e)平方和(hé)三次方作(zuò)為(wèi)協變量來(l→σ¶÷ái)預測下(xià)一(yī)期收益率。下(xià)表總•$✘結了(le)不(bù)同設定下(xià)的(de)✔™π預測結果。其中 Method 一(yī)欄表明(míng)了(le)正則化(h‍‌uà)的(de)罰項(OLS 表示沒有(yǒu)正則化(huà))$→,Scaling 一(yī)欄表明(míng)對(duì)協變量進行(xíngδ≤‌<)了(le)怎樣的(de)标準化(huà)$∏處理(lǐ)(Equal 表示協變量都(dōu)被标準化&φ↓(huà)到(dào)均值為(wèi) 0、标準差☆☆•為(wèi) 1;Unequal 表明(m∏♣íng)協變量标準化(huà)之後的(de)标準差不(bù)同),CV crΩ£≤iterion 一(yī)欄表示調參的(de)依據(例如(€₽&rú)以驗證集 R-squared 或者以投資組合在驗證集上(shàngβ♣‌)的(de)預期收益率  )。


f1.png


表中的(de)實證結果顯示,模型設定對(duì)于會(huì)産生(sh♣±≤λēng)怎樣的(de)結果影(yǐng)響很&Ωλ(hěn)大(dà)。然而,當我們面臨衆多(du≥♠ō)選擇時(shí),不(bù)該也(yě)無←σ¶↕法枚舉所有(yǒu)的(de)排列組合,而是(shì)應該充分 ® &(fēn)利用(yòng)先驗。例如(r∞≠ú),如(rú)果我們認為(wèi)模型是(shì)非稀疏的(d☆​®→e),那(nà)麽就(jiù)會(huì)傾向 Ridge ↕βγ而非 Lasso;如(rú)果我們認為(wèi)協變量在預測∑'‍收益率時(shí)的(de)重要(yào)程度不(bù)同‍☆¥≠,可(kě)能(néng)就(jiù)會(huì)選擇 Unequal 而非 ​™βEqual 的(de)處理(lǐ)方式;如(rú)果λ§我們從(cóng)金(jīn)融問(wèn)題核心出發,₹¶÷可(kě)能(néng)會(huì)選擇以最大(σ≥dà)化(huà)夏普比率(或最小(xiǎo)化(™×huà) pricing errors)而非傳統的(de) R-squared•↔ 來(lái)進行(xíng)模型調優。≥®☆↑而這(zhè)些(xiē)的(de)背後,都λ£(dōu)離(lí)不(bù)開(kāi✘ ©✘)資産定價理(lǐ)論。


Fact: 以大(dà)數(shù)據為(wèi)依托₩←、以機(jī)器(qì)學習(xí)算(s'δuàn)法為(wèi)工(gōng)具,圍繞資産定價理(lǐ)論¥≥展開(kāi)。


在實證資産定價這(zhè)個(gè)領域,從(c>​₹ óng) CAPM,到(dào) APTπ >/ICAPM,再到(dào) zoo of factors,層出不​φ↑"(bù)窮的(de)實證挑戰無疑極大(dà)✔↓推動了(le)學科(kē)的(de)發展。然而,無論範式如(rú)何演化(huà),研究都(dōu)是(sΩ¥>hì)圍繞著(zhe)實證資産定價理(lǐ)論&ε δ展開(kāi)的(de)。


以最近(jìn)幾年(nián)火(hu♣β↓∞ǒ)爆的(de)幾篇文(wén)章(zhāng)為(wèi)例,Bryz<¥galova, Pelger and Zhu (2020) 以及 Chen,♠  Pelger and Zhu (forth<®↔coming),雖然前者使用(yòng)了(le)決策樹(shù)而後者使用(<δyòng)了(le)生(shēng)成對(duì)抗網絡(GAN),但(★♦€dàn)它們都(dōu)是(shì)在随機(jī)貼現(xiàn)因子(‍±zǐ)(SDF)這(zhè)一(yī)框架πλ©下(xià)将不(bù)同的(de)算(suàn)法應$φγ用(yòng)于資産定價。又(yòu)比如(rú),Kelly, Pruitt and Su (201→₽π9) 的(de) IPCA 以及 Gu, ♦↓∏Kelly and Xiu (2021) 的(de) Autoenco&©®der 則使用(yòng)了(le)隐性多(d∑≠±λuō)因子(zǐ)模型,即把  視(shì)為(wèi)協變量(例如(rú)公司特征和(h÷₽é)宏觀經濟變量)的(de)函數(shù)并對(du→≤¥ì)  建模。不(bù)同的(de)是(shì),KPS 使用(σ€yòng)的(de)線性模型,而 GKX 使用(yòng)的(de)非線性模•​±型;此外(wài),由于  是(shì)時(shí)變協變量的(de)函數(shù),因此‌✘π↕二者本質上(shàng)都(dōu)是(shì)條件(jiàn)定價模型。


在實證方面,這(zhè)些(xiē)文(wénδ£$®)章(zhāng)的(de)共性是(shì)使用(yòng)了(le)大(÷♠₹γdà)量的(de)協變量(of course 較傳統研究而言),并通(tōn§ ↔g)過投資組合的(de) OOS 表現(x​λ‌ iàn)來(lái)表明(míng)方法的(de)有(♦≥yǒu)效性。雖然它們各自(zì)嘗試了(le)不(bù)φ∏→同的(de)機(jī)器(qì)學習(xí)算(suàn)法,但±↓∏(dàn)鑒于 SDF 和(hé)多(duō)因子(zǐ)模型的(d&♥e)等價性,它們都(dōu)可(kě)以被放(fàn∞π≥g)在一(yī)統的(de)框架下(xià)審視(shì)和÷→↑λ(hé)學習(xí)。


2


Fiction: 機(jī)器(qì)學習(xí)模型是(shì)黑(hēi)箱,學術(shù₹§$)研究不(bù)關注可(kě)解釋性。


對(duì)于傳統的(de) ad-hoc 多(duō→¥ε)因子(zǐ)模型或者異象研究而言,可(k♠≠↑ě)解釋性是(shì)它們的(de)靈魂。比如(rú) FF5 是(shì)✔‌×Ω基于 DDM、q-factor model 是(shì)基于 q-↕÷↓theory。而各種關于異象的(de)論文(wén)中也(yě)會(huì)有 π(yǒu)解釋(risk-based vs mispricing)。$≤而一(yī)旦把研究目标轉移到(dào)←Ω通(tōng)過複雜(zá)模型構造更準确的(de)收益♦π 率預測,給人(rén)的(de)印象就(§♣♥jiù)是(shì)這(zhè)方面的(de)要(yào)求就(jiù)被淡化✔>®δ(huà)了(le)。然而,事(shì)π÷Ω☆實并非如(rú)此。


對(duì)于線性模型而言,例如(rú) Kozak∞"✔, Nagel and Santosh (×±$2018, 2020) 的(de) PCAβ×>,以及 KPS 的(de) IPCA,模型的(de)解釋是​€α(shì)非常清晰的(de)。以前者為(≠☆wèi)例,KNS 在對(duì)通(tōng)過 size 和(∞÷hé) value 劃分(fēn)出的(de™♦≥) 25 個(gè)投資組合進行(xíng) ₩↓♥∑PCA 時(shí)發現(xiàn)前兩個≥∞₩(gè) PCs 完美(měi)對(duì)應著(zhe) SMB 和₩‌&(hé) HML 因子(zǐ);而對(duì)于後者而言 ≤,IPCA 雖然在數(shù)學上(shàng)‍☆→看(kàn)似繁瑣,但(dàn)其背後的(de)直覺解≤♠$>釋卻是(shì)一(yī)系列通(tōng)過★∞ cross-section regression 構造的(de) mφ∑αanaged portfolios 的(de)線性≠≠組合(PCs)。因此,對(duì)于線性模"β型而言,其解釋性恰恰植根于我們熟悉的(de) re↕™☆gression 以及 portfolio sort 方法λ₩中。


而對(duì)于非線性模型而言,其可(kλ≥←ě)解釋性雖然不(bù)如(rú)線性模型那(n βαà)麽直觀,但(dàn)學術(shù)研究依然給予了(le)它足夠的(d¥←αe)重視(shì)(見(jiàn) fact 部分(fēn)>✘)。


Fact: 機(jī)器(qì)學習(xí)揭示的(de)最重要(yà"​÷o)預測變量和(hé)大(dà)量實證資産定價結果吻合。


Gu, Kelly and Xiu (2020) 使用(yòng) perm←∏utation importance 揭示了(le)哪些(xiē)協變 π♥量對(duì)解釋預期收益率最重要(yào)(下(xià)圖)。從(cóng∑​♣✘)中我們可(kě)以看(kàn)出:(1)最重要(yào✔δ®)的(de)協變量和(hé)以往實證結果相₽ ​(xiàng)吻合,其中最重要(yào)的(de)變量大(dà)緻可(kě→∞ )以分(fēn)為(wèi)四大(dà)類,即動量/反轉,流動性相(™∏xiàng)關,風(fēng)險相(xiàng)關(比如(rú)®™'™ IVOL)以及基本面相(xiàng)關;(2β←≤≠)不(bù)同的(de)機(jī)器(qì)學習(xí)模型來(♣"♦•lái)說(shuō),最重要(yào)的(de)協變量也(∞≠φyě)在很(hěn)大(dà)程度上(shàng)是(Ωλshì)相(xiàng)似的(de)。


f2.png


Chen, Pelger and Zhu (for•××↕thcoming) 通(tōng)過計(jì)算(s$ λ→uàn) SDF 權重對(duì)協變量的(de)偏導數(shù)來(lái)ασ評價模型的(de)可(kě)解釋性。下(xià)圖顯示,在所有(y​ε↔≠ǒu)協變量中,最重要(yào)的(de)可(kěεε<)以被分(fēn)為(wèi)交易摩擦、價值βλ、無形資産、盈利、投資以及曆史收益率幾大(dà)∏∞♥類。


f3.png


另一(yī)篇值得(de)一(yī)提的(♣≈de)文(wén)章(zhāng)是(sε₩✘₩hì) Kozak (2019)。它利用(yòng<↕∞←) kernel trick 巧妙地(dε≠→↕ì)在不(bù)增加運算(suàn)量的(de)前提下(xià)将 σ∏協變量映射到(dào)高(gāo)維并對(duì)映射後​£β的(de)協變量進行(xíng) PCA,以此來(lái)進行(xí↑γ$ng)資産定價。在使用(yòng)了(le)非線性β≠¶ kernel 後,我們無從(cóng)知(zhī)道(dào)映射後的(䣩de)協變量是(shì)什(shén)麽→€樣子(zǐ)。但(dàn)是(shì),通(tōng)過将構造的(≈σ₹£de) SDF 映射到(dào)原始協變量的(de) • managed portfolios,依然能(né↑<∑"ng)夠鑒别出最重要(yào)的(de)解釋變量。


f4.png


最後,也(yě)可(kě)以通(tōng)‍γ​"過觀察選出股票(piào)(多(duō)σ$✘頭或者多(duō)空(kōng)對(duì)沖組合)在不(bù)同協變量∞•♣☆上(shàng)是(shì)否有(yǒu)共性來(lái)判斷哪些 ∑ ₹(xiē)變量更加重要(yào),例如(×∞™¥rú) Avramov, Cheng and M $±etzker (2023)。


3


Fiction: 複雜(zá)模型容易樣本內(nèi)過拟合,導緻樣本外(wàiγ≠¥)預測誤差加劇(jù)。


對(duì)于模型來(lái)說(shuō×÷→),其樣本外(wài)表現(xiàn)和(héα¥↑σ)模型複雜(zá)度關系密切。當模型複雜(₽​επzá)度很(hěn)低(dī)時(shí),模型的(de)方®∏♥α差很(hěn)小(xiǎo),但(dàn)是(shì)偏差很←β(hěn)高(gāo);當模型複雜(zá)度高(gāo)時(sh​ γí),模型的(de)方差變大(dà),但(dàn€←≥♦)是(shì)偏差降低(dī)。二者的(de)共同作(zuò)用(yòng)≠∞♦∑就(jiù)是(shì)人(rén)們熟悉的(de) bi¶>'as-variance trade-off,因此存在某個(gè)最優的( ← de)超參數(shù),使得(de)樣本外(wài)的(de)總誤差(風(fēα★ng)險)最低(dī)。


f5.png


我們還(hái)可(kě)以換個(gè)​£'角度來(lái)理(lǐ)解 bias-variance✔® trade-off。當模型很(hěn)簡 π∑☆單時(shí),它能(néng)夠有(yǒu)效規避過拟合,但(♥™dàn)并非是(shì)真實世界的(de)±↕≥≤很(hěn)好(hǎo)近(jìn)似;而當模型複雜(zá)時(™♥β shí),它更有(yǒu)可(kě)能(néng)逼近(jìn)真實世界,φ☆≈但(dàn)是(shì)也(yě)的(de)确更☆§容易過拟合。因此 bias-variance trad>♠₩e-off 也(yě)可(kě)以理(lǐ)解為(wèi) a↔↕←♠pproximation-overfit tφ ∏rade-off。


然而,上(shàng)述結論有(yǒu)一(yī)個(gè)人(ré±×♣★n)們習(xí)以為(wèi)常的(de)前提:變量個ε←♥↓(gè)數(shù) < 樣本個(gè)數(shù)。如Ω"♦(rú)果模型複雜(zá)到(dào)變量的(de)個(gè)數(₩γ§shù)超過了(le)樣本的(de)個(gè)數(shù)又(yòu)會(h$±£λuì)怎樣呢(ne)?事(shì)實上(shλ→àng),這(zhè)一(yī)問(wèn)題并非無≈¥≠↕緣無故的(de)憑空(kōng)想象。對(duì)于複雜↓©→(zá)的(de)神經網絡模型來(lái)說(shuō),模型參數(shù)的<‍ ©(de)個(gè)數(shù)很(hěn)¶ε•容易超過樣本的(de)個(gè)數(sh☆←§ù)。當變量個(gè)數(shù) ≥ 樣本個(gè)數(s←β÷hù)時(shí)(被稱為(wèi) over-parameteriza$↕★tion),模型在樣本內(nèi)能(néng)夠完美(mě$ ✔i)的(de)拟合全部樣本(當變量個(gè)數(shù)和(hé)樣≤☆&本個(gè)數(shù)相(xiàng)等時(sh•αí),模型能(néng)夠完美(měi)的→φ¶α(de) fit 所以樣本點。這(zhè)個(gè)現(xiàn)象在機(j✔≥★ī)器(qì)學習(xí)術(shù)語₹¶中被稱為(wèi) interpolationβ←‍)。由于金(jīn)融數(shù)據的(de)信噪比極低(dī☆★),對(duì)于這(zhè)樣一(yī)個(gè)妥妥"♦←樣本內(nèi)過拟合了(le)噪聲的(de)模型,人(rén)們通(tō£★↓ng)常的(de)認知(zhī)是(shì),它在樣本外(wài)的≥§(de)預測誤差一(yī)定會(huì)“爆炸”。然而事(shì)實也(yě)'↕ε€許并非如(rú)此。


Fact: 複雜(zá)模型是(shì)真實 DGP 的(de)更∞∑∑✘好(hǎo)近(jìn)似,在正則化(huà÷α♠)使用(yòng)得(de)當的(de)前提下(xià),複雜(zá✔±)模型帶來(lái)的(de)好(hǎo)處可(k∞↕§γě)能(néng)優于統計(jì)代價。


近(jìn)年(nián)來(lái),∑→‌≈機(jī)器(qì)學習(xí)領域一(yī)個(gè)令人(rén)∏'γ興奮的(de)發現(xiàn)就(jiù)是​>‍λ(shì)樣本外(wài)誤差随模型複雜(zá)度變化(h"‍≠∏uà)的(de) double descent 現(xi®↓₩àn)象。Belkin et al (2019) 指出,當模型複雜(zá)度突破∑≤樣本個(gè)數(shù)這(zhè)個(gè)“禁忌之地(dì)”後,神奇→&♣∏的(de)事(shì)情發生(shēng)了(le):樣本外(w♣®Ω♥ài)總誤差并沒有(yǒu)“爆炸”,而是(s• hì)随著(zhe)複雜(zá)度的(de)提升單調下 ¥↔¶(xià)降。正因為(wèi)在樣本個(gè)數(shù)兩™♣ 側都(dōu)出現(xiàn)了(le)誤差單調下(xià)降的(de)₽π♣情況,這(zhè)個(gè)現(xiàn)象被λ≤±稱為(wèi) double descent。


f6.png


這(zhè)背後的(de)直覺解釋是(shì):當協變量個(gè)數(s¶‍$£hù)超過樣本個(gè)數(shù)的(de)時(shí)候,樣本內≈♣≠(nèi)的(de)解是(shì)不(bù)唯<★ Ω一(yī)的(de),而最優的(de)解可(kě)以理(lǐ)解為(w​✘èi)讓參數(shù)的(de)方差最小(xiǎo)的(de)那(nà)個(gε₹∞è)解。随著(zhe)變量越來(lái)越多(duōπ∞£↓),最優解的(de)方差總能(néng)單調下(xià)降。再來(lá☆¥i)看(kàn)偏差,通(tōng)常來(láφ§→i)說(shuō),偏差确實會(huì)随著(zhe)複雜(zá) £ 度的(de)提升而增加。但(dàn)是(shì)所有(yǒu)模型都>♣ε&(dōu)是(shì)真實 DGP 的(de)某個(₹φgè) mis-specified 版本。當存在模型設定偏★ε"誤的(de)時(shí)候,可(kě)以證明(míng)當變量個(gè)♣∏σ數(shù)超過樣本個(gè)數(shù)時(shí)©∑<,偏差也(yě)會(huì)在一(yī)定範圍內(nèi)"↓ ∞随著(zhe)複雜(zá)度而下(xià)降。¶φ≥因此,二者的(de)綜合結果就(jiù)是(shì)模型在樣本外(wài)ε£¥↑的(de)誤差表現(xiàn)會(huì)随複雜(zá)度的(de)Ωλ上(shàng)升而下(xià)降。對(duì)于 dou©λble descent 現(xiàn)象↑≥Ω背後的(de)理(lǐ)論,感興趣的(de)÷☆$'小(xiǎo)夥伴請(qǐng)參考 Hasti•‌$e et al. (2022)。


在實證資産定價方面, Kelly, Malamud and Zhou≥♣π• (forthcoming) 将上(shàng)γφ♦述理(lǐ)念應用(yòng)到(dào)了(le)美(měi)股擇♦✔時(shí)之中,并發現(xiàn)了(le)類似的(de) double d•>≥✔escent 現(xiàn)象:當采用(yòng)協φ₩★÷變量個(gè)數(shù)遠(yuǎn)遠(yuǎ®∞n)超過樣本個(gè)數(shù)的(de)模型時(shí),樣本外(wσγ§ài)的(de)夏普比率提升了(le)。客觀的(de)說(sh €₽"uō),關于模型複雜(zá)度和(hé)樣本αδ外(wài)表現(xiàn)的(de)討(tǎo)論,在資産定價領 ​域尚處于萌芽階段,且正則化(huà)(或者 implied 正則化​λ(huà))在這(zhè)個(gè)過程中 α∞至關重要(yào),期待未來(lái)在這(zhè)方面有(yǒu)更多(d♠£→‍uō)精彩的(de)研究成果。


4


Fiction: 非線性模型可(kě)以輕松讓夏普比率翻倍。


我們先看(kàn)一(yī)組似乎足以推翻這(zhè)個(gè) f<♣αiction 的(de)實證結果。Baba-•₩™↑Yara, Boyer and Davis (2'φ021) 複現(xiàn)了(le)最近(jìn)幾年(n∞εβián)最重要(yào)的(de)機(jī)器(qìΩ‍$→)學習(xí)模型,并将它們的(de)結果和(hé)傳統的≈<≤←(de)多(duō)因子(zǐ)模型進行(xíng≠Ω)了(le)比較。我挑選了(le)幾個(gè)有(yǒu)代表性∞↓的(de)彙總于下(xià)表。


f7.png


上(shàng)述結果清晰的(de)表明(míng∑★↕∑),相(xiàng)比于傳統多(duō)因子(zǐ)模型,機(jī)器(q¶γ↑ì)學習(xí)模型的(de)夏普比率确實是(shì)♠π∞δ前者的(de)兩倍甚至是(shì)三倍。但(dàn)不(bù)要(↓™yào)忘了(le),右邊這(zhè)些(xiē)都(dōu)是(→>♣shì)強加了(le)特設稀疏性的(de)♦σ≈簡約模型(隻用(yòng)了(le)太少±>(shǎo)的(de)變量),因此這(zh£→è)樣的(de)比較是(shì)不(bù¶€‌)公平的(de)。(另外(wài),在本節 fact 部分(fēn)我們還∞™(hái)會(huì)再次討(tǎo)論上(shàng)述結果,相✔₹(xiàng)信那(nà)時(shí)候你(nǐ)會(h¶∑uì)更加确信。)另一(yī)方面,如(rú)果你(nǐ)仔細觀察就(jiù)不(bù)難發現(γ≈‍≥xiàn),在上(shàng)面的(de)結果中,K↑​NS 的(de) PCA 以及 KPS 的(de)γ​₹> IPCA(這(zhè)兩個(gè)非條件♣¥(jiàn)和(hé)條件(jiàn)線性σ₩♠☆模型)的(de)夏普比率反而要(yào)高(gāo)于另外(wài®∞®‍)兩個(gè)分(fēn)别利用(yòng)随機(jī)森€≠✔(sēn)林(lín)和(hé)神經網絡的(de)模型。因此↑♦,非線性模型(至少(shǎo)在上(shà♠​ng)述實證結果中)并沒有(yǒu)占得(de)>≠¥₩便宜。


Fact: 非線性模型能(néng)捕捉協變量和(hé)預期 "€收益率之間(jiān)的(de)非線性關系,且現(xiàn)階φ₹™段對(duì)表現(xiàn)隻是(shì♦±)提供邊際增量貢獻。


事(shì)到(dào)如(rú)今,我們無需懷疑協變量和(hé)預期收益率¶≤γ€之間(jiān)存在非線性關系。哪怕是(shì)傳統的≠✔(de) double portfolio ♦↓÷εsort,也(yě)是(shì)考察控制(zh© ì)了(le)變量 A 之後,變量 B 和(hé±∞)預期收益率的(de)關系。由 Nagel (2021) 以及大(dà)量最新λ→☆•實證資産定價論文(wén)的(de)結果可(kě)知(zhī),在非線λπ性關系中,變量的(de)交互作(zuò)用( ✘ yòng)是(shì)最重要(yào)的(de)。對(duì)于傳統線性回£γ• 歸模型來(lái)說(shuō),一(yī)旦協變量數(shù)目激增,•☆£枚舉考慮兩兩變量的(de)交乘項是(shì)不(bù)切實際的(de),因此★•☆σ這(zhè)就(jiù)給了(le)善于處理(lǐ)非線性≤λ∞關系的(de)機(jī)器(qì)學習(xí)模型施展的(de)空(‌'kōng)間(jiān)。


話(huà)雖如(rú)此,我們也(yě)應該對(duì)非線性關系對(du∞✔ì)于預測收益率提供的(de)增量貢獻有(yǒu)正确的(de♥ )預期。Chen, Pelger and Zhu (f£ £§orthcoming) 的(de)實證結果顯示,他(tā)們的↕∑​(de)生(shēng)成對(duì)抗網絡在構造 SDF 時(shí)←✔‌能(néng)夠捕捉到(dào)協變量之間(£₽$jiān)的(de)交互作(zuò)用(yò×®ng),然而另一(yī)方面,他(tā)們也(yě)•↑>λ強調獨立協變量對(duì)于 SDF 的(de)影(yǐng)響↔π幾乎是(shì)線性的(de)。


下(xià)面讓我們回到(dào) fiction 部分 ₹(fēn)提到(dào)的(de) Baba->≥<‍Yara, Boyer and Davis (2021) $​一(yī)文(wén)。上(shàng)面的(de)這(zhè)個(g★∑☆ è)表來(lái)自(zì)該文(wén)的(de)早期版本,§< ₽其 OOS 實證區(qū)間(jiān)是(shì) 1990 到(dào) ε↑π2020。然而,在最新的(de)版本中,其 OOS 實證區(qū)εΩ★€間(jiān)搖身(shēn)一(yī)變縮短(duǎn)為(wèi) 199₹'0 到(dào) 2016。論文(wén)的(de)版本更新了(leφφ→),而實證區(qū)間(jiān)卻倒退了(le),實在令人(rén)不(‌πβbù)解。而更讓人(rén)匪夷所思的(de)是(shì∞≥≤'),作(zuò)者給出的(de)解釋竟然是(shε♣ì)作(zuò)為(wèi)比較的(de) ad-hoc₩÷π≈ 模型 Stambaugh-Yuan 的(de)數(shù)Ω↓☆據隻到(dào) 2016 年(nián)(你(nǐ•σ≤)們在複現(xiàn)機(jī)器(qì)學習(xí←∑)模型!拜托!)。既然早期工(gōng)作(zuò)版本中能(n♥★₹éng)複現(xiàn)到(dào) 2020 年(nián),為(wèi) €什(shén)麽在新的(de)版本中卻又(yòu)以此為(wèi)借口放σ÷(fàng)棄了(le)?真正的(de)動機(jī)恐怕♦&£>隻有(yǒu)作(zuò)者自(zì)己清楚♥×。


在這(zhè)個(gè)短(duǎn)一(yī)些(xiē)的(de)實 ₹證區(qū)間(jiān)內(nèi),實證結果如(rú)下(xiàε<)(下(xià)表中括号內(nèi)數(shù)據是(shì)¥"截至到(dào) 2020 年(nián)的(de)結果,放(fàng©Ω​)在這(zhè)裡(lǐ)方便比較)。有(yǒu)>≥意思的(de)是(shì),當實證區(qū®≈φ≈)間(jiān)的(de)終點選為(wèi) 2016 之後,四個(gè)機≈ (jī)器(qì)學習(xí)模型都(dōu)不(bù)同程度的φ©‌β(de)變差了(le)(BPZ 有(yǒu)些(xiē)讓人(rén)意外$>©(wài)),而四個(gè) ad-hoc 模型卻'↑都(dōu)提升了(le)(SY 發表在 201‍•φ7,FF6 = FF5 + Carhar₽←α t Mom 而 FF5 以及 HXZ 都(dΩ≈σ✔ōu)發表在 2015,玄妙吧(ba))。β§♠₩


f8.png


Anyway,讓我們聚焦于機(jī)器(qì)學習(xí)模型。上(s₩δhàng)述對(duì)比說(shuō)明(míng),随著(zhe)×σ→>實證區(qū)間(jiān)的(de)不(bù)同,模型的(de)結果也(♦↔♦yě)會(huì)有(yǒu)較大(dà)的(de)波動。而另一(δ≈yī)方面,所有(yǒu)這(zhè)些(xiē©→♥)發表在頂刊上(shàng)的(de)論文(wén),雖然它們都(   $dōu)是(shì)使用(yòng) rolling ‍®≠或者 expanding 窗(chuān​™₽g)口進行(xíng)訓練和(hé)驗證,然後∏"< 再預測樣本外(wài)的(de) next month、如(✔₩rú)此往複,但(dàn)是(shì)這(zhè)些(xiē)文(w↓↕&αén)章(zhāng)并沒有(yǒu)對(duì)調參的(d"♣εe)過程以及不(bù)同參數(shù)下(xià‌↕₹)模型的(de)穩健性進行(xíng)多(duō)少•♠ ♣(shǎo)(if any!)的(de)描述。從(cóng)這(©≈zhè)個(gè)意義上(shàng)說(shuō),機(j♠×‌ī)器(qì)學習(xí)應用(yòng)σ→₹于資産定價的(de)研究生(shēng)态還(hái)遠(yuǎn)談不®λ≤(bù)上(shàng)完善(呼籲有(y•↓ǒu)大(dà)佬能(néng)站(zhàn)出來(lái),提出學界認可(‌£kě)的(de)研究生(shēng)态)。


5


Fiction: 機(jī)器(qì)學習(xí)模型可(kě)以很(hěn)容易地(dì)被應 γ¥∏用(yòng)于實踐。


雖然機(jī)器(qì)學習(xí)模型在實證資産定價的(♣≠de)學術(shù)研究中取得(de)了(le)令人(rén)欣β✔λ慰的(de)結果,但(dàn)并不(bù)意味著(zhe)它們能(∞δnéng)夠被輕易的(de)用(yòng)于實踐,并獲得(de)可(k± δě)觀的(de)費(fèi)後超額收益。這(zhè)方面一¶  (yī)個(gè)最重要(yào)的(de)經∞↑驗事(shì)實是(shì),機(jī)器→✔>(qì)學習(xí)模型構造的(de)投資組合都(→←∑≥dōu)有(yǒu)很(hěn)高(gāo)的(de)換手率。☆"≠


在這(zhè)方面,Avramov, Cheng and Met'§zker (2023) 複現(xiàn)了(le) Gu, Kelly a≈&♦nd Xiu (2020) 中的(de)神經網絡模型、CPZ 的(de) ×​GAN、KPS 的(de) IPCA 以及 Gu, Kelly and Xiu '<↑ (2021) 的(de)(Conditional)Autπ​oencoder (CA)。這(zhè)些(xiē)§λΩ↓模型的(de)月(yuè)均換手率如(rú)下≈©γ←(xià)。作(zuò)為(wèi)對(du₩γì)比,像 size 和(hé) value 這(zhè)←✔¶®種傳統低(dī)頻(pín)風(fēng)格因子(zǐ)的(→π¥de)月(yuè)均換手率通(tōng)常低(dī)于 10‌∏$%(即 0.1)。通(tōng)過對(duì)交易成本的(de)估計(ε₹ελjì),Avramov, Cheng and Metzker (σ♠↓2023) 指出,在如(rú)此高(gāo)的(de)£↑♥換手率下(xià),對(duì)于一(yī)般投資者(averag¶∞e investors)來(lái)說(shuō),很(hěn©  λ)難通(tōng)過機(jī)器(qì)學習($↓xí)模型賺取額外(wài)的(de)超額收益(當然不(b≈±ù)排除有(yǒu)些(xiē)投資者能(néng)夠很(hěn)好(h±<ǎo)的(de)将這(zhè)些(xiē)模型工(gōng)程化(huà),并​​" 在高(gāo)換手率的(de)前提下(xià)依然獲得(σ de)超額收益)。


f9.png


為(wèi)了(le)應對(duì)交易成本帶來(lá ™<γi)的(de)挑戰,Jensen et al. (2022) 提出了(le∑™♥→) implementable efficient front•≠ier 的(de)概念,即在構造策略的(de)時(shí©∑$≥)候直接通(tōng)過費(fèi)後收益率進行(xíng)評估,÷‌從(cóng)而将帶有(yǒu)交易成本的(de)投✔δ'♣資組合優化(huà)問(wèn)題融入到(dào)機(jī)器(qì)學習(♠σ​'xí)的(de)框架之中,并取得(de)了(le)不(bù♠←✔✘)錯(cuò)的(de)結果。


Fact: 機(jī)器(qì)學習(xí)發現(xiàn)的(de)可(kě✘δ)預測性部分(fēn)集中于套利成本和(γ↕hé)交易成本高(gāo)的(de)股票(piào),對(duì)一(yī•✔↔γ)些(xiē)機(jī)構投資者價值有(yǒu)限。


實證結果表明(míng),諸多(duō)異象的(de)超額收益主要(yào)來σ>&α(lái)自(zì)空(kōng)頭(Avramov et al. ¥ 2013)或者微(wēi)小(xiǎo)市(shì)值₩→α股票(piào)(Novy-Marx and Velikov 20€₩→©16)。而對(duì)于機(jī)器(qì)學習(xí)模型來(lái)說(sδεhuō),它們也(yě)善于從(cóng)套利和&©(hé)交易成本更高(gāo)的(de)股票(piào)中挖掘可₩γ​(kě)預測性,因而削弱了(le)它們的(de)實踐價值。仍以 Avramov, Cheng and Metzker (2023Ω♥) 的(de)實證結果為(wèi)例。除 full s™≥≥→ample 外(wài),該文(wén)還(hái)分(fēn)别考察了(l"¶e)剔除微(wēi)小(xiǎo)市(shì)∞‍®值、剔除無 credit rating 公司以及剔除β" financially distressed 公÷α♦α司的(de)三個(gè)子(zǐ)樣本。結果(下(xià)表,表中括号內↓§↔♣(nèi)為(wèi) t-statistics)顯示,和(hé) full ↔♣sample 相(xiàng)比,主流機(jī)器(qì™φ✘)學習(xí)模型(IPCA 除外(wài))☆ φ™在這(zhè)三個(gè)子(zǐ)樣本中的(de)表現(xià♠<♦∑n)均有(yǒu)明(míng)顯的(de)下 ™φβ(xià)降,且一(yī)些(xiē)模型較傳統 ad-hoc 多 ₩(duō)因子(zǐ)模型(例如(rú) FF6≠ ​)的(de)  在某些(xiē)子(zǐ)樣本中也(yě)不(bù)§☆±再顯著。


f10.png


以 GAN 為(wèi)例,其在剔除微(wēi)小('×♥φxiǎo)市(shì)值子(zǐ)樣本中γ☆的(de)月(yuè)均收益率和(hé) full sample¶®₽ 相(xiàng)比,降低(dī)了(le)超過 50%。在上(shàn✔÷∞g)述四個(gè)模型中,除 IPCA 之外(wài)都(dōu)是↑¥ε↑(shì)非線性模型,而唯有(yǒu) IPCA 的(de)結果比較穩健(∞₹在 full 和(hé)幾個(gè)子(zǐ)樣本中的(de)結果較為(w§‌èi)一(yī)緻)。需要(yào)說(shuō)明(míng)的(de)是₹γ(shì),上(shàng)述針對(duì)三個(gè)子(zǐ)樣本的♥↔(de)結果仍然是(shì)使用(yòng)基于 ™"§<full sample 訓練出的(de)模型得(de)到(d‍×✔•ào)的(de)。這(zhè)也(yě)許會(huì)讓一(γ↕yī)些(xiē)讀(dú)者頗有(yǒu)微(wēφ↔¥>i)詞。對(duì)于此,Avramov, Cheng anΩ≈d Metzker (2023) 進一( ™↓‌yī)步使用(yòng)子(zǐ)樣本進行(xíng)訓練和(hé)£₹樣本外(wài)預測,但(dàn)發現(xiàn)結果并沒有(yβ¶♦ǒu)實質的(de)改變,而且在一(yī)些(xiē)子→​®(zǐ)樣本中 OOS 的(de)表現(x$αiàn)還(hái)下(xià)降了(le)。換句話(±‌$ huà)說(shuō),原本打算(suàn)通(tōng ↓♦ε)過約束讓模型學習(xí)目标樣本,然而結果卻是(shì)更少(shλ∏ǎo)的(de)樣本量(子(zǐ)樣本 vs full)卻Ω¥>導緻了(le)更差的(de) OOS 表現(xiàn)。成功 twea↕↕k 非線性模型使其聚焦于套利和(hé)交易成本低(dī)的(de)股票(pi☆♠δào),将會(huì)是(shì)機(jī)器(qì)學×≤βπ習(xí)模型落地(dì)的(de)重要(yào)前提。


6


以上(shàng)從(cóng)五方面的(de) facts and f♣αictions 梳理(lǐ)了(le)近(jìn)幾年¶ (nián)最重要(yào)的(de)機(jī)器(qì)學習(xσ↕↓í)資産定價實證發現(xiàn)。


作(zuò)為(wèi)本文(wén)的(de)結尾↔↑←γ,我想最後強調的(de)是(shì),雖然這(zhè)些(xiēπ≠♦)論文(wén)的(de)實證結果都(dōu)是(shì™$) OOS(即用(yòng)曆史數(shù)據建♦β&模和(hé)調參,然後預測下(xià)一(yī)個(gè) pe₩€₹¶riod),然而它們使用(yòng)的(de)協變量幾乎都( ♥®dōu)是(shì)來(lái)自(zì)以往實證δ∞資産定價研究所挖出來(lái)的(de) anomaly。© ™σ從(cóng)這(zhè)個(gè)意義上(shàng)÷α說(shuō),我不(bù)得(de)不(bù)再抛出一(yī)直以來(lá>★≠>i)的(de)觀點“所有(yǒu)曆史數(shù)據都(dōu)是(shì)樣本內(nèi)”


在協變量和(hé)收益率存在非線性關系,∑€​以及協變量都(dōu)是(shì)在曆史上(shàng)¶§顯著的(de)前提下(xià),我們似乎不(bù)用(yòng)對(duγ£÷ì)這(zhè)些(xiē)模型在 OOS 的(de)優越表現₹€ε←(xiàn)感到(dào)特别的(de)意外(₽☆wài)。然而,另一(yī)個(gè)值得(de)思考的(de)$≠∞問(wèn)題是(shì),如(rú)果以 agnostic 視(sh‍‌×βì)角出發,将機(jī)器(qì)學習(xí)模型應用(yòng)實證資産定價≤φε✘之中,又(yòu)會(huì)有(yǒu)怎樣的(de)結果?在這≈©(zhè)方面,Nagel (2021) 有(yǒu)過初步的(de)嘗試,發₹×'現(xiàn)機(jī)器(qì)學習(xí"¥×φ)能(néng)夠從(cóng)諸多(duō)ασ™變量中識别出和(hé)預期收益率相(xiàng)關的(de)那(nà)₹★©些(xiē)。


希望本文(wén)的(de)梳理(lǐ)能(néng)幫助你(nǐ)對(du→★Ω≠ì)基于機(jī)器(qì)學習(xí)≥☆★σ模型的(de)實證資産定價研究形成正确的(de)預期,在抱有(yǒ☆<≠↓u)期待的(de)同時(shí)也(yě)客觀認♠♦識到(dào)研究的(de)現(xiàn)狀和(hé)面臨的(de)挑戰。​π<↑最後,我想引用(yòng) Bryan Ke✘∏lly 在某 Q&A 環節就(jiù)機↓↓φ(jī)器(qì)學習(xí)正确預期的(de >)回答(dá)總結本文(wén)。作(zuò)為(wèi)學界新☆​φ>生(shēng)代當仁不(bù)讓的(de)扛把子(zǐ)之一(yī)以及 γ™AQR 的(de) Head of Machine Learning✔≈☆Ω,Kelly 的(de)觀點值得(de)認真體(tǐ)會(huì)。


f11.png



參考文(wén)獻

Avramov, D., S. Cheng₹∏≠, and L. Metzker (20σ§23). Machine learning vs €. economic restrictions: Evi•$©♥dence from stock return predicδ'±tability. Management Science 69(5), 2587 – 2619.

Avramov, D., T. Chordiβλa, G. Jostova, and A•ε↔. Philipov (2013) Ano✘♠<malies and financial distress. Journal of Financial Economics 108(1), 139 – 159.

Baba-Yara, F., B. Boyer, and C. Davβαis (2021). The factor m✘‌ ‌odel failure puzzle. Workin•∑Ω±g paper.

Belkin, M., D. Hsu, S.≠•σ Ma, and S. Mandal (2019≤​). Reconciling modern machine-lea←₽rning practice and the classical bias≈Ω™-variance trade-off. PNAS 116(32), 15849 – 15854.

Bryzgalova, S., M. Pelger, and J. Zhuα‍✘₹ (2020). Forest through the trees:Ω<≈€ Building cross-sections of stock r±£eturns. Working paper.

Chen, L., M. Pelger, •♠•and J. Zhu (forthcoming). Deep learnσ±<×ing in asset pricing. Management Science.

Gu, S., B. T. Kelly, and $→D. Xiu (2020). Empirical asset ≥¥φpricing via machine learning. Review of Financial Studies>©'® 33(5), 2223 – 2273.

Gu, S., B. T. Kelly, a↓ ✘αnd D. Xiu (2021). Aut÷÷oencoder asset pricing mod∞₽els.Journal of Econometrics 222(1), 429 – 450.

Hastie, T., A. Montanari, S. Ros✘×γ↔set, and R. J. Tibshirani (¥ε←2022). Surprise in high-dimensiona✘₹l ridgeless least squares interpolat →ion. Annals of Statistics 50(2), 949 – 986.

Jensen, T. I., B. T. Kelly, S✔≠. Malamud, and L. H. Pedersen ₽<✔<(2022). Machine learning and the  ←αimplementable efficiΩ€¥€ent frontier. Working paper§÷✔β.

Kelly, B. T., S. Malamud, and K. Zh<&↕ou (forthcoming). The virtu£✔•e of complexity in return prediction♠γγα. Journal of Finance.

Kelly, B. T., S. Pruitt, ↑• and Y. Su (2019). Cha¶"¥racteristics are covariances A uni↓©fied model of risk and re​♦turn. Journal of Financial Economics 134(3), 501 – 524.

Kozak, S. (2019). Kernel tπ&rick for the cross-section. Wor∏↔&king paper.

Kozak, S., S. Nagel, a≈≤∏♥nd S. Santosh (2018). Interpreting fa™ £&ctor models. Journal of Finance 73(3), 1183 – 1223.

Kozak, S., S. Nagel, and S. Santo÷β♦sh (2020). Shrinking the cross"​>-section. Journal of Financial Ec¶∑₩onomics 135(2), 271 – 292.

Nagel, S. (2021). Machine Learning in Asset Pricin↓‌§εg. Princeton University Press.

Novy-Marx, R and M. Velikov (2016). <↑A taxonomy of anomalies and their trδ' ‌ading costs. Review of Financial Studies 29(1), 104 – 147.



免責聲明(míng):入市(shì)有(yǒu)風(fēng)險,投資需謹慎。在任何α₹情況下(xià),本文(wén)的(de)內(nèi)容、信息及數(shù)據♣↕★或所表述的(de)意見(jiàn)并不(bù)構<✘成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(∑ xià),本文(wén)作(zuò)者及所屬機(jī)構不(bù)對( ♠& duì)任何人(rén)因使用(yòng)本文(wé₽≠ n)的(de)任何內(nèi)容所引緻的$∏¶≈(de)任何損失負任何責任。除特别說(shu×₹ō)明(míng)外(wài),文(wén)中圖表均直接或間(jiānφ↑)接來(lái)自(zì)于相(xiàng)←♠✔應論文(wén),僅為(wèi)介紹之用(yònγ‌g),版權歸原作(zuò)者和(hé)期刊所有(yǒu)。