The Virtues of Complex Models

發布時(shí)間(jiān):2023-08-07  |   ↓δ> 來(láσ™←♦i)源: 川總寫量化(huà)

摘要(yào):跟著(zhe)兩位大(dà)佬一(yī)起洞悉金(&∞ jīn)融機(jī)器(qì)學習(xí)的(de)最新學術(shù)前沿(↔ π≈II)。

作(zuò)者:石川


上(shàng)期公衆号翻譯了(le) Bryan ¶♦£ Kelly 和(hé)修大(dà)成兩位教♠ ↔授最新的(de) Financial Machine Learning 的(de)第一(yī)章(zhāng)。之後有(yǒφβ£∞u)小(xiǎo)夥伴催更後續章(zhāng)節。


該文(wén)的(de)第二章(zhāng©εγ↕)标題為(wèi) The Virtueφ§s of Complex Models,即複雜(zá)模型的(de)好(hεσǎo)處。公衆号的(de)老(lǎo)朋(péng)友(yǒu)也✘×♦±(yě)許在最近(jìn)一(yī)年(nián)以來(l€¶¥ái)對(duì)這(zhè)個(gè)提法不(bù∞')再陌生(shēng)。Bryan Kelly 這(zhè)兩年(niá±♣↓n)一(yī)個(gè)重要(yào)的(de) resγ×earch agenda 就(jiù)是(shì) Th¥♦e Virtues of Complexity 系列,而我也(y¥₽×™ě)很(hěn)早就(jiù)開(kāi)始追蹤他(tā)在這(zh♠‍£®è)方面的(de)研究成果并通(tōng)過公→♠±衆号多(duō)次進行(xíng)了(le)非 tech×'&nical 的(de)介紹(例如(rú)《機(jī)器(qì)學習(xí)與資産定價:Facts™₽ and Fictions》以及《因子(zǐ)投資的(de)高(gāo)維數(shù)時↕'(shí)代》)。因此,雖然不(bù)敢說(shuō)對(duì)這(zhè)章(zhāπ☆Ωng)的(de)內(nèi)容如(rú)數(s‍✔ 'hù)家(jiā)珍,但(dàn)也(yě)算(suàn)是(shì)比παπ較熟悉。更重要(yào)的(de)是(s✘✘☆←hì),我也(yě)越來(lái)越意識到(d®€β£ào) The Virtues of Complexity 對 ↔<(duì)于量化(huà)投資和(hé)因子(zǐ)投資的(de)啓'§≈∑示。


因此,今天繼續翻譯 Financial Machine Learning 的(de)第二章(zhāng)。再次感謝(€÷↓xiè)劉洋溢和(hé)王熙兩位老(lǎo)師(shī)提出的±₽<(de)寶貴修改建議(yì)。


最後,本翻譯僅供學習(xí)交流使用(yòng​₹Ω),禁止一(yī)切商業(yè)行(xíng)為(wèi),未經授權,禁×÷α止轉載。


以下(xià)是(shì)正文(wén)部分(fēn)。





包括我們在內(nèi)的(de)許多(duō)人(rénδ'↑↔)在接受計(jì)量經濟學培訓時(shí),都(dōu)承襲→‍™了(le)“簡約原則”這(zhè)一(yī)傳統。該原則充←↑↕®分(fēn)地(dì)體(tǐ)現(xiàn)在 Box and J' enkins (1970) 的(de)模型建立方法中,對(duì)金(jī•÷↕‍n)融計(jì)量經濟學産生(shēng)了(le)深遠(yuǎnσ§)的(de)影(yǐng)響。在 Box ₽☆↑✘和(hé) Jenkins 兩位關于預測的(de)最新版教科ε★← (kē)書(shū)的(de)引言中,“構建模型的(de)基本觀念”中的(dλ↑​e)第一(yī)條就(jiù)是(shì)“簡€γ∏‌約性”,他(tā)們強調“實踐中,我們應使用(yòng)盡可(kě)能♦∏←(néng)少(shǎo)的(de)參數(shù)來(lái)準确地(dì)描Ω₹π述一(yī)個(gè)現(xiàn)象,過程β€或數(shù)據集的(de)性質或行(xíng)為(wèi),這(π∏zhè)一(yī)點非常重要(yào)”。


在現(xiàn)代機(jī)器(qì)學習(xí)算(→↔suàn)法采用(yòng)大(dà)規模參數(shù)化(huà)這(zh↕><≈è)一(yī)現(xiàn)實面前,簡約模型似乎₽≈÷顯得(de)格格不(bù)入。領先的(de) GPT-3 語言模型↓‌★(Brown et al. 2020)使" ₹用(yòng)了(le) 1750 億個(gè)參數(shù)。即使是"$∏(shì) Gu, Kelly and Xiuγ& (2020) 中那(nà)個(gè)在規模上(¶✔shàng)完全不(bù)可(kě)與之相☆★£¥(xiàng)提并論的(de)收益率預測神經網β≥絡模型也(yě)有(yǒu)差不(bù)多(duō‍¥≈↕) 30000 個(gè)參數(shù)。對(duì)于承襲 Bo™₩‍§x-Jenkins 的(de)計(jì)量經濟學家(jγ±$iā)來(lái)說(shuō),如(rú)此₩‍¥≈豐富的(de)參數(shù)化(huà)似乎過于奢侈,容易導×♥™緻過拟合,并可(kě)能(néng)在樣>'"Ω本外(wài)産生(shēng)災難性的(de)表現(xiàn)。


然而,近(jìn)年(nián)來(lái)在許多(duō)金(φ≥jīn)融之外(wài)其他(tā)領域的 ♥(de)研究成果均與上(shàng)述觀點相(xiàng)悖。在計(j★≠$ì)算(suàn)機(jī)視(shì)覺和(>&∞$hé)自(zì)然語言處理(lǐ)等應用(yòn•εδ>g)中,擁有(yǒu)海(hǎi)量參數(shù)的(de)模型,以♣±¥及完美(měi)拟合訓練集樣本的(de)模型,通≈π(tōng)常正是(shì)樣本外(wài≠↑)表現(xiàn)最好(hǎo)的(de)模型(譯者注:不(bù)過>₹人(rén)工(gōng)智能(néng)文(wén)獻也(yě)往↕♥↔♠往擁有(yǒu)較大(dà)的(de)數(<≥γshù)據集、并擁有(yǒu)諸多(duō)數(shù)據加強的÷≤'≠(de)方法)。在概括神經網絡文(wén)獻的(de)‍∞₽₹現(xiàn)狀時(shí),Belkin (2021) 總結到(dào≈©λ∞):“從(cóng)技(jì)術(shù)可(kě)行  ≥±(xíng)性的(de)角度看(kàn),最複雜(zá)的(de)網絡總是'<(shì)能(néng)産生(shēng)最優異的(de)表現(ε€↕£xiàn)。”顯然,現(xiàn)代機(jī)器(qì)學習(xí)研究颠↑→₩§覆了(le)計(jì)量經濟學所奉行(xíng)的(δφde)簡約原則。


人(rén)們試圖為(wèi)解釋大(dà)規模參數(shù&¶Ω‍)化(huà)的(de)成功尋求理(lǐ)論↔≈₽基礎,并回答(dá) Breiman (1995) 提↓<出的(de)問(wèn)題:“為(wèi)什(shén)§₩麽參數(shù)衆多(duō)的(de)神經網絡沒有(yǒu)過度拟合α×數(shù)據?”在本節中,我們将一(yī÷•§)窺這(zhè)個(gè)問(wèn)題的(de★×α)答(dá)案。為(wèi)此,我們借鑒了( "le)統計(jì)文(wén)獻中的(de)最新發現(xiàn),它們描述∏↓↕&了(le)“過度參數(shù)化(huà)”模型(即參數(shù)個(gè≥←♣)數(shù)遠(yuǎn)超可(kě)用(yòng)< £"訓練集的(de)觀測數(shù)據個(gè)數(±☆∑₹shù))的(de)行(xíng)為(wèi₩•←♥)。


最新的(de)文(wén)獻已經開(kāi)始回答(dá)機(jī)器(qìφ¥)學習(xí)模型的(de)統計(jì)理(lǐ)論含義,π®₹并關注過度參數(shù)化(huà)模型的(de)樣本外(wài)←"Ω預測準确性。在這(zhè)一(yī)章(zhān≈÷β'g),我們關注的(de)問(wèn)題是(shì)金(jīn)融≈δ§‌機(jī)器(qì)學習(xí)中過度參數(shù)化↕‌σ(huà)以及過拟合現(xiàn)象所帶來(lái✔↕↑)的(de)經濟影(yǐng)響。已經有(yǒu)不(bù)少∑π∞(shǎo)金(jīn)融學論文(wén)發現(xiàn),通(tōng)過™φ$≈機(jī)器(qì)學習(xí)模型能(néng)顯著提高( ★α✔gāo)收益率預測的(de)準确性。收益率預測的(de)主要(yào)經濟>σ用(yòng)途是(shì)構造效用(yò¶♦ng)最優化(huà)的(de)投資組合。我們的(d©✔€e)論述會(huì)側重于解釋“機(jī)•∏器(qì)學習(xí)投資組合”在樣本外(wài★★)的(de)風(fēng)險收益權衡,這(zhè)些(xiē&₹☆σ)投資組合通(tōng)過高(gāo)度參數(shù)化(huà)的(∏≈₹™de)收益率預測模型而構造。我們的(de)論述主要(yφ↑σào)基于 Kelly, Malamud and Zhou₽π (2022a) 和(hé) Didisheimε​≤ et al. (2023) 的(de)發現(x£$iàn)。


2.1 分(fēn)析機(jī)器(qì)學習(xí)模型的(de)工(gōng¥€>×)具


Kelly, Malamud and Zhou (20§γ☆22a) 提出了(le)一(yī)個(gè)思想實驗。設想一(yī)♠÷¥≥位分(fēn)析師(shī)在尋找一(yī)個(gè)成功的(de)收♣≠©$益率預測模型。假設資産收益率  由如(rú)下(xià)真實模型決定


  


其中預測變量集  可(kě)能(néng)為(wèi)分(fēn)析師(÷≈‍shī)所知(zhī),但(dàn)真正的(de)預測函數($₽‍shù)  對(duì)她(tā)而言是(shì)未知(zhī)的(de€ε")。在沒有(yǒu)  的(de)知(zhī)識的(de)情況下(xià),基于"≈∑通(tōng)用(yòng)逼近(jìn)理(lǐ)論(例如(rú),σ≥​σHornik, Stinchcombe and Wh<§σ€ite 1990),分(fēn)析師(shī)決定用(yòng)基礎神✘↓×±經網絡來(lái)近(jìn)似  :


  


在上(shàng)面這(zhè)個(gè)回歸模型中,每個(σ♠gè)特征都(dōu)是(shì)原始特征的(de)某•₽±個(gè)事(shì)先選定的(de)非線性變換,即


         (2.2)


最終,分(fēn)析師(shī)的(de)目标φφ≠是(shì)估計(jì)下(xià)面這(zhè)個(gè)近(j ε♥≥ìn)似回歸模型


        (2.3)


為(wèi)此,分(fēn)析師(shī)有(yǒu)  個(gè)訓練集觀測樣本可(kě)供我♦¶&們學習(xí)模型參數(shù),但(d♠"àn)是(shì)她(tā)必須首先确定¶✘§模型的(de)複雜(zá)度,即預測變量的(de)個(gè)數(shù)★±   。當  取值很(hěn)小(xiǎo)時(shí),她(tā)會(huì)♣₩♦α得(de)到(dào)一(yī)個(gè)簡單÷♦♠模型,該模型的(de)好(hǎo)處是(shì)方差較低£φ(dī);但(dàn)是(shì)當  取值很(hěn)大(dà)時(shí),她(tāλ× )所得(de)到(dào)的(de)複雜(zá)模型也(yě) €λ←許能(néng)夠更好(hǎo)地(dì)近(jìn)'©似未知(zhī)的(de)數(shù)據§$↓<生(shēng)成過程。那(nà)麽問(wèn)題來(lái)了(le€♥),她(tā)應該選擇多(duō)大(dà)的(de)模型複雜(>↓γzá)度(即  的(de)取值)呢(ne)?


也(yě)許聽(tīng)上(shàng↓&₩)去(qù)令人(rén)驚訝,但(dàn¶™α) Kelly, Malamud and ©λZhou (2022a) 指出分(fēn)析師(★✘∏shī)應該使用(yòng)其算(suà•¶n)力約束下(xià)能(néng)夠實現(xiàn)的(÷÷↑de)最複雜(zá)的(de)近(jìn)似模型。樣本外(wài)預測的(de←∏"σ)準确性和(hé)投資組合的(de)預期表現(xiàn±©↑)會(huì)随著(zhe)模型複雜(zá)度而遞增。為(wèi)了(¶≥$↕le)得(de)出這(zhè)個(gè)答(dá)案,Kelly, Ma ₹lamud and Zhou (2022a) 借δ¶助了(le)兩種關鍵的(de)數(shù)學工(gōng)具來(lσ‌¶∏ái)分(fēn)析複雜(zá)的(de)非線性(即機(jī)器(qì)學習ε £(xí))模型。它們分(fēn)别是(shì§​₩)帶生(shēng)成非線性特征(即上(shàng)面的(deπ​σ‌)  )的(de)嶺回歸以及随機(jī)矩陣理(lǐ)論,後者用(yλ→ ‍òng)于在變量個(gè)數(shù)  相(xiàng)對(duì)于訓練集樣本數(shù)很(hěn)大Ω±£(dà)時(shí)依舊(jiù)能(né£​≤ng)保持類似大(dà)小(xiǎo)的(de)情況下(xià)分♣♠(fēn)析估計(jì)量的(de)行(xín ↔g)為(wèi)。


2.1.1 帶生(shēng)成特征的(de)嶺回歸


Kelly, Malamud and Zhou (2022a) 的(de€≈)第一(yī)個(gè)建模假設聚焦于式 (2.3)Ω•× 所示的(de)高(gāo)維線性預測模型,我們稱之為α¥≥÷(wèi)“實證模型”。關于式 (2.3) 的(de)正确理(lǐ)"λ解為(wèi),這(zhè)一(yī)公式并非•↕‍∑強調收益率會(huì)受到(dào)為(wèi)數(shù)衆多(d♠≠↑uō)的(de)驅動力的(de)線性影(yǐng)響。相(xi​≈₩≠àng)反,它表明(míng)的(de)是(shì©♣ )數(shù)據生(shēng)成過程(DGP)是(s★∞♦λhì)未知(zhī)的(de),但(dàn)它或許可(k±♥§ě)以通(tōng)過一(yī)組變量  來(lái)近(jìn)似,這(zhè)組變量是(shì)從(cón↓∑"♠g)原始(可(kě)能(néng)數(shù)量有(yǒu)限)☆α驅動變量  經非線性變化(huà)擴展而來(lái)的(de)。在機(jī)器(×Ωqì)學習(xí)的(de)術(shù)語中÷✘♣φ,  是(shì)從(cóng)原始特征  派生(shēng)出來(lái)的(de)“生(γ∑☆☆shēng)成特征”(例如(rú)通(tōng)過非線性神↔±經網絡傳播)。


這(zhè)個(gè)問(wèn)題的(de)一(yī)個δ★ (gè)鮮明(míng)特點是(shì),實證模型往往存✘€↔在模型設定偏誤。在式 (2.3) 中消除模型≥∞設定偏誤需要(yào)我們無限地(dì)擴展模型所包含的(de)特征,但(d÷♥àn)實際上(shàng)我們隻能(nén>Ωg)使用(yòng)有(yǒu)限個(gè)數(shù)的λ$£(de)特征,即  個(gè)。當  很(hěn)小(xiǎo)時(shí),由于需要(yào§¥♠)估計(jì)的(de)參數(shù)少(shǎo)(方差低(dī)),因此模₹©型很(hěn)穩定,但(dàn)它并不(bù)能≈♠→(néng)很(hěn)好(hǎo)地(dì)近(jìn)似真實的(de↔ )數(shù)據生(shēng)成過程(↓♦'∏偏差大(dà))。機(jī)器(qì)學習(xí→")的(de)一(yī)個(gè)基本前提是(shì),★"更加靈活的(de)模型(即  個(gè)數(shù)很(hěn)大(dà))能(néng)夠提高&♣ε∏(gāo)預測準确性。對(duì)于這(zhè)些(xiē)模★₹γ型而言,其參數(shù)估計(jì)可(kě)能(néng)有(® ↔ yǒu)很(hěn)多(duō)噪聲(高(g€βāo)方差),但(dàn)它們确實提供了(le)關于真實數∏∑®(shù)據生(shēng)成過程更準确的(de)近(jìn)似(小(xiǎ &♦o)偏差)。從(cóng)偏差—方差權衡的(de)角γ γ度來(lái)看(kàn),事(shì)前決定最優的(de)  值并不(bù)容易。作(zuò)為(wèi)→×£δ經濟學家(jiā),我們的(de)終極目标是(shì)通(tōn♥∞☆g)過權衡偏差和(hé)方差以使得(de)模型産生(s™♦πhēng)最優的(de)經濟結果,以期提高(gāo)投資者的(de) ₽期望效用(yòng)。正是(shì)對(duì)于上(s↔↔ hàng)述目标的(de)追求促使 Kelly, Ma₹₽ ♣lamud and Zhou (2022a) 在理(lǐ)論方面探究高(gā✔> o)複雜(zá)度模型的(de)作(zuò)用(yòng)£δφ 。


第二個(gè)建模假設是(shì)使用(yòng)嶺回歸作(z♠✔uò)為(wèi) (2.3) 的(de)估計(jì)量:


        (2.4)


其中  是(shì)嶺收縮參數(shù)。在該估計(jì)量的(de)所♠€₹λ有(yǒu)細節之中,正則化(huà)對(duì ♦Ω )我們如(rú)下(xià)的(de)討(tǎo)論至關重要(yào)。如(∏&★≈rú)果不(bù)施加正則化(huà),那‌φ↔≈(nà)麽當模型複雜(zá)度很(hěn)高(gāo)(即  )時(shí),式 (2.4) 的(de)分(fē♥♦>£n)母是(shì)奇異的(de)。另外(wài)我們也(yě)将看(k φàn)到(dào),對(duì)于低(dε ♥ī)複雜(zá)度(即  )的(de)模型,正則化(huà)也(yě)會(≠φφ&huì)影(yǐng)響  。


最後,為(wèi)了(le)刻畫(huà)<φσε高(gāo)複雜(zá)度模型對(duì)于投→♠資者的(de)經濟影(yǐng)響,Kelly, Malamud and™↔ Zhou (2022a) 假設投資者使用(yò •ng)預測結果按照(zhào)如(rú)下(xià)方式構造交易策 ≤₩略:


  


式中  表示資産的(de)權重,它正比于模型預測結果,并用(yòng)于動态調β✔節投資組合在不(bù)同資産上(shàn$≈↑♠g)的(de)倉位。在他(tā)們的(de)分(fē♣₩×n)析中,  的(de)取值等于他(tā)們所使用(yòng)的(de)複雜(zσ£♣&á)模型産生(shēng)的(de)樣本外(wài)預期收益率預¥↑↓€測。此外(wài), 他(tā)們假設投資者的(de)投資結果通≥¥(tōng)過非條件(jiàn)夏普比率來(lái)衡量,其定義如(♦≤÷rú)下(xià):


        (2.5)


盡管還(hái)存在其他(tā)合理(lǐ)的≤≠γ(de)策略構造方式以及績效評價标準,但(dàn)上(shàng)述選擇均是 λ ♦(shì)在學術(shù)界和(hé)投資業(yè)界中的∑★‌σ(de)常見(jiàn)選擇,因此它們兼顧透明(míng)性和(≥₽hé)易理(lǐ)解性。


2.1.2 随機(jī)矩陣理(lǐ)論


上(shàng)述嶺回歸公式以線性回歸的(de)方式展示了(le)像神經網₩♣∏絡這(zhè)樣的(de)機(jī)器(qì)學習(x☆ $í)模型。我們的(de)願景是(shì),通(tōφ×≤ng)過這(zhè)種表示,可(kě)能(néng)能(néng)夠對(d≥₹Ω©uì)複雜(zá)模型在  且  的(de)情況下(xià)的(de)預期樣本外(wài)表現(xiàn)給Ω$出實質性的(de)結論。機(jī)器(qì)學習(xí)模型的(de♦<)漸近(jìn)性質與标準計(jì)量經濟學所關注 ✔∞•的(de)場(chǎng)景不(bù)同(即使用(yòng)當  以及  不(bù)變情況下(xià)的(de)漸近(jλ₽ìn)逼近(jìn))。随機(jī)矩陣理(‌π∞lǐ)論非常适合描述嶺回歸在取值較大(dà)時(shí)的(d$≥÷λe)行(xíng)為(wèi)。  為(wèi)了(le)簡化(huà)符号,我們将在下(xΩλ₩ià)面的(de)討(tǎo)論中省略  并使用(yòng)模型參數(shù)化(hu✘™à)相(xiàng)對(duì)于訓練集樣本數(shù)據的(de)±®λ程度。換句話(huà)說(shuō),我們将在接下(xià)來(lái)α§‍談論  這(zhè)一(yī)比率,并稱其為(wèi)“模型複雜(zá)度”‌ε。


當  時(shí),刻畫(huà)  的(de)關鍵是(shì)  維樣本協方差矩陣,即  。随機(jī)矩陣理(lǐ)論描述了(le)  的(de)特征值的(de)極限分(fēn)布。一(yī)旦知(zhī)£₹道(dào)這(zhè)個(gè)分(fēn♣γ)布就(jiù)足以确定嶺回歸在樣本外(wài)的(d↑≤♥✔e)預期預測表現(xiàn)(  )以及樣本外(wài)策略的(de)預期夏普比率。具ε♥φ體(tǐ)而言,它們由以下(xià)這(zhè)個(gè)式子(zǐ)确≈φ定


        (2.6)


它是(shì)  的(de)特征值分(fēn)布的(de©&↓)極限 Stieltjes 變換。由于 Stie♠≥"ltjes 變換涉及到(dào)嶺矩陣  ,因此我們從(cóng)式(2.6)中能(néng)夠看(kà≤♥δn)到(dào)與它嶺回歸之間(jiān)的(de)密切 £₽聯系。   的(de)函數(shù)形式可(kě)以通(tōng)過 Ma₩≤rcenko-Pastur 定理(lǐ)的(de)一(yī)個(gè)推≠←≥廣形式來(lái)确定。通(tōng)過  ,我們就(jiù)可(kě)以直接計(j♠₹‌σì)算(suàn)樣本外(wài)預期  和(hé)夏普比率,以及它們對(duì)于模型複♠©雜(zá)度的(de)敏感程度(請(qǐng)參考 ®≈€ΩKelly, Malamud and Zhou (2022a)÷≈ 中的(de)第 3 和(hé) 4 部分(fēn)關于上(shàn✘↓g)述內(nèi)容的(de)詳細論述)。


換句話(huà)說(shuō),模型複雜(zá)度對(duì)于₹&人(rén)們理(lǐ)解模型的(de)行(xíng)為(≥'∏βwèi)至關重要(yào)。如(rú)果樣本數(shù)量  的(de)增長(cháng)速度比預測變量的(de)增長(c→₹♠háng)速度更快(kuài)(即  ),那(nà)麽我們可(kě)以利用(yòng)傳統計(₹→jì)量經濟學中當  且固定  時(shí)的(de)漸近(jìn)性質。在這(zhè)種★∞"§情況下(xià),模型在樣本外(wài)的(de)預"β≤期表現(xiàn)将與其在樣本內(nèi)的(d☆€≠¶e)估計(jì)值相(xiàng)一(yī)緻。然而,這(zhè)種情≤εε況有(yǒu)些(xiē)不(bù)切實際且沒有(×'yǒu)什(shén)麽研究價值。極具研究價值的(de)情況是↓Ω‍¶(shì)把高(gāo)度參數(shù)化(huà)✔ 的(de)模型施加于稀缺數(shù)據時(shí)的(de)÷☆​情況,即  。正是(shì)在這(zhè)種情況下(xià),模型出現(xiàn)了>™♠ε(le)令人(rén)意外(wài)的(de)樣本外​↔​₹(wài)表現(xiàn)。


2.2 越大(dà)往往越好(hǎo)


Kelly, Malamud and Zhou (2022a↓♦↕•) 為(wèi)高(gāo)複雜(zá)度機(jī)器(qì)§↓ε‌學習(xí)模型及其相(xiàng)關交易策略的(de)性→™$質提供了(le)嚴格的(de)理(lǐ)論陳述。在實證部≈π♥分(fēn),他(tā)們通(tōng)過市(shì)場(ch©‍ǎng)收益率的(de)預測問(wèn)題(譯者注∑≠¶:擇時(shí)問(wèn)題)研究了(le)複雜(zá)模型×>的(de)參數(shù)校(xiào)準問(wèn)題,而我們接下 ε(xià)來(lái)的(de)論述将側重于他Ω★÷(tā)們關于該問(wèn)題的(de)重要(σ£↓yào)定性結果。具體(tǐ)來(lái)說(shuō),他♣↑≥γ(tā)們假設市(shì)場(chǎng)的(de)年(niá←★₩n)波動率為(wèi) 20%,并假設當真實函數(shù)關系和(hé)預測$↔變量對(duì)預測者完全已知(zhī)時(shí),她(t >ā)所能(néng)取得(de)的(de)“真實”(σ®↓₹但(dàn)當然是(shì)無法實現(xiàn"™✔←)的(de))月(yuè)頻(pín)預測性  為(wèi) 20%。然而,由于缺乏足夠的(de)數(shù)據供模型學習<≥ ♣(xí)以估計(jì)其所使用(yòng)的(de)諸多(d÷​α‌uō)參數(shù),模型的(de)複雜(zá)度反而‍∞成為(wèi)其學習(xí)真實數(shù)據生♦ ε"(shēng)成過程(DGP)的(de)障礙,因此在這(zhè)種φ$ ₹設定下(xià)推導出的(de)最佳可(kě)行(xíng)  僅僅是(shì)每月(yuè)接近(jìn) 1%。我們接β‌下(xià)來(lái)将聚焦于模型存在設定偏誤的(de)情況,即實證模型所 ‌使用(yòng)的(de)預測變量僅僅是(s βhì)真實預測變量的(de)子(zǐ)集的(de)情α®π‌況。


在上(shàng)述參數(shù)校(xiào)準問(wèn)題中,他(tσ¶✘ā)們假設真實但(dàn)未知(zhī) DGP 的(φ¶‌αde)複雜(zá)度為(wèi)  ,并通(tōng)過參數(shù)  來(lái)控制(zhì)相(xiàng)♠♦♥♦對(duì)于真實模型而言,實證模型的(de)複雜(zá©​)度。我們分(fēn)析了(le)不(bù)ε≤±同模型複雜(zá)度下(xià)實證模型的(de→<<®)表現(xiàn),其複雜(zá)度從(cóng)非常簡單(α®φ  ,  ,因此存在嚴重設誤)到(dào)高(gāo)&±度複雜(zá)(  ,  ,這(zhè)對(duì)應于最豐富的(de)近(jìn)似✘α™模型且實際上(shàng)還(hái)原了(le)正确的(de)模型設定✔λ™α)。複雜(zá)度很(hěn)低(dī)的(de)模型是(sφ hì)較差的(de)近(jìn)似模型,但(dàn)它們的(de↔↕)參數(shù)可(kě)以被精确地(dì)估計(jì)。随著(zhe) →≠  的(de)增加,實證模型能(néng)夠更好(hǎo)地(dì)近(jì>¶n)似真實 DGP,但(dàn)是(shì​↕)如(rú)果在不(bù)考慮正則化(huà)的☆♦(de)前提下(xià),其預測方差會(huì)增加≠ 。在參數(shù)設定問(wèn)題中,我們β‍同時(shí)也(yě)考慮了(le)一γ®&(yī)系列嶺罰項  的(de)取值。


首先考慮普通(tōng)最小(xiǎo)二乘法(OL∑★♥♣S)估計(jì)量  ,它是(shì)當  時(shí)方程 (2.4) 的(de)特例。當  時(shí),模型非常簡單,因而不(bù)具備逼近(jìn)真實 Dλγ✔&GP 的(de)能(néng)力且  基本為(wèi)零。随著(zhe)  的(de)增加并不(bù)斷(從(cóng)小(xiǎo)于  的(de)情況)接近(jìn)  時(shí),模型對(duì)真實 DGP 的( ÷β¥de)近(jìn)似有(yǒu)所改進,但(dàn)普通(tōng)最小(x ‌iǎo)二乘估計(jì)量的(de)分(fēn)母會(¶≥ ♠huì)“爆炸”,導緻預測誤差的(de)方差激增。這(zhè)個(gè)現(£♠>xiàn)象可(kě)以通(tōng)過圖 2.1 加以說(shu≠±×ō)明(míng)。當  時(shí),模型完美(měi)地(dì)拟合訓練集數(shù)據(這(zh♦‌★è)在機(jī)器(qì)學習(xí)術(sh‍♣™‍ù)語中被稱作(zuò)“插值”訓練集數(shù)據)。出于這(zhè)'δ₩個(gè)原因,  也(yě)被稱為(wèi)“插值邊界”。因此,對(duì)于∞​≥☆  “爆炸”(譯者注:其範數(shù)急劇(jù)上(shàng)♥ ∏升,說(shuō)明(míng)模型的(de)方差非常高<​✘☆(gāo))的(de)現(xiàn)象的(de)一(yī)個(gè)常♦≠見(jiàn)解釋是(shì)模型對(duì)訓練集數(shù)據的​​π(de)過拟合,因而模型在樣本外(wài)數(shù)據上(shàσ✔‍‌ng)的(de)泛化(huà)性能(néng)将會(huì)很(hěn)差。


f1.png


當  超過  時(shí),我們便進入了(le)過度參數(shù)化(huà)或高(gā÷≠o)複雜(zá)度區(qū)域。在這(zhè)種情況下(xià),參數(sh× ∞↕ù)的(de)個(gè)數(shù)超過了(le)觀測數(s ∏↓hù)據的(de)數(shù)量,因此最小(x§≤®©iǎo)二乘問(wèn)題的(de)解不(b‍™ù)再唯一(yī),且在這(zhè)時(shí)回歸變↑©☆‍量協方差矩陣的(de)逆矩陣是(shì)未定義的(de)。±£α÷然而,它的(de)僞逆矩陣是(shì)存在的(de$>),并且對(duì)應于最小(xiǎo)二乘問(wèn)題的∑γ₹±(de)特定唯一(yī)解:  。在所有(yǒu)能(néng)夠完美(mě$¶±εi)拟合訓練集數(shù)據的(de)解中,上(shàng)• £≥面這(zhè)個(gè)解具有(yǒu)最小(xiǎo)的(de) L2 ™→₩>範數(shù)。實際上(shàng),當收縮參數(shù)  趨近(jìn)于零時(shí),上(shàng)述解和(hé)如(rú♠↕)下(xià)嶺回歸估計(jì)量等價:


  


  被稱為(wèi)“嶺參數(shù)趨于零的(de)”回歸估計(jì)量"∏(譯者注:原著中用(yòng)的(de)是(shì)≥γ♥ ridgeless,表示上(shàng)式中  趨于  的(de)情況。此處,将 ridgeless 直譯為™<>(wèi)無嶺或者無脊均不(bù)能(néng)表明(míng)  趨于  ,因此譯為(wèi)“嶺參數(shù)趨于零的(de)”。☆λ在後文(wén)中,為(wèi)了(le)避免使用(yòn₹ g)這(zhè)一(yī)長(cháng)串翻λ←& 譯,我選擇保留英文(wén) ridge¥ βless)(對(duì)應圖 2.1 中的(de)藍(lán)色曲線)。當 γ↓→ 時(shí),普通(tōng)最小(xiǎo)二乘就(jiù€δ)是(shì) ridgeless(譯者&∑注:即沒有(yǒu)正則化(huà))估計(jì)量,而當  時(shí),ridgeless 情況則通(tōng)過極限  來(lái)定義。


令人(rén)驚訝的(de)是(shì),當模型複雜§λ→$(zá)度超過 1 時(shí)(譯者注:根據作★→(zuò)者的(de)定義,這(zhè)對(du↔ α₹ì)應  的(de)情況),ridgeless 回歸的(de)  值上(shàng)升了(le)。這(zhè)背後的(de)原因是(shπ≥☆ì),随著(zhe)  的(de)增大(dà),ridgeless 回歸可(kě)以在更大(dà•γ↓)的(de)解空(kōng)間(jiān)中進行γ®×(xíng)搜索,從(cóng)而找到(dào) ‌ε$L2 範數(shù)最小(xiǎo)且仍然能(néng)夠完美(měi)&≥σ拟合訓練集樣本的(de)  值。這(zhè)實際上(shàng)恰好(h×♦πǎo)起到(dào)了(le)一(yī)種收縮作(zuò)用(yòng),使π±  的(de)估計(jì)值向零有(yǒu)偏收縮。這(zhè)種偏倚造成了(l®≈®→e)預測方差的(de)下(xià)降以及  的(de)提高(gāo)。換句話(huà)說(shuō),盡↓↔★管  ,但(dàn) ridgeless 解仍然對(duì)最小(xiǎo)二乘→α‌♥估計(jì)量施加了(le)正則化(huà),且  越大(dà),正則化(huà)的(de)強度越大(dà)。當  非常大(dà)時(shí),樣本外(w₩↕ài)預期  變為(wèi)正數(shù)。上(shàng)述 ridgelesΩ$ ♠s 最小(xiǎo)二乘的(de)特性是(shì)統計(jì)學文€÷•​(wén)獻中新近(jìn)發現(xiàn)的(β÷de)現(xiàn)象,尚處于研究的(de≥‍)萌芽階段。它表明(míng)通(tōng)過令模型   複雜(zá)度(即協變量的(de)維數(shù))超過樣本大(dà)小(x↑β♣✔iǎo),能(néng)夠提高(gāo)收益率預測的(de)準确性,™✘•α這(zhè)挑戰了(le)标準金(jīn)融經γ ™濟學研究中重視(shì)模型簡約性的(de)鐵(tiě)律。


圖 2.1 描述了(le)高(gāo)複雜(zá)度שλ模型的(de)統計(jì)行(xíng)為♠☆(wèi)。圖 2.2 則将注意力轉向它們的(de)經濟後果。圖中第一(y↑ ∞ī)行(xíng)右側的(de)子(zǐ)圖展示了(le)機(j)器(qì)學習(xí)交易策略的(de£∏)波動率如(rú)何随模型複雜(zá)度變化(huà)。策'‌≥略的(de)波動率與  的(de)範數(shù)以及  一(yī)一(yī)對(duì)應(這(zhè)三個(gè)量是(s> ★✔hì)預測誤差方差的(de)不(bù)同表示方法)。其中重要(yào)λ>∞₩的(de)一(yī)點是(shì),随著σ₽≈↕(zhe)模型複雜(zá)度超過  ,交易策略的(de)波動率持續下(xi>↑à)降。複雜(zá)度加強了(le) ridg γ♠♦eless 估計(jì)量中(間(jiā≥∑<n)接的(de))正則化(huà)強度,從(c£±óng)而降低(dī)了(le)收益率的(de)波★£∑動率(并且  會(huì)進一(yī)步降低(dī)波動率)。


圖 2.2 中第一(yī)行(xíng)&λγ>左側的(de)子(zǐ)圖則展示了(le)♥™↕高(gāo)複雜(zá)度模型的(de)關鍵經濟行(xínβ™★g)為(wèi) —— 擇時(shí)策略在♥±樣本外(wài)的(de)預期收益率。對(duì)簡單策略來(lái)說(φ§×shuō),它們的(de)預期收益率較低(dī)。同樣,這(zhè)是(sh•→≤ì)因為(wèi)簡單的(de)模型無法很λ≈÷(hěn)好(hǎo)地(dì)近(jìn)似真實的(de) DGP。增加模型φ☆的(de)複雜(zá)度可(kě)以使人(rén)們更接近(jìn)真實情況, ☆∏并且單調地(dì)提升交易策略的(de)預期收∑™益率。


f2.png


這(zhè)二者對(duì)投資者最終的(de)投資結果意味著(zhe≤λ)什(shén)麽?圖 2.2 第二行(xíng)的₹&Ω¥(de)子(zǐ)圖以樣本外(wài)預期夏普比率為(wèi)例展示了✘ε×(le)投資者的(de)效用(yòng)↕'。樣本外(wài)夏普比率可(kě)歸結為(wèi∏​)經典的(de)偏差-方差權衡。預期收益率純粹反映偏差★↑α 影(yǐng)響。對(duì)于低(dī)複雜(zá)度模型而言,偏差來(lá₹₽i)源于模型設定偏誤,而非對(duì)參≠∑σ÷數(shù)的(de)收縮作(zuò)用(yòng)。對(duì)于高♣÷(gāo)複雜(zá)度模型,模型設定偏誤變小(xiǎo),×↑但(dàn)是(shì)參數(shù)收縮導緻的(de)偏∞©∞差較大(dà)。理(lǐ)論顯示,預期收益率随模型複雜(z♣•λ¶á)度而提升,這(zhè)意味著(zhe)對(duì)這(zhè)個('↔δgè)預測問(wèn)題而言,模型設定偏誤造成的(de)偏差比參數(shù₽®)收縮造成的(de)偏差代價更大(dà)。與此同時(shí),策略的(de♥÷​ )波動率純粹由預測的(de)方差決定。無論是(shì ™)簡單模型(  )還(hái)是(shì)高(gāo)度複雜(‍• zá)的(de)模型(  ),都(dōu)會(huì)産生(shēng)低(dī)方差。鑒于上(s✘∞'hàng)述偏差-方差權衡的(de)特點,一(yī)個(gè)自(₩><αzì)然的(de)結論就(jiù)是(shì)樣本外(w∑₹ài)夏普比率也(yě)随模型複雜(zá)度而增加,正如(rú)圖 λ∞≈2.2 所示。


我們可(kě)以将上(shàng)述發現(xiàn)和(hé)“雙(側)•↕下(xià)降”現(xiàn)象加以比較,“雙下(xià)降”現(x<♠iàn)象指的(de)是(shì)當  接近(jìn)零時(shí),模型樣本外(w±'<÷ài)的(de)均方誤差(MSE)關于模型複雜(zá)度呈現ε ‌(xiàn)出非單調的(de)模式(Bel ←kin et al. 2018;Hastie et al. 2019)∞₹。對(duì)于我們的(de)問(wèn)題而言,MSE 的≠→(de)雙下(xià)降現(xiàn)象對(duì)應著(zhe) >€αridgeless 回歸中夏普比率的(de)“雙上(shàng)升”現(x↑↓÷iàn)象(譯者注:即在  兩側,夏普比率均出現(xiàn)上(shàng)升,見(jiàn)圖 2♥™∞★.2 第二行(xíng)中代表 ridgele&¥ &ss 回歸結果的(de)藍(lán)線)。Kelly, Mala∏☆mud and Zhou (2022a) 證明(míng),當  時(shí),ridgeless 回歸夏普比率的(de)下±>↔(xià)降是(shì)由于收縮不(bù)足造成的÷♦™σ(de)。隻要(yào)施加足夠程度的(de)收縮(Kelly, ∑↑←Malamud and Zhou 2022a 明(mínσλg)确描述了(le)這(zhè)個(gè)問(wèn)題),即使在模型複雜(÷‌zá)度較低(dī)的(de)情況下(xià),增加複雜‍≥←(zá)度也(yě)是(shì)有(yǒu)益的(de)™♠:夏普比率的(de)下(xià)降消失了(le),而“雙上(sh&<àng)升”現(xiàn)象也(yě)變成“持續上(shàng)升”≠‍現(xiàn)象。


總的(de)來(lái)說(shuō),這(zhè)些(xiē₹©∑ε)結果挑戰了(le)本節前言所討(tǎo)論的(de)簡約主義¶σε信仰。它們表明(míng),在實證模型存在模≈•™↑型設定偏誤的(de)情況下(xià),複雜(z¶Ωá)度是(shì)一(yī)種優點。這(zhè)不(bù)僅對αδπ±(duì)于樣本外(wài)的(de)統計(jì)表現(xiàn↕©€)而言是(shì)正确的(de)(如(rú) Belkin×α et al. 2019;Hastie et al. 2019 等),而且對★≈(duì)樣本外(wài)投資者的(de)經濟效用(yòng)而言也(yě)是‍£(shì)正确的(de)。與傳統的(de)觀點相(xiσ↓σ✘àng)反,通(tōng)過讓模型參數(sh÷™ù)個(gè)數(shù)遠(yuǎn)超過訓練集樣本個(gè)數(shφ↔€δù),理(lǐ)論上(shàng)可(kě)以提高(φ≠β±gāo)基于機(jī)器(qì)學習(xí)模型所構造的(de)>≠ 投資組合的(de)(譯者注:樣本外(wài))表現(≥ xiàn)。


對(duì)于使用(yòng)複雜(zá)模型的(¥♣♦de)最佳實踐,Kelly, Malamud and Zhou (20↔∑'Ω22a) 總結到(dào):


我們的(de)結果并不(bù)意味著(zhe)随意向模型✔​♦中添加任意預測因子(zǐ)。相(xiàng)>¥反,我們建議(yì):(1)模型包含所有(yǒu)可(kě)能(nén☆¶ g)相(xiàng)關的(de)預測因子(zǐ),以及(2)使用απγ(yòng)複雜(zá)的(de)非線性模型取代簡單的(de)線性模型。哪怕™β​€在訓練集數(shù)據稀缺的(de)情況下(xià),∑®¶★這(zhè)樣做(zuò)也(yě)會(huì)改進預測和(hé)‍§∏投資組合,這(zhè)種作(zuò)用(yòng)在配合謹慎的($§₹¶de)參數(shù)收縮時(shí)更加明(míng☆±π)顯。


為(wèi)了(le)推導出上(shàng)述♥ε€結果,Kelly, Malamud and Zhou (2022a) 基于的‌γ←(de)假設是(shì)可(kě)預測性在協變量之間(jiān)均勻分(fē£∏☆n)布。乍看(kàn)上(shàng)去(qù♦¥✔©),這(zhè)個(gè)假設或許過于苛δ≠←∑刻,因為(wèi)許多(duō)标準的(de)預測變量都(dōu)難以 ¥★∑滿足這(zhè)一(yī)假設。然而,這↓ §(zhè)個(gè)假設與标準的(de)神經網絡模型σΩΩ是(shì)一(yī)緻的(de)(實際αε上(shàng)也(yě)是(shì)由此引出的(de)),在這(zh¶←è)種模型中,原始特征被混合并通(tōng)過非線性傳播進而彙聚到(dào)☆↓最終生(shēng)成的(de)特征中,如(r ‍γ£ú)式(2.2)所示。在訓練神經網絡的(de)初始化(huà)步驟≤ >中,生(shēng)成特征 S 的(de•​♦)順序會(huì)被随機(jī)打亂。此外(wài),在實證研究中,Kα" ¶elly, Malamud and Zhou (2022a, 202λσε≤2b) 以及 Didisheim et al. (2023) 使±σ↓用(yòng)了(le)一(yī)種被稱為(wèi)随☆♥機(jī)特征回歸的(de)神經網絡形式,從(cóng)而确保滿足這(zh‌™¥è)一(yī)假設。


2.3 複雜(zá)度(造成的(de))鴻溝


Didisheim et al. (2023) 從(cóng)不→♥•(bù)同角度對(duì) Kelly, Malamud and Zhou₹✔ (2022a) 進行(xíng)了(le)擴展,并提出♦×≠★了(le)“複雜(zá)度鴻溝”的(de)概念,它被定義為(w✔✘èi)樣本內(nèi)和(hé)樣本外(wài)表現(xiàn)的(de₩♥)期望差異(譯者注:難以逾越的(de)差異)。簡單來(lái)說(shuō),&✘©考慮實證模型不(bù)存在設定偏誤問(wèn)題。在低(✔φ♥πdī)複雜(zá)度(  )的(de)情況下(xià),根據大(dà)數(shù≥×)定律可(kě)知(zhī),樣本內(nèi)的(de)估計(jì)會±ε(huì)收斂于真實模型。這(zhè)種收斂性保證了(le)模型的(de)樣☆≤本內(nèi)表現(xiàn)能(néng)夠準确地(α♣≠±dì)反映其樣本外(wài)的(de)預期表現(xiàn)。也(yě)就(j ×↓↑iù)是(shì)說(shuō),在低(dī)¶♥♣∞複雜(zá)度情況下(xià),樣本內(nèi↓€)和(hé)樣本外(wài)表現(xiàn)之間(jiān)↓₽™沒有(yǒu)差異。


但(dàn)當  時(shí),由模型複雜(zá)度而帶來(lái)的(d₩'★Ωe)(譯者注:樣本內(nèi)外(wài​‌)表現(xiàn)之間(jiān)的(de‍♣))鴻溝便開(kāi)始出現(xiàn),它由兩個(gè)部分(♠ ↔fēn)組成。複雜(zá)度使得(de)訓練出的(de)​♥§δ模型在樣本內(nèi)的(de)可(kě)預測性程度高(gāo)于真實模型中可×∞♠(kě)預測性的(de)程度 —— 這(zhè)是(shì)過度拟合$↓的(de)傳統定義,也(yě)是(shì)鴻溝的(d↑↑≈↑e)第一(yī)個(gè)組成部分(fēn)。另外(wài×↔),高(gāo)複雜(zá)度也(yě)意味著(zhε©e)缺少(shǎo)足夠的(de)數(shù)據(∞α→相(xiàng)對(duì)于其參數(shù)個(gè Ω)數(shù))來(lái)訓練模型,以期它來(l♠​ái)還(hái)原真實模型 —— 複雜(zá)度使得(de)€∑♣大(dà)數(shù)定律在這(zhè)裡(lǐ)不(bù)再成立。這(zhè↓φλ)是(shì)鴻溝的(de)第二個(gè)組成部分(>♥≤σfēn),即模型在樣本外(wài)的(de)表現(x↔ ≤•iàn)要(yào)遜色于真實的(de)>≈♣模型。這(zhè)種不(bù)足可(kě)以被視(shì♠₹)為(wèi)由于模型複雜(zá)度導緻的(de)“₹✘↑學習(xí)的(de)局限性”。複雜(zá)£©度鴻溝 —— 模型在樣本內(nèi)和(hé±δ​)樣本外(wài)表現(xiàn)的(de)期望差異 —— 是(shì)過拟合₩γ₹和(hé)學習(xí)局限性共同作(zuò)用(yòng)的↓βγ(de)結果。


對(duì)于資産定價而言,複雜(zá)度鴻溝有(yǒu)一(y≤×> ī)些(xiē)重要(yào)的(de)啓示。對(duì)于₩♦§↔已實現(xiàn)的(de)(可(kě)行α ÷∑(xíng)的(de))預測  ,我們可(kě)以通(tōng)過随機( ™"☆jī)矩陣理(lǐ)論來(lái)反推出“真實”(但(dàn)γ₽♣↔不(bù)可(kě)行(xíng)的(de))模型中可(kě)預測性的(÷<¶de)程度。許多(duō)研究已經表明(míng),使用(yò"☆✘≥ng)機(jī)器(qì)學習(xí)模型可(kě)以Ω★獲得(de)顯著的(de)(正向)樣本外(wài)預↔€♣'測收益率預測,其中對(duì)于股票(piào)而言月(yuè)頻↓£σ(pín)可(kě)預測性大(dà)約為(wèi) 1%。≠≥π這(zhè)個(gè)實證結果,結合學習(xí)局限性的($‌<de)理(lǐ)論推導,意味著(zhe)真實的(de)(不(bù≥→∞≤)可(kě)行(xíng))預測  必須要(yào)高(gāo)的(de)多(d✘Ωuō)。同樣的(de),即使真實模型暗(àn)示 σ存在無風(fēng)險套利(或者簡單地(d&∏ì)說(shuō),非常高(gāo)的(de)σ↔¥™夏普比率)機(jī)會(huì),學習(xí)的(de₩©>)局限性也(yě)讓這(zhè)些(xiē)機(jī)會(huì)對(duì∞✔↕♦)于現(xiàn)實世界的(de)投資者而言₩∑≤÷如(rú)同“水(shuǐ)中望月(yuè)”,難以觸及♥ ≠。在一(yī)個(gè)現(xiàn)實的(deγ₽×γ)實證環境中,Didisheim et alλ . (2023) 指出,由于難以準确估計(jì¶♣γ)複雜(zá)的(de)統計(jì)關系,♥★因此可(kě)獲得(de)的(de)夏普比率相(xiàng)對(d∞φuì)于已知(zhī)真實 DGP 時(shí)所能(néng)獲得(de)→&↓的(de)夏普比率大(dà)約要(yào)低(dī)一(yī £✔)個(gè)數(shù)量級。


Da, Nagel and Xiu (2022) 考£↑÷ 慮了(le)一(yī)個(gè)特殊的(de)經濟環境,★λ♠ 其中的(de)經濟主體(tǐ)(即套利者)采用(λ₹ yòng)統計(jì)套利策略并試圖最大(dà)化(huà)←€他(tā)們樣本外(wài)的(de)夏普比率。這(zhè)些(xσ>σβiē)套利者在學習(xí) alpha 的(de)數(sh₩&σù)據生(shēng)成過程時(shí)也(yě)面臨統計(jì↑")難題(和(hé)上(shàng)述“複雜(zá)度”類似)。Da,≈↕  Nagel and Xiu (2022) 顯示,在>♥¶特定的(de)低(dī)信噪比環境下(xià),無論套✔§¶利者使用(yòng)哪種機(jī)器(qì)學習(xí)方法,他(‍∑tā)們都(dōu)無法獲得(de)最優的(de)夏普比率(無法≥←↑≠實現(xiàn)的(de))(譯者注:即套利者無法準确習(xí)得(de) D≈εGP)。此外(wài),即使套利者采用(yò♣♥βng)最優的(de)可(kě)行(xíng)交易策略,他(tā)&₹₹<們所獲得(de)的(de)夏普比率與最優φ✔×€(但(dàn)無法實現(xiàn))的(de)夏普比率之間(j $≥iān)仍然存在巨大(dà)的(de)差距。我們将在&  ♣第 4.6 章(zhāng)中進一(yī)步討(tǎo)論上(shàng)​&述論文(wén)的(de)細節。



參考文(wén)獻

Belkin, M. (2021). Fit without fear: ±₽§remarkable mathematical pheno↕☆★mena of deep learning through &αβthe prism of interpolat₹♠ion. Acta Numerica 30, 203–248.

Belkin, M., D. Hsu, S. Ma♥≠, and S. Mandal (2018). Recon§•™&ciling modern machine learning and th♥€&e biasvariance trade-off. arXiv e-prin✔γ↑ts.

Box, G. E. and G. Jenkins (1± 970). Time Series Analysis: Fo>✔'recasting and Control. San Francisco: Holden-Day.

Breiman, L. (1995). The m•×athematics of generalization. In:δ∞ CRC Press. Chap. Reflections Afte≥↕×βr Refereeing Papers for NIP ♠S. 11–15.

Brown, T., B. Mann, N. Ryder, ♥φ©∞M. Subbiah, J. D. Kaplan,≈≠™  P. Dhariwal, A. Neelakantan, P. Shyamγα, G. Sastry, A. Askel÷εσ♦l, S. Agarwal, A. Her↓↑γεbert-Voss, G. Krueger, T. Henighan,÷π☆& R. Child, A. Ramesh, D. Z‌ש★iegler, J. Wu, C. Winter, C.​" Hesse, M. Chen, E. Sigler, M. L←↓βitwin, S. Gray, B. C¥εhess, J. Clark, C. Bern∞γer, S. McCandlish, A. ÷πRadford, I. Sutskever, and D.↓& Amodei (2020). Language m☆αodels are few-shot learners. In: Advances in Neural Informatiδ∑£on Processing Systems. Ed. by H. Larochelle, M. Ranzato ™, R. Hadsell, M. Bal"δcan, and H. Lin. Vol. 33. Curr>δan Associates, Inc. 1877–1901.

Da, R., S. Nagel, and D. Xiu (2022)•‍. The statistical limit of arbit☆✘rage. Working paper.

Didisheim, A., S. Ke ↔, B. T. Kelly, and S. Malamud. (2023). ∏β← Complexity in factor pricing models.σα✔ Working paper.

Gu, S., B. T. Kelly, and D. ±±™✘Xiu (2020). Empirical ass™★≈et pricing via machine l®≠×earning. Review of Financial St♠★£®udies 33(5), 2223–2273.

Hastie, T., A. Montanari, S. Rossetφ♣$, and R. J. Tibshirani (2019). Surprise$  s in high-dimensional ridge÷≠¶less least squares i≥>≠nterpolation. arXiv prepri≠β¥nt arXiv:1903.08560.

Hornik, K., M. Stinchcombe, and H.☆§"→ White (1990). Universal a¥¥pproximation of an unknown mσ♣♣apping and its derivatives using multi★™layer feedforward networks. Neural Networks 3(5), 551–560.

Kelly, B. T., S. Malamud, and K. Zho​σ'←u. (2022a). Virtue of complexity in >®←return prediction. Working paper.π₩

Kelly, B. T., S. Malaγ§mud, and K. Zhou. (2022π∑b). The virtue of co©≤₽‍mplexity everywhere. Working pa₹ ©per.



免責聲明(míng):入市(shì)有(yǒu)風(fēng)險,投資需謹慎。在任何情況下(xi∞γà),本文(wén)的(de)內(nèi)容、信息及數($€&§shù)據或所表述的(de)意見(jiàn)并不(bù)構成對(du≥>ì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià)σ ÷,本文(wén)作(zuò)者及所屬機( ®♥jī)構不(bù)對(duì)任何人(ré™≠≥n)因使用(yòng)本文(wén)的(de)任¶✘₩何內(nèi)容所引緻的(de)任何損失負任何 ₩δ 責任。除特别說(shuō)明(míng)外(wài),文(w&∑én)中圖表均直接或間(jiān)接來(lái)自(z✔ σì)于相(xiàng)應論文(wén),僅為("→☆wèi)介紹之用(yòng),版權歸原作(zuò)者和(hé)期™∑↓刊所有(yǒu)。