出色不(bù)如(rú)走運 (VI) ?

發布時(shí)間(jiān):2021-07-04  |   ​ §¶ 來(lái)φ÷源: 川總寫量化(huà)

作(zuò)者:石川

摘要(yào):本文(wén)帶你(nǐ)了(le)解學術(shù)界關↓α'于 p-hacking 問(wèn)題是(shì)γ↓λ"否嚴重的(de)最新思辨。


p-hacking


沒想到(dào)這(zhè)麽快(kuài)就(jiù)續上(σ±&♥shàng)了(le)《出色不(bù)如(rú)走運》系列[1]。自(zì) 2016 年(nián)以來(lái),以 Cam Ha<₽ rvey 和(hé) Yan Liu 為(wèi)代表的(de)一(y↓‌≥‌ī)批學者開(kāi)始呼籲應在金(jīn)融♠∞∞♣研究中重視(shì) p-hacking λγ®問(wèn)題帶來(lái)的(de)僞發現(xiàn)(見(jiàn) ™εHarvey (2017), Harvey, Liu, and₹<< Zhu (2016), Harvey and L‍©'iu (2020, 2021a) 以及 Chordia, Goyσ≥al, and Saretto (2020) ¥ 等)。這(zhè)些(xiē)文(wén)章(zhāng)的(de)觀∑↑&₹點是(shì),由于 p-hacking 問(wèn)題,很(hěn)多(↓• duō)樣本內(nèi)顯著的(de)異象(或因子(zǐ),本文σ‌≠(wén)統稱為(wèi)異象)都(dōu)是​‍(shì)虛假的(de)。


此外(wài),Hou, Xue, an≥φ≠d Zhang (2020) 複現(xiàn)了(le) 452 個(gè) φ←↓異象,發現(xiàn) 65% 的(de)異象的(de) t-statistics 在 2.0 以下(xià),并不 ♠(bù)顯著;而如(rú)果考慮多(duō)重假設檢驗問(wè¶↔↑₩n)題,該比例甚至上(shàng)升至 ∑λ♥82%。該實證結果支持了(le)大(dà)部分(fē>σ'n)異象是(shì)虛假的(de)這(zhè)一(yī)觀點。


然而,當學術(shù)界逐漸接受并重視(shì)這(zhè)個(gè)>λ問(wèn)題的(de)時(shí)候(例如(rú) Journal of Finance 以及 Review of Financial St∑←Ω✔udies 都(dōu)有(yǒu)各自(zì)的(d ∞e) code-sharing policy),在φ£最近(jìn)一(yī)年(nián)有(yǒ¥★§u)一(yī)些(xiē)最新的(de)文(wén)章(zhāng)≈∑φ↕卻提出了(le)不(bù)同的(de)看(kàn)法,認為(wèi)發表的✘¶§"(de)諸多(duō)異象有(yǒu)足夠的(de)可(kě∞σφ±)信度。這(zhè)其中的(de)代表要(yào)數(shù)來₩✘>©(lái)自(zì) AQR 的(de)這(zhè)篇 J♣★₩ensen, Kelly, and Pede×↑$rsen (2021)。該文(wén)一(yī)頓操作(zuò)猛如(r♦εú)虎之後,提出了(le)和(hé) Hou,β ™® Xue, and Zhang (2020) 完全不(bù®‌∞¥)同的(de)觀點,認為(wèi)有(yǒ γπ✔u)将近(jìn) 85% 的(de)異象可(kě)以被‍β複現(xiàn),從(cóng)而說(shuō)明(míng)學術(shù)發δ→表很(hěn)靠譜。但(dàn)是(shì)仔細閱讀(dú)可(kě ≥€)知(zhī),雖然 Jensen, Kelly, and↔÷β↕ Pedersen (2021) 提出了(le) empirica♥♦σΩl Bayesian 方法來(lái)檢驗異象,但(dàn)其可λ÷γ₽(kě)複現(xiàn)比例的(de)巨大(dà)提升卻來(l¥★★ái)自(zì)于該文(wén)使用(yòng)了(le)♦±÷和(hé) Hou, Xue, and Zhang (202'≠∏0) 不(bù)同的(de)數(shù)據和(hé)方法來(lái)構造異象,≈₽這(zhè)個(gè)操作(zuò)幾乎就(ji"™♣ù)把可(kě)複現(xiàn)的(de)比例翻了(le÷Ω)一(yī)倍(但(dàn)這(zhè)難道(dào)♥¶♥不(bù)是(shì)一(yī)種 p-✘♦∏♠hacking?)。


除了(le) AQR 的(de)這(zh  ₩∑è)篇文(wén)章(zhāng)之外(wài),Chen and Zimm‍↓λermann (2020) 也(yě)提出了(le≠☆)類似的(de)看(kàn)法,認為(wèi)大(dà)部₩≠π分(fēn)異象的(de)樣本內(nèi←♦≠)檢驗結果是(shì)可(kě)信的(de)。該文(w'π↕én)研究了(le)異象在樣本外(wài)預期收益相(xiàng)對(duì)∑  樣本內(nèi)的(de)收縮系數(shù)(shrinkage fa✘∞✔•ctor)。一(yī)般來(lái)說(shγ↔↕uō),如(rú)果這(zhè)個(gè)系'•£數(shù)很(hěn)高(gāo),那(nà)就(jiù)說(™•shuō)明(míng)樣本內(nèi)過拟合的(de)​γ問(wèn)題更嚴重。但(dàn) Chφ∞en and Zimmermann (2020) 的(de)研$βφ 究表明(míng),這(zhè)個(gè)收縮→φ→→系數(shù)僅為(wèi) 12%。這(zhè)意味著(zhe),如(rúΩ$)果一(yī)個(gè)異象樣本內(nèi)年(nián)化(huà)♣♦收益是(shì) 10%,那(nà)麽它樣本外(wài)的(de££)年(nián)化(huà)收益是(shì)  。


另外(wài)值得(de)一(yī)提的(de)是(shì),Chen ∑¶≤and Zimmermann (2020) 認為(wèi)該文(wé∑&"n)的(de)一(yī)大(dà)亮(liàng)點是​ ★≈(shì)和(hé)像 McLean and Pontiff (20≈≈​₩16) 使用(yòng)真正樣本外(wài)研究不♠λ•φ(bù)同,他(tā)們僅僅使用(yòng)了(le)樣本內(nèi)的(d$♠e)數(shù)據進行(xíng)的(de)分(f₽∑®÷ēn)析并得(de)出了(le)上(shàng)述結‍¥&λ論:Our adjustment uses only in-sample dα©™∏ata and provides sharper infere☆λ±€nces than out-of-sample tests. 看(kàn)到(dào)這(zhè)個(gè),∞≈↑γ我不(bù)禁想起了(le)上(shàng)期推文(wén)剛剛介紹的↕≠φ(de) Martin and Nagel (2019) 所提出的(de) high-dimensional→ ☆ investor learning 問(wèn)題造♥™π成的(de)樣本內(nèi)虛假的(de)顯著性,所以就(π↔β'jiù)隻能(néng)呵呵了(le)。


如(rú)果以上(shàng)對(duì ≈​←)部分(fēn)文(wén)獻的(de)梳理(lǐ)α​>∞足以引起了(le)你(nǐ)的(de)興趣,✔γγ那(nà)麽接下(xià)來(lái)我們就(jiù​α)要(yào)上(shàng)“正餐”了(le)。本文(wén)真正要(yφ↓ào)介紹的(de)是(shì) Chen'δφ' (2021) 和(hé) Harvey€÷Ω and Liu (2021b)。Chen (2021) 通(tōng)過 thought experimeφ‌nts 指出 p-hacking alone 根本無法解釋學術(shù)界發現(xiàn)±♥‌的(de)諸多(duō)非常顯著的(de)異象(例如(rú)那("¥nà)些(xiē) t-statistics 超過 6.0 或者 8.0 的(de)),♠₹并通(tōng)過他(tā)的(de)模型得(de)出了(le)一(yī)↕ 系列令人(rén)震驚的(de)推論(先 ♦ π賣個(gè)關子(zǐ),本文(wén)↑Ω第二節再討(tǎo)論),間(jiān)接指出對(d♥ uì)于 p-hacking 的(de)擔憂可(kě)能(nén₩ ®→g)被 Cam Harvey 和(hé) Yan Liu λβ≠≥誇大(dà)了(le)。Harvey and Liu (2021b☆β) 則對(duì) Chen (2021¶>×₹) 的(de)諸多(duō)推論以及 Chen and Zimmermann •​ (2020) 所提出的(de) 12% 的(de)收縮系數( > shù)逐一(yī)進行(xíng)了(le)回應。


在介紹這(zhè)兩篇文(wén)章(zhāng)之前,&♦↑我們不(bù)妨先來(lái)思考一(yε​ī)下(xià),當人(rén)們談及 p≤↔§-hacking 的(de)時(shí)候,到(dào)底關心的(d★σe)是(shì)什(shén)麽。無論是(shì)學術(shù)界還(hái)是λ &♠(shì)業(yè)界,大(dà)家(jiā)共同的(de)認知(zhī)是(£★£∏shì)所有(yǒu)異象預期收益聯合為(wèi)零這(zhè)個↕ (gè)原假設一(yī)定會(huì)被拒絕,即人(rén)們都(dōγ₩π©u)認可(kě)有(yǒu)一(yī)部分(fēn‌±)異象是(shì)顯著的(de)。因此,研究 p-hacking 時(shí),從(cóng)來∞÷(lái)就(jiù)不(bù)擔心僅靠 p-hackin∏©☆g 無法解釋特别顯著的(de)真實的(de)異象。事(shì)實♦"上(shàng),Cam Harvey 和(hé) Yan Liα✔u 的(de)一(yī)系列文(wén)章(zhāng)也(yě)從(cóσ‍♥ng)沒表示出類似的(de)觀點,而是(shì)關注于以下(xià)這(zh •₽↓è)兩個(gè)真正需要(yào)被回答(←♠∏dá)的(de)問(wèn)題:


1. 在 p-hacking 以及 publicatioπ±✘ n bias 的(de)影(yǐng)響下ε←(xià),有(yǒu)多(duō)少(shǎo)比例的(d↔εα₩e)異象是(shì)真實的(de)?人(rén)們認同 p-hacking alone→↓∑® 無法解釋 t-statistics 超過 6.0 或者 8.0 ♠>​<的(de)異象,但(dàn)也(yě)知(zhī)道>  (dào)它會(huì)造成很(hěn)多(duō) t-statistics 為(wèi) 2.0 或者 3.0 的(de)異象。而γ§所有(yǒu)異象中,到(dào)底有(yǒu)₽‍多(duō)少(shǎo)是(shì)真實的(de)?


2. 對(duì)于通(tōng)過檢驗的(de)異象(即被認為(↔ $™wèi)是(shì)真實的(de)),它們樣本外(wài)收益率的(de)收縮✔π 系數(shù)是(shì)多(duō)少(sh §©ǎo)?


這(zhè)兩個(gè)問(wèn)題才是(shì)研究 p-≤↑hacking 時(shí)應該回答(dá)的(de)問(wè≈♥‌n)題。當然,回答(dá)這(zhè)些(xiē)問(wèn≈£π )題并不(bù)容易,而基于不(bù)同的(de)假設可(kě)能(néng)$♥₹>會(huì)得(de)到(dào)千差萬别的(de)結論。以下(xi±↕à)兩節就(jiù)來(lái)分(fēn)别解讀(α‍₽dú) Chen (2021) 和(hé)>αβ Harvey and Liu (2021b),✔'×¶并把判斷留給各位小(xiǎo)夥伴。本文(wén)←©最後一(yī)節會(huì)給出思考。


質疑


Chen (2021) 是(shì) Journal of Finance forthcoming.



該文(wén)的(de)推論是(shì)基于一(yī)個(gè)假設和(héβ÷)一(yī)個(gè)核心公式。它的(de)假設是(shì)所有(yǒu)'♠ ™異象的(de) t-statistics 都(dōu)滿足标準正态分(fēn)布,即所有(y‍×↔ǒu)異象的(de)原假設都(dōu)是( ♠ ≥shì)預期收益為(wèi)零。BTW,這(zh↕←€σè)個(gè)假設按照(zhào)學術(shù)界的(de)術(shù)α™↑語被稱作(zuò) ensemble nul$ Ωl。此外(wài),對(duì)于每個(gè)異象☆φ$£,取決于其 t-statistic 的(de)高(gāo)₽σ★>低(dī),它都(dōu)有(yǒu)一(yī)定的(de)概率被觀測到(dα→≤↕ào)(即被發表出來(lái))。隻不(bù)γ™₩過這(zhè)個(gè)概率分(fēn)布在 Chen (2021)∑  中是(shì)抽象的(de),該文(wén)的(d™× ↔e)結論不(bù)依賴于具體(tǐ)的(de)分(fēn)布。₹ 


在上(shàng)述設定下(xià),Chen (2021) 的(de)≥÷核心公式如(rú)下(xià):



式中  是(shì)嘗試的(de)異象的(de)個(gè)數(π∞↓☆shù)(強調:包括發表的(de)和(hé)沒有(yǒu)發表的(de)),  是(shì)标準正态分(fēn)布随機(jī)變量,  是(shì)給定的(de) t-statistic 阈值。該式的(de)含義是(shì)為(wèi)了(♦‍₹↔le)觀測到(dào)  個(gè) t-statistic 絕對(duì)值不(bù)低(dī×↓✘ )于  的(de)異象,所需要(yào)嘗試的(de)異象的₽£(de)個(gè)數(shù)的(de)下(xià)限。&€✘∏利用(yòng)這(zhè)個(gè)式子(zǐ)和(hé)實際異象的 ♠↑(de)數(shù)據,Chen (2021) 得(de)到(↑↔dào)了(le)一(yī)系列推論。下(xià)表就(ji↑πù)是(shì)該文(wén)最重要(yào)的(d♦®₽™e)結果。



首先,該表的(de)最上(shàng)面β®部分(fēn)給出了(le)标準正态分(fΩ→ēn)布下(xià)  大(dà)于不(bù)同  取值的(de)概率。中間(jiān)部分(fēn)和(hé)最下(xià)面≈©←δ部分(fēn)分(fēn)别使用(yòng)了(le)兩組不(bε® ù)同的(de)異象數(shù)據,統計↕∑(jì)了(le)其中超過各  的(de)異象的(de)個(gè)數(shù),然後就(≤÷jiù)利用(yòng)前述核心公式計(jì)算(suàn)了(le) λ∑  的(de)下(xià)限。以他(tā)們自(zì)己的(de)異象數(shù)據為(wèi)例,在 ✔$210 個(gè)異象中 t-statistics 超過 6.0 的(de∞ §β)共有(yǒu) 26 個(gè),結合  ,能(néng)夠推出  的(de)下(xià)限為(wèi)  。該數(shù)值的(de)中文(wé$Ωδn)含義是(shì),為(wèi)了(le)©₹δα找到(dào) 26 個(gè) t-statistics 超過 6.0 的(de)異象,學術(shù)界至少≈×₽(shǎo)要(yào)嘗試 130 億個(gè)異象。如(r±§£←ú)果傾全美(měi)所有(yǒu)經濟學教授和(hé)經濟學家(j±'"iā)之力,大(dà)家(jiā)不(bù)吃(chī)不(bù)喝(hē)每✔∑天挖異象,那(nà)麽要(yào)挖 451 年(nián)。顯然,這(zh∑∑÷♠è)是(shì)不(bù)可(kě)能(néng)的(de)α¶,因此 Chen (2021) 指出僅靠 p-hacki σ ng 自(zì)身(shēn)是(shì)無法造成這(zhè)麽顯著的(d•←e)結果的(de)。另外(wài),從(cóng)上£✘(shàng)表中還(hái)可(kě)以推斷™¥↔☆出,未發表和(hé)發表的(de)異象個∑φ♠(gè)數(shù)之比高(gāo)達  。最後,該文(wén)還(hái)研究☆♦÷"了(le)不(bù)同 t-statistics 異象的(de)發表概率。在該模型下(xià),t-statistic = 8.0 的(de)異← •象被發表的(de)概率是(shì) t-statistic = 2.5 的(de)異象被發表的(de₩∞♥)概率的(de)  倍。下(xià)表彙總了(le) Chen (2021) 的(de)三點←φ​推論(第三節中将會(huì)和(hé) Harvey and Li✔←​✔u (2021a) 做(zuò)對(duì)比)$ ™​。



毫無疑問(wèn),模型給出的(de)這(zhè)些(xiē)數​≤←δ(shù)據足夠令人(rén)震驚,也(yě)完全不(bù ↓♦‍)符合認知(zhī)。正因如(rú)此,Chen (2021<≥>) 總結到(dào),靠 p-hacking 本身(shēn),學術(shù)界是(shì)不(£'bù)可(kě)能(néng)發表出這(zhè)∏​麽多(duō)特别顯著的(de)異象的(de),異象背後一(yī)定 ≈∏×有(yǒu)風(fēng)險補償或錯(cuò)誤定☆"®£價等合理(lǐ)的(de)原因。


Well, true!


上(shàng)述觀點确實沒有(yǒu)問(wèn)題±'✘,相(xiàng)信你(nǐ)我都(dōu)會(hu÷ ±​ì)同意。但(dàn)再仔細思考一(yī)下(xià),兩個>•(gè)問(wèn)題也(yě)同時(shí)浮出水(shuǐ ♠¥<)面:(1)在 Chen (2021) 利用(yòng) eβ'∞nsemble null 假設得(de)出了(le)一(yī)些(xiē)匪夷≠♥₽↕所思的(de)推論,這(zhè)是(shì)否恰恰意味著(zhe)這(zhèΩφ)個(gè)假設本身(shēn)就(jiù)有(yǒu)待商榷?(§​2)誰也(yě)沒說(shuō)僅靠 p-hacking 本ελ身(shēn)就(jiù)能(néng)産生(s ​hēng)所有(yǒu)顯著的(de)異象,而正如(rú)本文(w£✘₽én)第一(yī)節強調的(de),我們關心的(de)Ω&α&是(shì) p-hacking 造成了(le)多(<♦ duō)大(dà)比例的(de)虛假異象← •,以及對(duì)真實異象,它們樣本外(wài)的(≥©↔πde)預期收益應該打多(duō)少(shǎo)折扣(shrinkageγ≠>¥ factor)?


對(duì)于(1),問(wèn)題的(←≥de)核心在于在标準正态分(fēn)布下(xià)•&σ,特别高(gāo)的(de)  發生(shēng)的(de)概率微(wēi☆≤​∑)乎其微(wēi)。當它作(zuò)為(wèi)分(fēn)母時(sh±♠©€í),計(jì)算(suàn)出的(de)  自(zì)然也(yě)就(jiù)是(shì)天文(wén)數(shùγ∑'™)字。但(dàn)是(shì) ensemble ♣♦null 這(zhè)個(gè)假設合理(lǐ)嗎(ma)?如(✘←÷‌rú)果它被其他(tā)更合理(lǐ)的(¶≤de)假設所取代,那(nà)麽上(shàng)述三個(gè)定量的(de)推‌δ‌論是(shì)否會(huì)發生(shēng)變化(huà)♣σ呢(ne)?對(duì)于(2),Chen (2021) 的(de)α↓ε thought experiments 僅僅是(shì)傳遞出僅靠 ♥©✘p-hacking 無法産生(shēng)大(dà)量 t-statistics 非常高(gāo)的(d‌≤₹♣e)異象(but we all knew it!),而沒有(yǒu)正面回答(dá)那(nà)兩☆π≤×個(gè)真正需要(yào)回答(dá)的(de)問(wè‍∏♣$n)題。(所以,這(zhè)篇文(wén)章(zhāng) Journal of Finance forthcoming 還(hái)挺讓 φ我意外(wài)的(de)。)


回應


再來(lái)看(kàn)看(kàn) Harvey and Liu (202♣ 1b) 對(duì) Chen (2021) 的÷λ™(de)回應。Harvey and Liu (2× ≥021b) 和(hé) Chen (2021) 的(de)兩點區(™$​∞qū)别是(shì):(1)該文(wén)沒有(yǒu)使用(yò♠ ¥ng) ensemble null 假設,而是(shì)借鑒基金(jīn‍ )研究使用(yòng)了(le)一(yī)個∏←(gè)更合理(lǐ)的(de)假設,在這(zhè↓φ€ )個(gè)假設下(xià)該文(wén)得(de)到(dào)了(le)和(≠×γhé) Chen (2021) 完全不(bù)同的(de)推論;(™>‌₽2)該文(wén)回答(dá)了(le)第一÷ ₩(yī)節提到(dào)的(de)關于 p-hackingβΩ 的(de)兩個(gè)核心問(wèn)題。


在基金(jīn)研究中,比起 ensemble n∑♥ull,另一(yī)種常見(jiàn)假設φ♥是(shì) bi-modal mean 分(fēn)π"布(Barras, Scaillet, a" nd Wermers (2010), Harvey and L↕¶♦iu (2018)),即假設所有(yǒu)基金(jīn)的(de)超額收←™益來(lái)自(zì)兩個(gè)分(fēn)布:其×€™÷中絕大(dà)部分(fēn)來(lái)自(zì)均值為(wèi)零的(d€☆≠↑e)分(fēn)布,而一(yī)小(xiǎo)撮來(lái)自(¶₽zì)均值大(dà)于零的(de)分(fēn)布。$× 放(fàng)到(dào)異象上(shàng)₹™,這(zhè)對(duì)應的(de)就(ji↕® ù)是(shì)假設絕大(dà)部分(fēn)異象是(shì)虛假的(≈☆÷©de),因此它們預期收益來(lái)自(zì)☆€ ≥均值為(wèi)零的(de)分(fēn)布,而一(yī)小(xiǎo∏∑)撮異象是(shì)真實的(de),它們的(de)預期收益來(lái)自(zì≥δ)均值非零的(de)分(fēn)布。


The bi-modal mean (alpha) di§☆ ↕stribution generates ♥<a mixture distribution ™¶∞for t-statistics, wher↑" ∞e low t-statistics are likel​↔÷✘y drawn from the zero-mean distribu ¶§tion and very large t-stati€ ¥stics are almost surely drawn from the ₽®non-zero mean distribution.


雖然研究異象能(néng)夠借鑒基金(jīn)研究的(de)分(fēn)布,但&☆(dàn)這(zhè)二者之間(jiān)還(hái)有(yǒ>±u)另一(yī)個(gè)巨大(dà)的(de)差÷≤•異。對(duì)基金(jīn)的(de)超額收益進行(xíng)檢驗和(hé)✘​βλ推斷時(shí),不(bù)存在觀測不(bù)到(εΩ>dào)的(de)基金(jīn)造成的(de)影(σ€πyǐng)響;但(dàn)對(duì)異象的(de)超額收益檢驗和↓™<(hé)推斷時(shí),除去(qù)被發表的(de)異象 δ✔,還(hái)需要(yào)考慮因為(wèi)不(bù)夠顯著而被學者™☆≠↔們放(fàng)棄的(de)異象以及雖然顯著但(dàn)因為(wèi) ¥×publication bias 而未能(néng)發表∞→φ✔的(de)異象。這(zhè)二者和(hé)被發♥↓♠表的(de)異象一(yī)起,構成了(le)總共被嘗↑∏$σ試的(de)異象。


Harvey and Liu (2021b)©↓≤ 在模型中使用(yòng)參數(shù)  來(lái)表示總共被嘗試的(de)異≤Ω£象的(de)個(gè)數(shù)。由于他(tā)們使¥≠✘用(yòng)了(le) bi-modal mean π<‍¶分(fēn)布,因此假設  比例的(de)異象的(de)預期收益大(dà)©☆于零。有(yǒu)小(xiǎo)夥伴會(huì)問(wè≈€n),對(duì)于這(zhè)部分(fēn)×§φ£異象,如(rú)何确定其分(fēn)布的(de)參數(shù)?對(duα←ì)此,Harvey and Liu (2021b)$'← 使用(yòng)了(le) bootstrapφσ‍ 方法[2]。另一(yī)方面,為(wèi)了(le)直接對(duì)發表©♦•✔過程建模,他(tā)們假設異象發表的(de)概率為(w☆∏÷èi):



其中  和(hé)  為(wèi)大(dà)于零的(de)常數(shù)。這(z ↑≤∞hè)個(gè)函數(shù)滿足随異象的(de) t-statistic 單調遞增,且當 t-statistic 趨于無窮大(dà)時(shí),該概率趨于 0.™↔5。這(zhè)可(kě)以被認為(wèi)是(shì)個(gè)合理(l←  ǐ)的(de)假設,因為(wèi)哪怕是(shì)再高(gāo)的("¥¶↔de) t-statistic 也(yě)無法保證異象能(néng)夠被發表(比如&✔¥λ(rú)異象沒有(yǒu)任何 economic sense)。以上(sh‍₩àng)  就(jiù)構成了(le) Harvey and✘₽£§ Liu (2021b) 模型中的(de)全部γ↕參數(shù)。和(hé) Chen (2021) 相(xià♦ λng)比,該模型有(yǒu)以下(xià)幾點不(bù)同(優勢):


1. 通(tōng)過  考慮了(le)所有(yǒu)被嘗試過的(de)異象,而非僅僅關♣>注于被發表的(de)異象(Chen (202$±'×1) 的(de) thought experim∑∏ents 是(shì)基于被發表的(de)異象);

2. 通(tōng)過  (和(hé) bootstrap),使用(yòng) b α ♣i-modal mean 取代 ensemble nullγ  & 假設,更符合人(rén)們對(duì)異象數(shù)據的(d♣£↔e)認知(zhī);

3. 利用(yòng)  和(hé)  定量描繪了(le)異象發表過程。


有(yǒu)了(le)模型,接下(xià)來(lái)就(jiù)是(shì)☆"通(tōng)過模型來(lái)模拟(simulation)異象被發≈™♥↓表的(de)過程,并根據真實被發表的(de)異象的(de)數(s‌&hù)據來(lái)對(duì)模型的(de)參數₩'≠‌(shù)  進行(xíng)校(xiào)準(calibration)。先來(lái)說(shuō)模拟。由于  代表所有(yǒu)被嘗試的(de)異象(包括發表的(d★​✘e)和(hé)沒有(yǒu)發表的(de)),因此需要(yào)一(yī)個∏§↕✘(gè)巨大(dà)的(de)異象池并從(cóng)中抽取  個(gè)。為(wèi)此,Harvey § ≥ and Liu (2021b) 同時(shí)使用(yòng)了∑₩(le) Chen and Zimmermann (2♣©020) 中提及的(de) 156 個(gè)被發表的(de)異象和(hé)‍ε Yan and Zheng (2017) 通(tōng)過純 data-mi​&ning 生(shēng)成的(de) 18,000+ 個(φ↕→gè)異象作(zuò)為(wèi)候選的(de)"÷異象池。


模拟的(de)第一(yī)步是(shì)從(cóng)上™♠(shàng)述合并異象池中生(shēng)成  個(gè)異象。值得(de)說(shuō)明(míng)的(de)是(shì),由于被發表的δ₽(de)異象一(yī)定是(shì)被試過的(de),因此在©↓每次模拟中,那(nà) 156 個(gè)被發表的(♣↓$₹de)異象都(dōu)會(huì)出現(xiàn)在  個(gè)異象中;剩餘  個(gè)異象則從(cóng) Yan and Zheng (‍≤2017) 的(de)池子(zǐ)中随機(jī)抽取。↑₩ ≈令  表示  階矩陣,儲存 156 個(gè)異象的(de)  期收益率序列;  表示  階矩陣,儲存剩餘異象的(de)收益率序列;最後  表示第  次模拟中生(shēng)成的(de)  個(gè)異象的(de)收益率序列矩陣。


模拟的(de)第二步是(shì)利用(yòng) bi-modal meaφ÷≠n 模型計(jì)算(suàn)異象 t-statistics。首先,使用(yòng)  計(jì)算(suàn)全部異象的(de) t-statistics 絕對(duì)值,保留絕對(duì)值最高(g✔εāo)的(de)  個(gè)異象,并把剩餘  個(gè)異象的(de)收益率在時(shí)序上(shàng)去≠©₽¥(qù)均值。如(rú)此操作(zuò)後得(d'¥e)到(dào)的(de)  階收益率序列矩陣記為(wèi)  。然而,這(zhè)波操作(zuò)僅僅保證了(le)原假設成立(  的(de)異象為(wèi)真,  的(de)異象為(wèi)假)。由于樣本分(fēn)布和(hé∞σ§ε)總體(tǐ)分(fēn)布會(huì)有(yǒu)差異,因此 H♥ ×σarvey and Liu (2021b) γΩ✔"對(duì)每一(yī)個(gè)  又(yòu)進行(xíng)了(le)一(yī)層 bootstrap,以此來(lái)模拟實際的(de♠β)收益率序列。對(duì)  的(de)第  次 bootstrap 得(de)到(dào)的(de)收益率₩ £序列記為(wèi)  。


模拟的(de)第三步是(shì)确定哪些(xiē)✔∞>→異象被發表。對(duì)于每個(gè)  ,計(jì)算(suàn)其中每個(gè)異象的(de) t-statistic 并使用(yòng)  的(de)公式計(jì)算(suàn)其被發表的(de)概率  。對(duì)每個(gè)異象,随機(jī)生(shēng)成₽$一(yī)個(gè)在 0 和(hé) 1 之間δ¶Ω(jiān)均勻分(fēn)布的(de)變量,若它的(de)取值小♣σ¥(xiǎo)于  則認為(wèi)異象被發表,反之則沒有(y₩εǒu)被發表。令  代表矩陣  中最終被發表的(de)異象的(de)個(gè)數(shù);令  儲存所有(yǒu)被發表異象的(de)收益率序列。


OK!希望上(shàng)面的(de)介$σ×∑紹足夠清楚了(le)……如(rú)果還(hái)沒有(yǒu),≤↔'下(xià)面通(tōng)過一(yī)個(gè)圖例來(lái)加深理( ®•βlǐ)解。圖中紅(hóng)色框出來(lái)的(de)部分(f§↑±★ēn)代表了(le)模拟中的(de)第一(yī)步;藍(lán)色框←←©÷出來(lái)的(de)部分(fēn)代表模拟的(de)第三步;次對(duì)©ε£角線上(shàng)的(de)兩張圖代表了(le)模拟的☆↓$(de)第二步。



為(wèi)了(le)便于理(lǐ)解,圖例中假φ‍設  ,且被發表的(de)異象是(shì) 3 個(gè)(綠♠™(lǜ)色部分(fēn)是(shì)它們的(de π)收益率時(shí)序);此外(wài),從(cóng) Yan ∏♣and Zheng (2017) 中随機(jī)抽取了(le)φ♥ 5 個(gè)(深藍(lán)色表示它們的(de)收益率時(≥ ♦©shí)序),這(zhè)就(jiù)構成了(le)第一(yī↕ "‌)步的(de)  。圖例第二步中假設  ,因此有(yǒu) 2 個(gè)異象是(shì)真的↑♦ (de)。計(jì)算(suàn)這(zhè) 8 個(gè♥ ☆)異象的(de) t-statistics 并選擇絕對(duì)σ≠值最高(gāo)的(de)兩個(gè)(維持了(le÷→↓)綠(lǜ)色和(hé)藍(lán)色,即假設一>δ(yī)個(gè)來(lái)自(zì)發表的(de)™×♥異象,另一(yī)個(gè)來(lái)自(zì) Yan and Zheng↓γλ♦ (2017)),把其餘異象收益率在時(shí)序上✘€$(shàng)去(qù)均值(青色),得(de)到(dào)  。緊接著(zhe)對(duì)它進行(xíng)下(xià)一(yī"↕♦)層 bootstrap,得(de)到(dào) boo ★≤σtstrapped 樣本  。觀察上(shàng)圖中左下(xià)方的(d‌∏e)那(nà)副圖可(kě)知(zhī),它的(♥≤≤​de)時(shí)間(jiān)戳已經是(shì)被打亂的(de)了(le)↑£(代表 bootstrapped 樣本)。最後,在模¶γ↓§拟的(de)第三步,根據發表概率确定哪些(xiē)異×α象被發表。圖例中假設兩個(gè)真實的(de)異象被發表,其餘的(de)異象未₹®被發表。


說(shuō)完了(le)模拟,接下(xià)來÷™(lái)就(jiù)要(yào)說(shu∑αγō)參數(shù)校(xiào)準。對(duì)于任何¥λ一(yī)組給定的(de)參數(shù)  ,通(tōng)過上(shàng)述雙層的(de) boφ"↑'otstrap,都(dōu)可(kě)以模拟出•✔一(yī)些(xiē)被發表的(de)異象。然而,哪組參數(shù)才是(shì)正确的(dδ∏e)呢(ne)?這(zhè)就(jiù)要(yào)看(kàn)≠Ω在哪組參數(shù)下(xià),模拟産生(shēng ÷)的(de)被發表的(de)異象的(de)某☆ε™些(xiē)統計(jì)指标更加符合實際被發表的(de)→π≤異象的(de)統計(jì)指标。為(wèi)此,Harvey and Liu (2021b) 選擇了(le)實§&際被發表異象的(de) t-statistics 的(de)五個(gè)分(fēn)位數(shù)(5t✘←h,10th,50th,90th,95th)以及顯著的(d σ®®e)異象的(de)個(gè)數(shù)作(z≠₽λuò)為(wèi)校(xiào)準的(de)統計(jγ∞ì)指标。


需要(yào)說(shuō)明(míng)的(de←λ)是(shì),在 156 個(gè)異象中,僅↕​π∑有(yǒu) 132 個(gè)異象的(de) t-statistics 高(gāo)于 2.0。因此,前述 t-statistics 的(de)五個(gè)分(fē‌Ωn)位數(shù)是(shì)使用(yòng)者 132 個(gèβ♣&)異象計(jì)算(suàn)的(de),且顯著異象'$的(de)個(gè)數(shù)也(yě)是↓σ(shì) 132 而非 156。最終校(xiào)準的<δ♠(de)目标是(shì)選擇合适的(de)參數(shù),使得(£∑de)模拟生(shēng)成的(de)指标和(h&∞→&é)真實的(de)指标之間(jiān)的(de)誤差平方的(de)加權平<γ&¥均最小(xiǎo):



其中  表示利用(yòng)  中發表的(de)異象收益率序列計(jì)算(suà​←n)的(de) t-statistics 分(fēn)位數(shù),  表示利用(yòng) 132 個(gè)γ'異象計(jì)算(suàn)的(de) t-statistics 分(fēn)位數(± ≈shù);  (前面介紹過)是(shì)  中儲存的(de)發表的(de)異象的(de)個(gè)數(shù),÷α•‍而 132 是(shì)真實的(de)被發表的(de)異象的(d÷↓e)個(gè)數(shù)。


由前述對(duì)模拟的(de)說(shuō)明(m>₩☆íng),該模拟過程其實是(shì)雙層的(de) b &↔ootstrap:(1)第一(yī)層是(shì)生(shēng)成不(bπ∞‌©ù)同的(de)  個(gè)異象的(de)樣本;(2)第二層是(shì)對(dπΩuì)于每組  (即  ),通(tōng)過 bootstrap 生∑∑₽(shēng)成收益率序列并決定哪些(xiē)被發表,即得(de)到(dà≈←≈​o)  。因此,對(duì)于任何一(yī)組給定的(d↔≥'αe)參數(shù)  ,最終都(dōu)有(yǒu)  個(gè)模拟,而目标函數(shù)是(shì)它們的(de)均'↓§✔值。此外(wài),由于進行(xíng)了(l≤¶e)多(duō)次模拟,因此能(néng)夠方便的(de)計(jì)算(€λφsuàn)每個(gè)指标(上(shànλ'$g)述 5 個(gè)分(fēn)位數(sh​£ù)以及發表的(de)異象的(de)個(gè)數(shù))>₽♠>的(de)标準差。在目标函數(shù)中,  和(hé)  分(fēn)别等于标準差的(de)倒數(shù),以此來(l&‍€★ái)決定不(bù)同指标在目标函數(shù)中的(deαΩ♥)權重。


有(yǒu)了(le)目标函數(shù),Harvey and L₽÷φiu (2021b) 給每個(gè)參數(shù)選了(le)範圍‌→,然後進行(xíng)了(le)大(dà)規模的(de) search。不(b≈↓α®ù)過也(yě)許接下(xià)來(lái)的(deε®≠☆)結果讓你(nǐ)意想不(bù)到(dào),那(nà)就(jiù)₩ε是(shì)這(zhè)個(gè)問(wèn)題本身(shēn)是(shì)未£∞←識别的(de)(not identified)換句話(huà)說(shuō),它的(de)最優參數(shù)不(bù)✘₩∏∑唯一(yī)。該文(wén)正文(wén)部分(fēn)彙報(bào)的(de)三組參數≠∑♥≤(shù)  如(rú)下(xià)圖所示。在這(zhè)三組參數(shù)'α♠δ下(xià),模拟得(de)到(dào)的(de)五個(g☆∏&è) t-statistics 分(fēn)位數(shù)和(hé)發表異象個(gè)☆'₩β數(shù)都(dōu)和(hé)實際值較好(hǎo♦ ♣ )地(dì)吻合。



可(kě)以看(kàn)到(dào),在這(zhè)三組參數(shù)中♦ ≈,  分(fēn)别等于 1000,2000 和(hé"↑‍φ) 5000。而這(zhè)個(gè)問(wèn)題之所以是(shì)未‌λ$₹識别的(de),原因恰恰是(shì)我們觀察到(dào)的(de)隻有(y‌™ǒu)被發表的(de)異象,而真正的(d•  e)  (學術(shù)界到(dào)底嘗試了(le)多(duō)少(™×γshǎo)個(gè)異象)永遠(yuǎn)是(shì)未知(zhī)的(de≤↔©∏)。這(zhè)是(shì)在研究 p-hacking ☆©↓問(wèn)題時(shí)注定無法逃避的(de) →≥ 現(xiàn)實。而至于  可(kě)能(néng)的(de)取值範圍,坦白(bái)說★≥≠(shuō)也(yě)确實取決于研究者的(de)經驗和(hé)對(duì)實證$•>™數(shù)據的(de)理(lǐ)解。


在 Harvey and Liu (202₹☆1b) 的(de)這(zhè)三組參數(shù)中,有(yǒuλ™ λ)一(yī)些(xiē)間(jiān)接的(de)證據更加₹>£ 支持第三組參數(shù)(即  )。例如(rú)在前兩組參數(shù)​₽↕中,  (真實異象的(de)比例)分(fēn)别為₹₩≥φ(wèi) 29% 和(hé) 12%。如(rú)果說(shuō) 1₩ ÷2% 還(hái)姑且 OK,那(nà)φπ↔麽 29% 則顯得(de)太高(gāo)了(le)。而在第三組參數(sh'↔ε✘ù)中,  僅為(wèi) 6%。另一(yī)方面,下(↑↑Ωxià)圖繪制(zhì)了(le)三組參數(sΩ<₹hù)下(xià),不(bù)同 t-statistics 被發表的(de)概₽ 率。在前兩組參數(shù)下(xià),t-statistic = 2.0 的(de)異象被發表α★的(de)概率高(gāo)達 30% 以¥↓¥π上(shàng),這(zhè)似乎無法和(hé)“內(nèi&λ )卷”時(shí)代發表金(jīn)融學論文(wén)的(de)難度相(x♠✘iàng)匹配。在第三組參數(shù)下(xi​♥₹±à),這(zhè)個(gè)概率降低(dī)了(le)一(yī)∑β≈₹半,僅有(yǒu)不(bù)到(dào) 15%。



無論如(rú)何,不(bù)妨将選擇哪組參數(shù)留給各位讀(dú₹σ)者。在本節的(de)最後,我僅以第三組參數(s×εhù)(  )為(wèi)例,介紹一(yī)些(xiē)模→€↕₹型的(de)推論。在這(zhè)組參數(shù)下(xià):


1. 5% false discovery♠≠ rate(FDR)下(xià)的(de) t-statistics 阈值為(wèi) 3.0(這(zhè)個(gè)數(shù)值和(h€≠é) Harvey, Liu, and Zhu (20λ☆Ω±16) 一(yī)緻);

2. 在所有(yǒu)被發表的(de)異象中,真實異象的(de₩₽↑♦)比例為(wèi) 62%(他(tā)們正面回答(dá)了(le)第一α×¥>(yī)節討(tǎo)論的(de) p-hacking 研究關心的(d®≈e)第一(yī)點);

3. 在所有(yǒu)被發表的(de)異象中,樣本外(wài§↔α​)平均收益的(de)收縮系數(shù)為(wèi) 36%;如(rúε©σ≈)果僅考慮 t-statistics 在 2.0 到(dào®←) 5.0 之間(jiān)的(de)異象,該系數(s∑♣♦hù)上(shàng)升到(dào) 53%(他(tā)們正面回答(dá)了(le)第一(↕γ‌βyī)節討(tǎo)論的(de) p-ha‍₩$≤cking 研究關心的(de)第二點)。作(zuò)為(wèi)對(duì'§↕β)比,無論是(shì) 36% 還(hái)是(‌₽₽shì) 53% 都(dōu)遠(yuǎn)超過 Chenβ↓ and Zimmermann (2020) 所主張的(de) 1Ω♣∏☆2%。


最後的(de)最後,再來(lái)回顧一(yī)下(xià∑♥→>) Chen (2021) 的(de)三個(gè)推論,即為(wèi)了(le ✘↓↔)獲得(de)特别顯著異象所需要(yào)的(de)嘗試≥ 的(de)次數(shù),未發表和(hé)發表異象之比,t-statistic = 8.0 和(hé) t-statistic = 2.5 異象發表的(de)概率之比。在 Harve₩ ∏∑y and Liu (2021b) 的(d™₽×e)模型中,這(zhè)三個(gè)推論的(de)結果如(rú)何呢♣± (ne)?下(xià)表總結了(le)在三組不(bù)同的(d©•₽€e)參數(shù)下(xià)三個(gè)推論的Ω≠‍(de)結果,留給小(xiǎo)夥伴們去(qù)評判。



4 思考


文(wén)章(zhāng)最後,我想不(bù)妨借助 H©φ¥♦arvey and Liu (2021b) 關于未發表異象的(de₹₩")推論為(wèi)引子(zǐ),對(duì) p-hacking 問(wèn)φλ×題進行(xíng)一(yī)些(xiē)思考。由于對(duì)發表過程進行(≠λxíng)了(le)建模,Harvey and Li δ∑u (2021b) 能(néng)夠對(duì∏✘¥)未發表的(de)異象進行(xíng)推論↑‌,這(zhè)方面的(de)結果也(yě)頗有(yǒu)價值。具體¥✘ (tǐ)來(lái)說(shuō),他(tā)們考慮了(le) false pβ $<ublication rate 和(hé) fa≠₽"☆lse non-publication rate。前者的↓ππ↓(de)定義是(shì)所有(yǒu)虛假異象中,被•₹錯(cuò)誤地(dì)發表的(de)異象的>$ε(de)比例;後者定義是(shì)所有(yǒu)真實 ‍異象中,沒有(yǒu)被發表的(de)異象的σ≤(de)比例。在第三組參數(shù)下(÷♠βxià),前者為(wèi) 1.12%,後者為(wèi™•) 72.93%。我想討(tǎo)論一(yī)下(xià)前者。


乍一(yī)看(kàn) 1.12% 似乎很(hěn)低≈♥≠Ω(dī),但(dàn)通(tōng)過計(jì)算(suàn)并非如(rú←')此。由于  ,  ,因此所有(yǒu)的(de)虛假異象共有♦​(yǒu)  個(gè)。而這(zhè)其中 1.12% 即  個(gè)被發表了(le)。正是(shì)因為(♣✘wèi)這(zhè)些(xiē)被發表的(de)虛假異象,造成←•了(le)我們今日(rì)看(kàn)到(dào)的←☆✔​(de) p-hacking 問(wèn)題;而識别這(zhè)些(xiē)→↑‍¥被發表的(de)虛假異象 —— 而非去(qù)主張 p-hacking₽©± 本身(shēn)無法解釋 t-statistics 很(hěn)高(±≠‌♠gāo)的(de)異象(它當然不(bù)能(néng)!)γφ< —— 才是(shì)人(rén)們通(tōng)過研究 p-hackin© £g 應該要(yào)解決的(de)問(wèn)題。


談到(dào) p-hacking,其他(tā)學科(kē)₽↕對(duì)它的(de)重視(shì)其實由來(↔£lái)已久(Ioannidis (2005)),而金(jī♥≥λn)融學對(duì)它的(de)重視(shì)算(suàn)是(shì)比較晚✔×σ€的(de)了(le)。但(dàn)好(hǎo)>λ§×消息是(shì),經過過去(qù) 5 年(★✘©nián)的(de)發展,人(rén)們已經意識到(dào)♥≠這(zhè)個(gè)問(wèn)題并通(tōng)過各種手段(考慮多(↔δduō)重假設檢驗懲罰,提高(gāo)發表論文(wén)的(δ®δde)标準,使用(yòng)同樣的(de)數(shù)據集在頂♠♠✘刊上(shàng)發文(wén)相(xiàng)互建'​✘ 設性的(de)“硬怼”等)來(lái)降低(dī) p-hack¥‍ ing 的(de)影(yǐng)響。


關于 p-hacking 問(wèn)題有(yǒu)多(duō)嚴重,學術(≠×φ☆shù)界以開(kāi)放(fàng)的(de)心态來(lái™×)討(tǎo)論它至關重要(yào)。從(cón‍β₽∏g)這(zhè)個(gè)意義上(shàng)說(s↓≈huō),本文(wén)介紹的(de) Che←★<n (2021) 和(hé) Harvey andλΩ Liu (2021b) 沒有(yǒu)誰對(duì)₩≤÷α誰錯(cuò),都(dōu)是(shì)有(yǒu)益的(de)討(tǎo)論‌γ∑,讓我們可(kě)以從(cóng)不(bù)同的(deδΩλ)視(shì)角立體(tǐ)地(dì)審視(shì)這•ε>¶(zhè)個(gè)問(wèn)題。而 Harvey and Liu (2021b) 所表明(mín✘£¶∏g)的(de)一(yī)點就(jiù)是(shì),因為ελ×(wèi) lack of identification,對(duì)π•π p-hacking 的(de)研究确實♠&≠存在主觀的(de)一(yī)面。這(zhè∑ε)也(yě)是(shì)最近(jìn)一(yī)些(xiē)文(wé↓‍n)章(zhāng)得(de)到(dào)相(xiàng)反結論的(de)原因σ 。與其深究各種(存在問(wèn)題的(de))Bayesian 方法,不λ∏€φ(bù)如(rú)承認這(zhè)個(gè¶λ←¶)計(jì)量上(shàng)的(de)♦ •系統問(wèn)題,并通(tōng)過合理(©§↓lǐ)的(de)主觀判斷得(de)到(dào)令人(rén)$∏₽信服的(de)結論。無論學者們在這(zhè)個(gè)問(wèn)題上(shàng)持怎樣λε不(bù)同的(de)立場(chǎng),關于 p-hackinα<₹g 的(de)思辨還(hái)遠(yuǎn)沒有∏✔¶$(yǒu)走到(dào)終點。而如(rú)果你(n₩ε₹ǐ)要(yào)問(wèn)我,基于最新的(©φ↓de)研究,是(shì)否可(kě)以轉變觀點并認為(wèi)被發表¶ 的(de)異象大(dà)多(duō)能(nénγ±g)站(zhàn)得(de)住腳?


我的(de)回答(dá)是(shì):No♦σ≥÷t so fast!


備注:

[1] 見(jiàn)《在追求 p-value 的(de)道(dào)路(lù)上(shàng)狂奔ε ♦,卻在科(kē)學的(de)道(dào)路(lù)上'☆(shàng)漸行(xíng)漸遠(yuǎn)》《出色不(bù)如(rú)走運?》《出色不(bù)如(rú)走運 (II)?》《出色不(bù)如(rú)走運 (III)?≠∞π 》《出色不(bù)如(rú)走運 (IV)?》和(hé)《出色不(bù)如(rú)走運 (V)?》‌α✔

[2] 他(tā)們使用(yòng)了(le) Harvey and↓§ Liu (2020) 所提出的(de)兩步 boot≤'φ♦strap 法中的(de)第一(yī)步 b☆₩ ootstrap。關于這(zhè)篇文(wén)章(zhāng)的(>α↑♥de)介紹,見(jiàn)《出色不(bù)如(rú)走運 (V)?》



參考文(wén)獻

Barras, L., O. Scaillet, and R♠★✘. Wermers (2010). False discoveries in>≈‍ mutual fund performanc"∏ ₹e: Measuring luck in estimatσ©→<ed alphas. Journal of Finance 65(1), 179 – 216.

Chen, A. Y. (2021). The l €↓♦imits of p-hacking: ✔​Some thought experiments. Journal of Finance forthcoming.

Chen, A. Y. and T. Z‌₽™>immermann (2020). Pub×≠​lication bias and the cross-sec¥≤₹tion of stock returns. Review of Asset Pricing Studies 10(2), 249 – 289.

Chordia, T., A. Goyal,₹σ•→ and A. Saretto (2020). ☆α♣Anomalies and false rejections. Review of Financial Studiε£$←es 33(5), 2134 – 2179.

Harvey, C. R. (2017). ≤♥ε‌Presidential address: The scientδ₩₩ific outlook in financial economiσ£¥cs. Journal of Finance 72(4), 1399 – 1440.

Harvey, C. R. and Y. Liu (20γ≤±$18). Detecting repeatable perfo¶'Ωrmance. Review of Financial Studies 31(7), 2499 – 2552.

Harvey, C. R. and Y. Liu (2020). FalsΩ₩€∞e (and missed) discove$∑ries in financial econo♠₽&mics. Journal of Finance 75(5), 2503 – 2553.

Harvey, C. R. and Y. Liu (2021a). Lu'♦≥cky factors. Journal of Financial Economics 141(2), 413 – 435.

Harvey, C. R. and Y. Liu (2021b).§γ‌ Uncovering the iceberg from its tip≠↑φ: A model of publicatio€≥n bias and p-hacking. Workin‍↓↓¶g paper.

Harvey, C. R., Y. Liu, an™λ÷d H. Zhu (2016). … and the cros✔$♣→s-section of expected returns≈ε₽₽. Review of Financial St≥ ≤☆udies 29(1), 5 – 68.

Hou, K., C. Xue, and L. Zhang (2 π020). Replicating ano ₽><malies. Review of Financial Studies 33(5), 2019 – 2133.

Ioannidis, J. P. A. (2005). Why✘∑ most published research findings ar>↔≥e false. PLoS Medicine 2(8), 696 – 701.

Jensen, T. I., B. Kelly, and L. ♦ H. Pedersen (2021). Is there a replica↔§φ'tion crisis in finance?∑∞' Working paper.

McLean, R. D. and J. Pontif≥σ•f (2016). Does academic research destr→£>♠oy stock return predictability? Journal of Finance 71(1), 5 – 32.

Martin, I. and S. Nagel (2019)↔∏£. Market efficiency &✘→∑in the age of big data. Working papγ&er.

Yan, X. and L. Zheng♠§₩γ (2017). Fundamental analysis and ↕ the cross-section of stock ★&π•returns: A data-mining app↑>★♣roach. Review of Financial Studies 30(4), 1382 – 1423.



免責聲明(míng):入市(shì)有(yǒu)風(fēng)險,投資•↑✘需謹慎。在任何情況下(xià),本文(wén)的(de★★<¥)內(nèi)容、信息及數(shù)據或所表述的(de)意見(jiàn)并不(σ←✘•bù)構成對(duì)任何人(rén)的(de)投資建議(yì)。®✔σ₩在任何情況下(xià),本文(wén)作(zuò)者及所®♣¥屬機(jī)構不(bù)對(duì)任何人​∑(rén)因使用(yòng)本文(wén)的(de)任何內(nèi)容所引緻≈×的(de)任何損失負任何責任。除特别說(shuō)明(mín≠≠®g)外(wài),文(wén)中圖表均直接或¶♦αΩ間(jiān)接來(lái)自(zì)于相(xi'∞àng)應論文(wén),僅為(wèi)介紹之用(yòng),版權歸原作(zu¥λ₩ò)者和(hé)期刊所有(yǒu)。