選股模型的組成:因子、參數、策略
一個選股模型包含幾個要素:
- 因子組成:包括單因子模型(股價淨值比、股東權益報酬率⋯)、多因子模型(不同的因子權重組合)。
- 操作參數:包括交易延遲、個股權重、入選比例⋯等。
- 操作策略:包括作多策略、作空策略、市場中立策略⋯等。
選股模型的回測:偏誤
回測是模擬選股模型在歷史資料庫下的績效,如果績效良好,自然可以代表選股模型在「過去」表現良好。但投資人真正關心的是,選股模型在「未來」表現是否良好。然而,任何統計的方法都不能100%保證模型的未來性。但如果回測過程能夠避免一些可能的偏差,則在「過去」表現良好的選股模型,在「未來」表現也會良好的機會可以增加。
在以回測評估選股模型的獲利能力時,可能會遇到以下幾種偏差:
- 資料操弄偏差(data-snooping bias)
在建構模型時,對一組資料用大量的、複雜的假設模型來建模,常能找到對「樣本內」的資料具有高度預測能力的模型,但這種模型不見得對「樣本外」的資料具有高度預測能力。有個統計學笑話說:「對資料嚴加拷打,它總會招認你想要的答案。」例如圖1黑點是樣本內的點,白點是樣本外的點,用一個複雜的多項式函數Y=f(X),可以讓實線曲線通過所有黑點,但此曲線與白點的誤差大,實線曲線是「資料操弄」下的結果。虛線曲線雖然無法通過所有黑點,但無論黑點、白點的誤差都不大,這才是自變數X與因變數Y的正確的迴歸曲線。
- 短期偏差(short-term bias)
在建構模型時,對一組具有時間性的資料建模,如果資料跨越的時間長度不足,常會產生對「過去」的資料具有高度預測能力的模型,但這種模型不見得對「未來」的資料具有高度預測能力。俗話說:「路遙知馬力,日久見人心」,有其道理。例如圖2虛線範圍的回測時間只有兩年,只包含了2009~2010年的反彈期,未包含空頭時期,導致許多只適用在多頭時期的選股模型的選股能力被高估。
- 先視偏差(forecasting bias, or look-ahead bias)
在建構模型時,對一組具有時間性的資料建模,如果在預測時使用了一些當時尚未得知的未來訊息,常會產生具有異常高度預測能力的模型,但這種模型不具可用性。先視偏差是所有作回測分析者的大敵,當發現選股模型的績效好得離譜時,第一個要懷疑的就是先視偏差在作怪。例如圖3顯示,第一季的財報並非在第一季結束的隔日4/1公布,而是要等待一段時間才公布。以台灣股市為例,規定在5/15前公布。因此,以第一季的財報做為4/1的選股依據常會有異常高的報酬,但這是錯誤的回測方式。正確的作法是使用第一季的財報時,因財報公布期限是5/15,因此只能該日以後選股。因此在回測各國股市時,需要考慮各國財報公布的日期,以避免先視偏差。
- 存活偏差(survivorship bias)
許多具有財務危機的公司如果能安然渡過危機,反而可能因為之前的股價被低估而有較高的投資報酬率。但如果不能安然渡過危機,則可能下市,從市場消失。因此如果回測選股模型時,回測樣本中未包含已下市個股,可能會高估價值因子導向的選股模型的報酬率。統計學上有個關於存活偏差的著名故事。話說二次大戰時,從戰場上飛回來的飛機經常在機翼有最多的彈孔,駕駛座有最少的彈孔,因此許多專家主張強化機翼的防彈能力。但一位學者反駁,認為應該強化駕駛座的防彈能力。原因是表面上駕駛座有最少的彈孔,但事實上,那是因為駕駛座中彈的飛機回不來了。
同理,表面上,財務危機高的公司有較高的投資報酬率,但事實上有可能是因為部分財務危機高的公司撐不下去而下市,從股票市場消失。剩下的財務危機高的公司在度過危機後,因先前股價被低估,股價大幅回升而有較高的報酬率。因此,回測模型時忽略下市個股會高估模型的報酬率。
例如低股價淨值比(P/B)選股模型就有過度偏愛具有財務危機的公司的特性,如果回測時忽略已下市個股,只統計安然渡過危機、「存活」下來的股票的報酬率,很可能會高估其報酬率。例如圖4(b)顯示:
- 左邊第1張圖是以股價淨值比將50支股票排序下的個股報酬率,排序1的股價淨值比最低,可見股價淨值比越低風險越大,報酬率的波動也越大。
- 第2張圖是在無存活偏差下,每5支股票統計一個報酬率平均值,可見股價淨值比低並無較高的報酬率。
- 第3張圖顯示,因為股價淨值比越低,風險越大,報酬率的波動也就越大,下市的可能性也越大。
- 第4張圖是在有存活偏差下,每5支股票統計一個報酬率平均值,可見股價淨值比低有較高的報酬率。
因此,存活偏差可能造成股價淨值比越低,報酬率越高的現象。
- 小股偏差
小型股可能有較高的報酬,因此許多市值很小的股票或許有不錯的報酬,但這種股票因交易值太小,缺少交易的流動性,並不具投資價值。因此如果選股模型過度偏愛小型股,可能會因為缺少交易的流動性,而不具實務上的可行性(參閱圖5)。
- 少股偏差
如果投資組合只含一、二支股票,回測的結果可能會意外地有超高或超低的報酬率,但這些結果並不可信,不能視為有用的結論(參閱圖6)。
- 成本偏差(cost bias)
在選股時,頻繁地利用最新的資訊進行選股與交易,常會產生較高的報酬。但頻繁地買入、賣出股票,也會造成可觀的交易成本,在考量成本後,報酬可能反而較低(參閱圖7)。
- 風險偏差(risk bias)
在選股時,冒著較高的風險有可能獲得較高的報酬,但這種冒著高風險的策略,從投資人普遍厭惡風險的觀點來看,未必是好的投資策略(參閱圖8)。
本文摘自財經傳訊《台股研究室:36種投資模型操作績效總體檢!》
作者:葉怡成
出版社:財經傳訊