ゆるふわクオンツの日常

大量のバックテストで生じる多重比較の問題~False Discovery~

今回はファイナンスのジャーナルThe Journal of Financeなどで、

false discovery, p-hacking, harkingなどという形で、

直近の数年くらい盛り上がっている多重比較の問題を取り上げたいと思います。

多重比較とは

多重比較について詳しいことは天下のTJO氏のブログに記載されているので

そちらをご確認いただければと思います。

tjo.hatenablog.com

もともとは医療や生物分野で使われることが多かった統計分野だと思います。

最近だとPCR検査関連の偽陽性偽陰性なども話題になりましたね。

さて、ファイナンスの論文投稿では、独自の新ファクターを提唱したうえで、

そのファクターが資産価格の決定要因となっていると主張したりするわけですが、

その際の検証において、パラメータや検証期間などをこねくり回して、

強引に有意な結果をでっちあげてジャーナルを通すことが問題視されています。

実際、今までいろいろな人が提唱してきて有意性を示したファクターは

合計すると300やら400やらともいわれており、factor zooと揶揄されています。

ファイナンスとfalse discovery rate

ファイナンスでfalse discoveryが注目されているのは上で述べた通りなのですが、

ことファクターの文脈で顕在化している背景には、

真に有効なファクターは少ないだろうというのがポイントになってきます。

というのも、本当に陽性なサンプル(TruePositive+FalseNegative)が稀有なシチュエーションでは、

false discovery rate(FDR= \displaystyle \frac{FalsePositive}{FalsePositive + TruePositive}

が高くなってしまう、つまり誤って有意と判断することが起こりやすくなるからです。

その点について確認していきたいと思います。

FDRと真の陽性率の関係

まず1からFDRを引いた、陽性的中率(PPV)という指標を考えます。

陽性適中率 - Wikipedia

これは、陽性(有意)反応が検出された際に、

本当に陽性である条件付き確率のことを指します。

このPPVについては、真の陽性率 \displaystyle \pi=\frac{TruePositive+FalseNegative}{AllSample}を用いて以下の関係性が得られます。

 \displaystyle PPV = \frac{\pi * Se}{\pi * Se+(1-\pi) * (1-Sp)}

 Seは感度を、 Spは特異度を表しています。

検査の精度をSe = 0.7, 1-Sp = 0.01と固定して

(↑陽性の人をきちんと陽性と検知できる確率が0.7で、
陰性の人を誤って陽性と検知する確率が0.01(有意水準1%)ということ)

PPVと \piの関係をplotすると以下のようになります。

PPVとFDRには FDR = 1 - PPV という関係があることを思い出すと、

上図から、真の陽性率 \piが小さい領域ほどFDRが大きくなることが確認できます。

多重比較に対する対応策

多重比較に対する対処法としては、2つのアプローチがあり

FWERをコントロールする方法とFDRをコントロールする方法です。

言い換えれば、FWERをコントロールする方法とは

全体に占める偽陽性の数そのものを減らす発想で、

FDRをコントロールする方は

検査で陽性になった中での偽陽性を減らす発想ということかと思います。

FWERをコントロールする手法としてはBonferroni法が有名で、

FDRをコントロールする手法としてはBenhamini-Hochberg法が有名です。

Bonferroni 法

この方法の発想はシンプルで、

「たくさん試行することでfalse discoverしてしまうなら

試行回数に応じて閾値有意水準)も小さくしてしまえ!」という発想です。

これをもう少し数学的に記述すると、

 i=1,2,...,Kに対して有意水準 \frac{\alpha}{K} H_{0,i}を棄却する事象を  A_iとし、一般性を失うことなく帰無仮説 \mathcal{H}_{K}の中の最初のL個の H_{01},...,H_{0L}が正しい帰無仮説とする。このとき
P(正しい帰無仮説のうち1つ以上を棄却する事象) = P(\bigcup_{i=1}^L{A_i}) \le \sum_{i=1}^{L}P(A_{i})=L\alpha/K \le \alpha

となるので、 K回試行したうえで有意水準 \alphaの選択をするには

各試行では有意水準 \frac{\alpha}{K}でやりましょう、という手法です。

ただ、この手法は確かにFWERをバウンドできてはいるのですが厳しすぎるともいわれます。

イメージとしては、偽陽性を確かに回避できてるけど偽陰性が増えてしまって

真陽性まで潰してしまう可能性を警戒しなければいけなさそうです。

Benjamini-Hochberg 法(BH法)

BH法の手順は以下の通りです。

  1. 達成したいFDRをまず決める(ここでは \alpha <1とする)

  2.  m個の帰無仮説に対して検定を行い、 p 値を計算する

  3.  p値を順番に並べて  p_1 p_2 ≤ ... ≤  p_m とする

  4.  j = m として  p_j \le \frac{j}{m}\alpha が満たされるかを確認する

  5. 4.が満たされていれば 6. に移行し、そうでなければ j=j-1として4.に戻る

  6. 帰無仮説1,2,...,j を棄却して完了

まず、以下のリンク先の内容から、帰無仮説に基づくならその p値が一様分布に従うことが分かります。 Probability integral transform - Wikipedia
仮にすべて帰無仮説に従っていた場合、 p_jは一様乱数をソートしたものなので \frac{j}{m}となることが想定され、 4.の基準は満たされずに、どの仮説も棄却されないことになります。
他方で、一部が帰無仮説に従っていない場合は p_jの分布が歪むことで、 一部の仮説が棄却されることになります。

ちょっと言葉だけだとわかりにくいですが、

下のリンク先の図を見ると直感的に納得できるかと思います。

https://www.ieice.org/~sita/forum/article/2019/201901142020.pdf

またファイナンス文脈に戻ると

さて、上記のような多重比較に対する処方箋をカスタマイズするなりして

検証を行うと、今まで提唱されてきたファクターの大半はほぼ意味がなかったよね

というようなものが、ちょっと前のファイナンスのアカデミアで

盛り上がった内容だったのかと思います。

もっとも、冒頭のTJO氏のブログにあるようにベイジアン的に、

分布に関する豊かな情報をみて判断したほうが良いのでは、

というのはその通りかと思います。

あと、余談になりますが、ファイナンスの中でも特に投資シグナル的な観点だと

別のアプローチとしてDeflated Sharpe Ratioというアプローチもあるので

また別の機会に紹介したいと思います。

今回の関連書籍

あんまりこの分野は詳しくはないのですが、一応持ってる本のご紹介です。