正則化でノイズの影響を減らすしくみ - ゆるふわクオンツの日常

f:id:dw_dw_dt:20201119203355j:plain

ノイズの影響が大きいデータを扱う際（以下のmediumなど）は、

正則化などで対応することが多いと思いますが、

具体的にどういうロジックでノイズの影響を緩和しているのかを、

Ridgeを題材に確認したいと思います。

medium.com

Ridge回帰

確率ベクトル $(\tilde{X}, \tilde{Y})$ の標本 $(x_{1},y_{1}),...,(x_{n},y_{n})$ が得られたとします。

いわゆる線形な回帰モデル $y_{i} = x_{i} \beta + \epsilon_{i}$ （ $\epsilon$ は $N(0,\sigma^{2})$ ）を想定し、

真のモデルがこの回帰モデルで表現できる場合を考えます。

最小二乗法による $\beta$ の推定では、

$x_{i}$ を縦に並べた $X$ と $y_{i}$ を縦に並べた $Y$ を用いて、

損失関数を $|| Y-X\beta ||_{2}$ と想定し、

これを最小化する $\beta_{OLS}=(X'X)^{-1}X'Y$ を求めることになります。

一方、

Ridge回帰はというと、

寝室関数を $||Y-X\beta||_{2}+\lambda ||\beta||_{2}$ と見て、

これを最小化する $\beta_{Ridge}=(X'X+\lambda I)^{-1}X'Y$ となります。

さて、

得られた $\beta_{OLS}, \beta_{Ridge}$ とノイズの関係性を確認するため、

$Y = X\beta + \epsilon$ を代入します。

すると、 $\beta_{OLS}=(X'X)^{-1}X'(X\beta + \epsilon)$ となるわけですが、

この式から、ノイズ $\epsilon$ があと $1$ だけ大きかったら

$\beta_{OLS}$ がどれくらい違っていたか等が分かります。

ただ、これだと少し見づらいので

特異値分解 $X = UΛV'=\sum{\gamma_{i}u_{i}v_{i}'}$ を用いることで

$\beta_{OLS} = \beta + \sum\frac{v_{i} u_{i}'}{\gamma_{i}}\epsilon$

$\beta_{Ridge}=(\sum\frac{\gamma_{i}^{2}}{\gamma_{i}^{2}+\lambda}v_{i}v_{i}')\beta+\sum\frac{\gamma_{i}v_{i} u_{i}'}{\gamma_{i}^{2}+\lambda} \epsilon$

と変形します。

すると、

$\beta_{OLS}$ は、期待値的には $\beta$ に一致することがわかります。

ただし、 $\epsilon$ の分散が大きかったり、 $X$ にゼロに近い特異値などがあった場合は、

推定結果があまり信頼できないものになっている可能性があります。

一方で $\beta_{Ridge}$ は、期待値が $\beta$ じゃなくなっていますが(不偏推定じゃない)

その代わりに $\epsilon$ の分散や特異値による影響を $\lambda$ で緩和していることがわかります。

ベイズ的に解釈すると

さて、

Ridgeによってノイズの影響が大きい時でも抗えることがわかりましたが

これは実はベイズ的に考えると自然に辿り着くという話があります。

はい、それでは自然に辿り着く様を確認していきましょう。

$y_{i} = x_{i} \beta + \epsilon_{i}$ において、 $\beta$ の事前分布を $N(0,\alpha I)$ とします。

( $\sigma^{2}$ の事前分布は逆ガンマとすることが多いですが、今回は無視します)

すると、尤度は $p(Y|\beta)=N(X\beta, \sigma^{2}I)$ となります。

ここで、天下り式ですが $\beta$ は共役事前分布になっているので、

事後分布が正規分布になっていることがわかります。

そこで、事後分布を $p(\beta|Y)=N(\bar{\beta}, \Gamma^{-1})$ とし、この $\bar{\beta}, \Gamma^{-1}$ を求めていきます。

$p(\beta|Y) \sim p(Y|\beta)p(\beta)$ において

両辺の正規分布の指数の中を比較すると

$p(\beta|Y)$ の指数関数の中身は

$-\frac{1}{2}(\beta-\bar{\beta})'\Gamma(\beta-\bar{\beta})=-\frac{1}{2}\beta' \Gamma \beta+\beta' \Gamma \bar{\beta} + const$ となり

$p(Y|\beta)p(\beta)$ の指数関数の中身は

$-\frac{1}{2}(\frac{1}{\alpha}\beta'I\beta+\frac{1}{\sigma^{2}}(Y-X\beta)'I(Y-X\beta))=-\frac{1}{2}\beta'(\frac{1}{\alpha}I+\frac{1}{\sigma^{2}}X'X)\beta+\frac{1}{\alpha}\beta'X'Y+const$