ノイズの影響が大きいデータを扱う際(以下のmediumなど)は、
正則化などで対応することが多いと思いますが、
具体的にどういうロジックでノイズの影響を緩和しているのかを、
Ridgeを題材に確認したいと思います。
Ridge回帰
確率ベクトルの標本が得られたとします。
いわゆる線形な回帰モデル(は)を想定し、
真のモデルがこの回帰モデルで表現できる場合を考えます。
最小二乗法によるの推定では、
を縦に並べたとを縦に並べたを用いて、
損失関数をと想定し、
これを最小化するを求めることになります。
一方、
Ridge回帰はというと、
寝室関数を と見て、
これを最小化するとなります。
さて、
得られたとノイズの関係性を確認するため、
を代入します。
すると、となるわけですが、
この式から、ノイズがあとだけ大きかったら
がどれくらい違っていたか等が分かります。
ただ、これだと少し見づらいので
特異値分解を用いることで
と変形します。
すると、
は、期待値的にはに一致することがわかります。
ただし、の分散が大きかったり、にゼロに近い特異値などがあった場合は、
推定結果があまり信頼できないものになっている可能性があります。
一方では、期待値がじゃなくなっていますが(不偏推定じゃない)
その代わりにの分散や特異値による影響をで緩和していることがわかります。
ベイズ的に解釈すると
さて、
Ridgeによってノイズの影響が大きい時でも抗えることがわかりましたが
これは実はベイズ的に考えると自然に辿り着くという話があります。
はい、それでは自然に辿り着く様を確認していきましょう。
において、 の事前分布をとします。
(の事前分布は逆ガンマとすることが多いですが、今回は無視します)
すると、尤度はとなります。
ここで、天下り式ですがは共役事前分布になっているので、
事後分布が正規分布になっていることがわかります。
そこで、事後分布をとし、このを求めていきます。
において
両辺の正規分布の指数の中を比較すると
の指数関数の中身は
となり
の指数関数の中身は
であることから係数比較して
となります。
ここで、の事後分布の期待値であるは
実はと同じ形をしていることがわかります。
解釈としては
ベイズは事前分布を得られたデータ(尤度)によって調整していく手法ですが、
いわゆる普通のOLSなどはデータのみによって推定を行います。
その違いは、事前分布の考慮によってデータのバリアンスの影響を緩和するかどうかということでしょうか。
最尤法はを最大にするの推定であり、
MAP推定ではを最大にするの推定ということです。
(ここでは最尤法との比較のためにMAP推定を持ち出しましたが、
の事後分布による期待値とするのが一般的ですかね)
具体的にの関数に正規分布を考えると、
それぞれ上で見たOLSやRidgeの損失関数と大体一致することがわかりますね。
ちなみに、分散の事前分布をいじってスパースベイズにするとLassoみたいな
スパースな解が得られるようになるみたいです。
ではまた〜
今回の関連書籍
今回の話が載ってました。