大数の法則はいろいろな書籍で言及される超有名な法則なわけですが、
昨今の機械学習などではこれを少し発展させて、
所々の仮定のもとで以下の一様大数の法則を用いたりします。
いわゆる大数の法則との違いは関数クラスでsupをとっているところです。
機械学習では学習した関数が(全ての)訓練データに依存する構造になっているので、
そこの依存関係を考慮した上で確率収束の議論をやりたいからです。
つまり、何らかの学習を経て得られたは個のデータに依存して決まっており、
各が独立ではないため、通常の大数の法則が適用できなくなっています。
そこで、supを考えることでデータ依存をなくした議論をしようとしているわけです。
てなわけで、
今回は一様大数の法則と密接に関連するラデマッハ複雑度について見ていきます。
Rademacher complexity
がとする。
このとき、関数族に対してラデマッハ複雑度を以下のように定義します。
を以下を満たすiidなラデマッハ変数とする。
このとき、観測データを用いて以下のように定義される変数を経験ラデマッハ複雑度といい
このが確率分布に従っているとして、期待値をラデマッハ複雑度といいます。
ここで、において、サンプル平均 ではなく
のようにを挟んだものを考えています。
これは、ランダムなノイズとの相関みたいなものを表していて、
関数クラスにおいてその相関をどれくらい高めることができるか
というのがラデマッハ複雑度の直感的なイメージかと思います。
別の言い方をすると、
ランダムノイズに対してがどれくらい追従出来るかの指標ですかね。
なお、今後
とする。
で、
早速このラデマッハ複雑度にまつわる定理を見ていきます!
Thm (対称化)
この定理、一様大数の法則と似ていますよね!
この期待値の中身は実は結構解析しにくかったりするので、
このようにラデマッハ複雑度で上から抑えて、
そしてそのラデマッハ複雑度をさらに何かで抑えたりするのがよく使われる手法です。
それではこれを証明していきます。
左辺は、と同じ分布に従うを用いて以下のように変形でき
イェンセンの不等式()より
とは同じ分布に従うので
三角不等式より
フビニの定理より
とまぁこれで、
確率変数の期待値を上から抑えることに成功しました。
続いて、この確率変数の裾確率について見ていきます。
Thm
これは、の期待値がで抑えられることを思い出すと、
が期待値からどれくらいずれうるのかを示しています。
これを示すために以下の関係性を利用します。
McDiamid の不等式
を独立な(同一とは限らない)確率変数とする。
を可測関数とし
が任意のについて成り立つとき、
いま、より
とおくと
同様にして も成り立つので
McDiamidの不等式に代入することで、
が得られる。
~閑話休題~
具体的に線形関数の集合 のラデマッハ複雑度を考えると
というようにで抑えられることがわかります。
そうとわかれば、対称性を用いて、
と0に収束することがわかり
裾確率の議論を用いて、が確率収束していることも
なんとなくわかりそうです(一様大数の法則)。
このように、やや取り扱いにくいのような変数を、
上から抑えられ、比較的解析しやすいのがラデマッハ複雑度の良さでしょうか。
あまり汎化誤差解析を体系だって学んだことがないのですが、
こういう議論も面白いですね!
今回の関連書籍
内容もしっかりしているいい本だと思います。