ゆるふわクオンツの日常

統計・機械学習

ラデマッハ複雑度と一様大数の法則のお気持ちについて

大数の法則はいろいろな書籍で言及される超有名な法則なわけですが、 昨今の機械学習などではこれを少し発展させて、 所々の仮定のもとで以下の一様大数の法則を用いたりします。 いわゆる大数の法則との違いは関数クラスでsupをとっているところです。 機械…

大量のバックテストで生じる多重比較の問題~False Discovery~

今回はファイナンスのジャーナルThe Journal of Financeなどで、 false discovery, p-hacking, harkingなどという形で、 直近の数年くらい盛り上がっている多重比較の問題を取り上げたいと思います。 多重比較とは 多重比較について詳しいことは天下のTJO氏…

カルマンフィルタのPython実装とnumbaによる高速化のお話

時系列系の分析をしていく中で、状態空間モデルを使うこともあるかと思います。 その際、シンプルなカルマンフィルタであってもなかなか複雑だったりして 思うようにコーディングできなかったりします。 そこで、Python実装時のforループ劇遅問題含めてまと…

正則化でノイズの影響を減らすしくみ

ノイズの影響が大きいデータを扱う際(以下のmediumなど)は、 正則化などで対応することが多いと思いますが、 具体的にどういうロジックでノイズの影響を緩和しているのかを、 Ridgeを題材に確認したいと思います。 medium.com Ridge回帰 確率ベクトルの標…

確率変数を関数として線形回帰するお話

よくある統計の本などでは、最小二乗法や最尤法などの標本での議論かと思いますが、 一風変わった見方で取り組んでいる本を見かけましたので備忘メモしてみました。 ま、得られる結果はごくごく普通のことなのですが笑、 関数空間っぽさがあってよかったです…

破産確定!コンプガチャって確率的に何回ガチャる必要があるのか知ってますか?

さて、今日はコンプガチャにまつわる確率について書いていきたいと思います。

クロスバリデーションとすると汎化性能が良くなる仕組み覚書

データ分析をする際は、交差検証(クロスバリデーション)してパラメータを決めることが多いと思います。 クロスバリデーションすることでテストデータでの精度が上がる傾向があるのは経験的にも感覚的にもなんとなくわかるのですが、 それがどういう原理に…

トレンド定常過程と単位根過程の違いをしっかりとは理解していなかったお話

トレンド定常過程と単位根過程というのは、 ともに線形なトレンドを有する確率過程ですが、 特に予測の観点では、分散が増大していくかどうかが大きく異なっており、 どちらの過程なのかの判断はとても大切です。 今回はその定義、正確ですか?ってお話