今回は、「モーテル問題」「秘書問題」「浜辺の美女問題」
と言われる問題を確認してみたいと思います。
秘書問題
秘書を1人雇いたいとする。 人が応募してきている。
応募者には順位が付けられ、複数の応募者が同じ順位になることはない。
無作為な順序で1人ずつ面接を行う。
毎回の面接後、その応募者を採用するか否かを即座に決定する。
その応募者を採用するか否かは、それまでの面接に基づいて決定する。
不採用にした応募者を後から採用することはできない。
このような状況で、最良の応募者を選択することが問題の目的である。
モデリング
まず、並んでいる人をの数字の順列とみなします。
すると、からまでの数字を並べた順列はパターン存在します。
その個の順列によって構成される集合を、その要素をとする。
。
また、人目の応募者と会った時点で得られている情報をとする。
例えば、 、 となります。
さて、候補者を選んだ際の効用の設計を以下で行います。
順位が下から番目の候補者を選んだ際の効用をとする。
今回は、もっとも良い候補者を選んだ場合のみ効用が発生する場合、つまりでではとなるようなを想定する。
ここで、 を、人目の候補者を選んだ際に、その人が全体で何番目かを表す確率変数とします。
つまり、はの番目の成分への射影であり、となります。
例えば、常に5番目に出会った候補者を採用するという戦略はであり、
その際の効用はという確率変数であらわされることになる。
しかし、常に5番目の候補者を選択するという戦略のは直感的にもよくなさそうな気がします。
そこで、の添え字のが機動的に変化する設定を考えたくなる。
そういった場合に役に立つのが最適停止時刻の考え方です。
確率空間上にフィルトレーションと可積分な確率過程が与えられているとする。
このとき、を停止時刻全体(つまりとして)とすると、
]を満たす停止時刻が最適停止時刻である。
この考え方を先のに導入します。
ある時点までに分かっている情報に基づいて採用かどうかを決めることは
停止時刻として表現できるので、
今回の問題は、停止時刻をとして
]を満たすを求める
という問題に帰着します。
最適停止問題の解き方
本題に入る前に、最適停止問題]の一般的な解き方を確認する。
天下り的ですが、を
と求まったとき、と定める
この時、以下の性質が成り立つ。
は優マルチンゲール
は 1., 2.を満たす中で最小
つまり、このはより値が大きい優マルチンゲールのうちで
最小のものということなのです(スネル包)。
で、このを用いて作られる以下の停止時刻が最適停止時刻になっている
最適停止問題]における解は
具体例
コイントスを10回やります。最後に出た目の期待値を大きくするにはいつサイコロを振るのをやめればよいか?
を回目に出た目とします。
を求めていくと、
...
というふうに求まってっていくことがわかります。
で、肝心の停止時刻はというとの値を見ながら判定していくことになります。
あとコイントスが2回残っていれば、最後の1回の(10回目の)期待値が3.5なので、
次の(9回目の)コイントスで4以上、つまりならとなりそこでストップ、3以下ならとなりとなる
同様にして、残りコイントスが3~5回なら、次に出た目が4以下なら続行、5以上ならストップ
残りコイントスが6回以上であれば、次に出る目が6以外は続行
というのが最適戦略となる
また、が、そのまま続けた際の期待値ととの比較になっていたことがわかります。
の最適性の証明
ここではが最適となっていること、つまりを確認します。
まずがマルチンゲールであることを示す。
よってより結論を得る。
マルチンゲールであることから
とわかる。
ここでとの優マルチンゲール性より
この時、においてなので
したがって、とわかった
今回の最適停止問題の解き方の概要
まずはじめに、が適合とは限らないので
とおく。
は適合なので、の代わりにを考えればよい。
すると、先ほどの議論からとなるを求めればよいとわかる。
であるので、とおく。
ここでであり、かつが成立する。
補題1
を、のときとし、
それ以外の時はとする。この時以下が成立する。
補題1より、とおくと以下が成立する。
これでについてかなりわかりやすい形になったので、次にを考える。
命題1
をとし、帰納的にで定める。
この時以下が成立する。
これで、のの形が特定できた。
少し書き下すことで、となることがわかる。
実はここまでの文脈では、についての情報は使っていない。
そこで、最良選択のについて、さらに内容を確認していく。
最良選択の場合、となる。
そしてはのときにとなり、
それ以外の時は0になる。
これを用いてを計算すると以下のようになる。
補題2
のとき、が成り立つ。
のとき、となりが成り立つ。
を かつとすると
ではとなり、停止条件にヒットすることはない。
そしてがより大きいと、が減少し、
たとえば、となる。
一方では、それまでで最良の時だけ をとるので、
この問題での最適な戦略は、
人と会ったあとは、今までで一番いい候補者に遭遇したらその人でdoneすればいい
ということですね!
例えば10人の候補者がいる場合は、初めの3人()を見送った後、
それまでで一番いい人が現れたらその人に決めればよいということですね!
補題1の証明
よくあるインディケーター関数と確率に関するの条件付きverで、
ここで、というのは次対称群(の順列全体からなる群)とする。
すると、というのは、
「いままでの人の順位付けが与えられたうえで、番目にあった人はその中で番目の順位でした。
ではその番目にあった人は全体の人のうち番目である確率はいくつでしょう?」
という問題の答えになる。
すると、が満たされなければとなることがわかる。
上記の条件が満たされている場合について考える。
全体の並び方は個となる。
このうち、番目に会った人が、初めの人のうちで番目となる並び方はとなる。
次に、番目に会った人が、初めの人のうちで番目かつ全体で番目となる並び方はとなる。
したがって、
命題1の証明
帰納法で示す。
のときは定義よりとなり成立。
の時成立すると仮定すると
よって帰納法より示された。
補題2の証明
帰納法で示す。
定義から, ,
よって、の時には結論は成り立つ。
で成り立つと仮定すると、
よって成立。
まとめ
この問題って、結論はよく知られている割にその途中式を見かけないので写経してみました。
現実問題では、が少なすぎたり0だったりで
最適戦略もくそもなかったりすることがよくありますが、
winner takes allよろしく、十分大きなを獲得できている人は
今回のような戦略をとってみるとよいかもしれませんね。
ではまた。
今回の関連図書
今回はこちらの本の内容となります。確率論の本ですが、今回の確率制御っぽい内容にも触れられています。