ただのメモ

他の人に見せても良い方のメモ

2021-10-22から1日間の記事一覧

DMED方策とKL距離

こちらの本の一部をまとめる。 以前記事にしたUCB方策では、期待値最大ではないアームの誤選択率を1/t程度に制御することがしたいこと。なので、真の期待値についての、信頼区間を計算ですることが本質とは言えない。 よって、直接的にアームの誤選択率を制…