ファイナンス数学

強化学習と期待効用理論の異同点

この記事では、機械学習における強化学習と、経済学における期待効用理論の異同点について述べる。

強化学習と期待効用理論は、制御理論と呼ばれる数学的枠組みを基礎としており、両者の設定は極めて類似していることを指摘する。

また、強化学習と期待効用理論の本質的な相違点についても説明する。

本記事の内容は下記書籍の内容を参考にしているため、合わせて参照してほしい。

これからの強化学習

posted with カエレバ

牧野他, 森北出版 2016-10-27

posted with カエレバ

野口　悠紀雄,藤井眞理子東洋経済新報社 2017-12-18

Theory of Asset Pricing (The Addison-wesley Series in Finance)

posted with カエレバ

George Pennacchi Addison Wesley 2007-01-31

強化学習とは

強化学習とは、

経験をもとに試行錯誤しながら最適な行動を獲得するための理論的枠組である

（参考文献[1]）。

強化学習は、行動と観察を繰り返すことで、予め設定した「目標」を最大化させるような行動ルールを見つけることを目的にしている。

強化学習は、人間のプロ囲碁棋士に勝利したAlphaGoというプログラムにも用いられた。

期待効用理論とは

期待効用理論とは、投資家が限られた予算の中で、自らの満足度を最大化させるような最適な消費と投資の計画を立てるための理論的枠組である。

期待効用理論は経済学における標準的な枠組みであり、金融工学や政策決定などに用いられている。

強化学習と期待効用理論の共通点

強化学習と期待効用理論は、制御理論と呼ばれる数学的最適化の手法に基づき定式化される。

基礎とする理論が同一であるため、強化学習と期待効用理論は極めて類似した設定となっている。

以下、強化学習と期待効用理論で用いられる用語の対応関係について述べる。

エージェント/投資家

強化学習において、行動決定の主体を、エージェントと呼ぶ。

期待効用理論において、消費・投資決定の主体を、投資家、経済主体、もしくはエージェントと呼ぶ。

状態/富

強化学習において、エージェントが置かれている状況を、状態と呼び、\( S_t\)で表す。

期待効用理論において、投資家が持つ財産を、富（Wealth）と呼び、\( W_t\)で表す。

行動/消費

強化学習において、エージェントが環境に対して行う働きかけを行動とよび、\( A_t\)で表す。

期待効用理論において、投資家の満足の源泉を消費と呼び、\( C_t\)で表す。なお、ある時点の富から消費を引いた残り\( W_t-C_t\)を投資と呼ぶ。

時間ステップ/時点（期）

強化学習において、エージェントの行動と状態を規定するの基本的な時間単位を、時間ステップと呼ぶ。

期待効用理論において、投資家の消費決定のタイミングを、時点（期）と呼ぶ。

報酬/効用

強化学習において、エージェントの行動の即時的な良さを報酬と呼び、\( R_{t+1}\)と表す。

時間ステップ\( t\)において状態\( S_t\)であったときに、行動\( A_t\)をとり、時間ステップ\( t+1\)で状態が\( S_{t+1}\)になったときに得られる報酬を\( R_{t+1}=r(S_t,A_t,S_{t+1})\)と表す。

期待効用理論において、投資家の消費の結果得られる満足度を、効用と呼ぶ。

時点\( t\)において消費\( C_t\)を行ったときに得られる効用を\( u(C_t)\)と表す。

収益/生涯効用

強化学習において、ある時間ステップから将来の時間ステップにおける累積的な報酬を、収益と呼び、\( G_t\)と表す。

報酬を累積する際に、今より将来の報酬をより低く評価するような収益を考えるときには、収益は以下のような割引報酬和として表す。
\[ \begin{split} G_t=\sum_{\tau=0}^\infty\gamma R_{t+1+\tau}=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots \end{split} \]
期待効用理論において、ある時点から将来の時点における累積的な効用を、生涯効用と呼ぶ。

今より将来の効用をより低く評価するような生涯効用を考えるときには、生涯効用は以下のような形で表す。
\[ \begin{split} \sum_{\tau=0}^\infty\delta^{\tau} u(C_{t+\tau})=u_(C_{t})+\delta u(C_{t+1})+\delta^2 u(C_{t+2})+\cdots
\end{split} \]

方策/消費ポリシー

強化学習において、エージェントが行動を決定するためのルールを方策と呼び、\( \pi\)と表す。

期待効用理論において、投資家が消費を決定するためのルールを消費ポリシーと呼び、\( \left\{ C_t\right\}\)と表す。

状態遷移確率/予算制約

強化学習において、状態\( S_t\)において行動\( A_t\)をとったとき、次に状態\( S_{t+1}\)に変化する確率\(P(S_{t+1}|S_t,A_t) \)を、状態遷移確率と呼ぶ。

期待効用理論において、富\( W_t\)を保有しているときに消費\( C_t\)を行ったときに、次期の富\(W_{t+1} \)はどのように表せるかという関係式を、予算制約と呼ぶ。

状態価値/期待効用

強化学習において、ある初期状態\( s\)において、ある方策\( \pi\)をとったときに計算される収益の期待値\( V^\pi (s)=E^\pi\left[G_t|S_t=s \right]=E^\pi\left[\sum_{\tau=0}^\infty\gamma R_{t+1+\tau}|S_t=s \right]\)を、状態価値と呼ぶ。

期待効用理論において、ある時点\( t\)より後に、ある消費ポリシーに従ったときに計算される生涯効用の期待値\( E_t\left[\sum_{\tau=0}^\infty\delta^{\tau} u(C_{t+\tau})\right]\)を、期待効用と呼ぶ。

最適方策/最適消費ポリシー

強化学習において、任意の初期状態\( s\)について、価値関数\( V^\pi (s)\)を最大化させるような方策\( \pi^*\)を、最適方策と呼ぶ。

期待効用理論において、初期富\( W_t\)が与えられたとき、期待効用を最大化させるような消費ポリシー\( \left\{ C_t^*\right\}\)を、最適消費ポリシーと呼ぶ。

最適状態価値関数/価値関数（最適化された期待効用）

強化学習において、初期状態\( s\)のもと、最適方策\( s\)をとった場合の状態価値関数を、最適状態価値関数と呼ぶ。

最適状態価値関数を\( V^* (s)\)と表すと、
\[ \begin{split} V^* (s)=V^{\pi^*} (s)=\max_\pi V^\pi (s) \end{split} \]と書ける。

期待効用理論において、初期富\( W_t\)が与えられたとき、最適消費ポリシー\( \left\{ C_t^*\right\}\)をとった場合の期待効用を、価値関数とか最適化された期待効用と呼ぶ。

価値関数を\( J(W_t)\)と表すと、
\[ \begin{split} J(W_t)=\max_{\left\{ C_t\right\}}E_t\left[\sum_{\tau=0}^\infty\delta^{\tau} u(C_{t+\tau})\right] \end{split} \]と書ける。

強化学習と期待効用理論の相違点

前節の通り、強化学習と期待効用理論は、その理論的枠組が極めて類似している。

しかし、両者で決定的に異なる点が一つある。

それは、強化学習では普通、状態遷移確率は未知である一方、期待効用理論では予算制約は既知であるという点である。

この相違点により、強化学習と期待効用理論では、最適方策を見つけるためのアプローチに違いが生じる。

強化学習では、Q-learningやDeep Q-Networkと呼ばれる手法によって試行錯誤によって最適方策を模索していくが、

期待効用理論は動的計画法（Dynamic Programming）と呼ばれる手法により最適消費ポリシーを決定するという点で、手法が異なっている。