エントロピー(entropy)とは、確率事象系における無秩序さの程度を表す尺度です。エントロピーの定義式を以下に示します。
$$H=-\sum_{i=0}^{n}P(x_i){\log}P(x_i)$$
ここで、\(P(x_i)\)は確率事象系\(X=\{x_1,\cdots,x_n\}\)における各事象\(x_i\)の生起確率です。定義式の通り、特定の事象に生起確率が偏るほどエントロピーは小さくなり、確率分布が一様分布に近づくほどエントロピーは大きくなります。
最大エントロピー原理(Maximum Entropy Reinforcement Learning)とは、推定したいデータについての事前情報が存在しない場合、情報エントロピーが最大となる推定結果が最も合理的であるとする考え方です。これは、優劣がつかない事象群に対して一様な確率を与えると解釈すれば、納得のいく原理であるといえます。
最大エントロピー強化学習は、最大エントロピー原理(Principle of Maximum Entropy)を目的関数に適用することにより、局所最適な方策への収束を回避する強化学習アルゴリズムです。
通常の強化学習における目的関数は、以下に示す状態価値関数であり、状態空間中の各状態に対して最大化する方策の獲得が学習目的でした。
$$V^{\pi}(s)=E_\pi\left\{\sum_{k=0}^{\infty}\gamma^{k}r_{t+k+1}|s_t=s\right\}$$
一方、最大エントロピー強化学習では、目的関数の第2項としてエントロピー項\({\beta}H\left(\pi(\cdot|s_{t+k})\right)\)を加え、目的関数を下式で再定義します。
$$E_\pi\left\{\sum_{k=0}^{\infty}\gamma^{k}r_{t+k+1}+{\beta}H\left(\pi(\cdot|s_{t+k})\right)|s_t=s\right\}$$
ここで、\(H(\cdot)\)はあらかじめ定義式を示したエントロピーであり、\(\beta\)は期待収益項に対するエントロピー項の重みを指定するパラメータです。
最大エントロピー強化学習の目的関数がもつ直感的な意図は、可能な限り行動の多様性を保ちながら、獲得報酬を最大化することです。したがって、最大エントロピー強化学習では状態空間の幅広い範囲を探索可能であるため、学習が安定化します。ここで、最大エントロピー強化学習における行動価値関数はソフト行動価値関数とよばれ、下式で定義されます。
$$Q^{\pi}(s,a)=E_\pi\left\{\sum_{k=0}^{\infty}{\gamma}^{k}\left(r_{t+k+1}+{\beta}H\left(\pi(\cdot|s_t)\right)\right)|s_t=s,a_t=a\right\}$$
参考文献
Richard S. Sutton and Andrew G. Barto. “Reinforcement learning: An Introduction.” The MIT Press, (1998).
Edwin T. Jaynes. “Information theory and statistical mechanics.” Physical review, Vol. 106, No. 4, p. 620 (1957).
Mnih, Volodymyr, et al. “Asynchronous methods for deep reinforcement learning.” International conference on machine learning. PMLR, (2016).