差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
markov_decision_process [2018/12/17 08:27] – watalu | markov_decision_process [2019/01/07 07:52] (現在) – [まとめ] watalu | ||
---|---|---|---|
行 1: | 行 1: | ||
==== マルコフ決定過程 ==== | ==== マルコフ決定過程 ==== | ||
- | === 4つの部品 | + | === 4つの変数 |
マルコフ決定過程は、対象の状態S、状態の遷移P、行動A、状態の評価関数R、の4つのコンポーネントからなる確率事象に関する意思決定のモデルである。 | マルコフ決定過程は、対象の状態S、状態の遷移P、行動A、状態の評価関数R、の4つのコンポーネントからなる確率事象に関する意思決定のモデルである。 | ||
行 7: | 行 7: | ||
- A 行動 | - A 行動 | ||
- P 遷移 | - P 遷移 | ||
- | - R 評価 | + | - R 評価 |
状態Sの遷移Pには、次の2種類がある。 | 状態Sの遷移Pには、次の2種類がある。 | ||
行 292: | 行 292: | ||
現在の最適な行動と、その行動の帰結として将来に渡って発生する費用の総額は、勿論、将来の費用に依存する。t=∞の時点の費用が分かっていれば、例えば V∞(s)≡0ならば、そこから1時点ずつ遡ってVtを計算していくことが考えられる。この計算が、tを小さくするにつれて、つまり過去に遡るにつれて、ある一定の関数に収束するなら、その関数は次の方程式を満たす。 | 現在の最適な行動と、その行動の帰結として将来に渡って発生する費用の総額は、勿論、将来の費用に依存する。t=∞の時点の費用が分かっていれば、例えば V∞(s)≡0ならば、そこから1時点ずつ遡ってVtを計算していくことが考えられる。この計算が、tを小さくするにつれて、つまり過去に遡るにつれて、ある一定の関数に収束するなら、その関数は次の方程式を満たす。 | ||
- | {{: | + | {{:: |
- | これがベルマン方程式である。 | + | これがベルマン方程式である。ベルマン更新の式との違いは関数Vの添え字の有無しかない。でもこの違いは、Vが遷移している状態か、定常状態かの違いでもある。 |
+ | |||
+ | 将来の費用関数をどのように算出するか、そして将来の状態をどのように予測するか、がマルコフ決定過程がうまく働くための鍵となる。 | ||
+ | |||
+ | == 報酬の場合 == | ||
費用ではなく、報酬が得られる場合は、ベルマン更新が | 費用ではなく、報酬が得られる場合は、ベルマン更新が | ||
行 302: | 行 306: | ||
定常状態におけるQ関数とベルマン方程式はそれぞれ次のようになる。 | 定常状態におけるQ関数とベルマン方程式はそれぞれ次のようになる。 | ||
- | {{: | + | {{:: |
{{:: | {{:: | ||
- | |||
- | そこで、将来の費用関数をどのように算出するか、そして将来の状態をどのように予測するか、がマルコフ決定過程がうまく働くための鍵となる。 | ||
== マルコフ連鎖に基づく予測 == | == マルコフ連鎖に基づく予測 == | ||
行 365: | 行 367: | ||
最終時点のVをひとつ与える。次にベルマン更新 | 最終時点のVをひとつ与える。次にベルマン更新 | ||
- | {{: | + | {{: |
によって、時点を1つ戻す。毎時点、費用を最小にするように状態sごとに行動aを選ぶ。 | によって、時点を1つ戻す。毎時点、費用を最小にするように状態sごとに行動aを選ぶ。 | ||
行 375: | 行 377: | ||
上の二つのアルゴリズムはどちらも関数V(s)を与える。 | 上の二つのアルゴリズムはどちらも関数V(s)を与える。 | ||
この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。 | この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。 | ||
+ | |||
+ | == 要検討課題 == | ||
+ | |||
+ | 価値反復と方策反復では、得られる方策の解が同じでも、総期待割引き報酬もしくは費用Vの値が異なる。なぜか? | ||
+ | ==== Rでマルコフ決定過程の計算を行う ==== | ||
+ | |||
+ | [[:: | ||
+ | |||
+ | [[:: | ||
+ | |||
+ | この2つを組み合わせると、データから遷移行列を推定して、その遷移行列と評価関数に基づいてマルコフ決定過程に基づく最適方策の学習を行う、という一連の最適化プロセスを実装できる。 | ||
==== 保全とマルコフ決定過程 ==== | ==== 保全とマルコフ決定過程 ==== |