差分

このページの2つのバージョン間の差分を表示します。

--- markov_decision_process [2018/12/17 08:27] – watalu
+++ markov_decision_process [2019/01/07 07:52] (現在) – [まとめ] watalu
@@ 行 7: / 行 7: @@
   - A 行動
   - P 遷移
-  - R 評価
+  - R 評価 (報酬・利得であればRと書いて最大化を考え、費用や損失であればCと書いて最小化を考える)
 状態Sの遷移Pには、次の２種類がある。
@@ 行 292: / 行 292: @@
 現在の最適な行動と、その行動の帰結として将来に渡って発生する費用の総額は、勿論、将来の費用に依存する。t=∞の時点の費用が分かっていれば、例えば V∞(s)≡0ならば、そこから1時点ずつ遡ってVtを計算していくことが考えられる。この計算が、tを小さくするにつれて、つまり過去に遡るにつれて、ある一定の関数に収束するなら、その関数は次の方程式を満たす。
-{{:bellman-equation-inifinite-horizon-reward.png?450|}}
+{{::bellman-equation-cost-discounted.png?400|}}
-これがベルマン方程式である。
+これがベルマン方程式である。ベルマン更新の式との違いは関数Vの添え字の有無しかない。でもこの違いは、Vが遷移している状態か、定常状態かの違いでもある。
+将来の費用関数をどのように算出するか、そして将来の状態をどのように予測するか、がマルコフ決定過程がうまく働くための鍵となる。
+== 報酬の場合 ==
 費用ではなく、報酬が得られる場合は、ベルマン更新が
@@ 行 302: / 行 306: @@
 定常状態におけるQ関数とベルマン方程式はそれぞれ次のようになる。
-{{:bellman-equation-q-function.png?400|}}
+{{::bellman-equation-q-function-reward-discounted.png?400|}}
 {{::bellman-equation-reward.png?400|}}
-そこで、将来の費用関数をどのように算出するか、そして将来の状態をどのように予測するか、がマルコフ決定過程がうまく働くための鍵となる。
 == マルコフ連鎖に基づく予測 ==
@@ 行 365: / 行 367: @@
 最終時点のVをひとつ与える。次にベルマン更新
-{{:bellman-update-markov-chain.png?400|}}
+{{:bellman-update-formula.png?400|}}
 によって、時点を１つ戻す。毎時点、費用を最小にするように状態sごとに行動aを選ぶ。
@@ 行 375: / 行 377: @@
 上の二つのアルゴリズムはどちらも関数V(s)を与える。
 この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。
+== 要検討課題 ==
+価値反復と方策反復では、得られる方策の解が同じでも、総期待割引き報酬もしくは費用Ｖの値が異なる。なぜか？
+==== Rでマルコフ決定過程の計算を行う ====
+[[::r:markovchain]]はマルコフ連鎖(離散時間離散状態マルコフ過程)の遷移行列の推定や、マルコフ過程の性質の解析決定を行う。
+[[::r:mdptoolbox]]はマルコフ決定過程の最適方策の学習を行う。
+この２つを組み合わせると、データから遷移行列を推定して、その遷移行列と評価関数に基づいてマルコフ決定過程に基づく最適方策の学習を行う、という一連の最適化プロセスを実装できる。
 ==== 保全とマルコフ決定過程 ====

markov_decision_process.1545002879.txt.gz · 最終更新: 2018/12/17 08:27 by watalu

Applied Statistics and Data Mining

サイト用ツール

ユーザ用ツール

差分

サイト用ツール

ページ用ツール

ユーザ用ツール

差分