差分

このページの2つのバージョン間の差分を表示します。

--- markov_decision_process [2018/12/17 08:45] – [ベルマン方程式] watalu
+++ markov_decision_process [2019/01/07 07:52] (現在) – [まとめ] watalu
@@ 行 7: / 行 7: @@
   - A 行動
   - P 遷移
-  - R 評価
+  - R 評価 (報酬・利得であればRと書いて最大化を考え、費用や損失であればCと書いて最小化を考える)
 状態Sの遷移Pには、次の２種類がある。
@@ 行 378: / 行 378: @@
 この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。
+== 要検討課題 ==
+価値反復と方策反復では、得られる方策の解が同じでも、総期待割引き報酬もしくは費用Ｖの値が異なる。なぜか？
 ==== Rでマルコフ決定過程の計算を行う ====

Applied Statistics and Data Mining