差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
| markov_decision_process [2018/12/17 08:45] – [ベルマン方程式] watalu | markov_decision_process [2019/01/07 07:52] (現在) – [まとめ] watalu | ||
|---|---|---|---|
| 行 7: | 行 7: | ||
| - A 行動 | - A 行動 | ||
| - P 遷移 | - P 遷移 | ||
| - | - R 評価 | + | - R 評価 |
| 状態Sの遷移Pには、次の2種類がある。 | 状態Sの遷移Pには、次の2種類がある。 | ||
| 行 378: | 行 378: | ||
| この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。 | この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。 | ||
| + | == 要検討課題 == | ||
| + | |||
| + | 価値反復と方策反復では、得られる方策の解が同じでも、総期待割引き報酬もしくは費用Vの値が異なる。なぜか? | ||
| ==== Rでマルコフ決定過程の計算を行う ==== | ==== Rでマルコフ決定過程の計算を行う ==== | ||