差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
最新のリビジョン両方とも次のリビジョン
markov_decision_process [2018/12/17 08:45] – [ベルマン方程式] watalumarkov_decision_process [2018/12/17 09:01] – [4つの変数] watalu
行 7: 行 7:
   - A 行動   - A 行動
   - P 遷移   - P 遷移
-  - R 評価+  - R 評価 (報酬・利得であればRと書いて最大化を考え、費用や損失であればCと書いて最小化を考える)
  
 状態Sの遷移Pには、次の2種類がある。 状態Sの遷移Pには、次の2種類がある。