差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン | 最新のリビジョン両方とも次のリビジョン | ||
markov_decision_process [2018/12/17 08:45] – [ベルマン方程式] watalu | markov_decision_process [2018/12/17 09:01] – [4つの変数] watalu | ||
---|---|---|---|
行 7: | 行 7: | ||
- A 行動 | - A 行動 | ||
- P 遷移 | - P 遷移 | ||
- | - R 評価 | + | - R 評価 |
状態Sの遷移Pには、次の2種類がある。 | 状態Sの遷移Pには、次の2種類がある。 |