差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
| r:mdptoolbox [2018/12/16 16:30] – watalu | r:mdptoolbox [2018/12/16 16:34] (現在) – [方策反復法] watalu | ||
|---|---|---|---|
| 行 15: | 行 15: | ||
| n.status = 3 | n.status = 3 | ||
| n.action = 3 | n.action = 3 | ||
| - | P = array(dim(n.status, | + | P = array(dim=c(n.status, |
| </ | </ | ||
| 行 55: | 行 55: | ||
| 0,10,150, | 0,10,150, | ||
| 0,50,150, | 0,50,150, | ||
| - | 2000, | + | 2000, |
| colnames(R) = c(" | colnames(R) = c(" | ||
| rownames(R) = c(1:3) | rownames(R) = c(1:3) | ||
| 行 77: | 行 77: | ||
| R | R | ||
| </ | </ | ||
| + | |||
| + | === 価値反復法 === | ||
| + | |||
| + | マルコフ決定過程の最適方策を価値反復によって求めるには、次の一行を実行すればよい。 | ||
| + | |||
| + | < | ||
| + | mdp_value_iteration(P, | ||
| + | </ | ||
| + | |||
| + | === 方策反復法 === | ||
| + | |||
| + | マルコフ決定過程の最適方策を方策反復によって求めるには、次の一行を実行すればよい。 | ||
| + | |||
| + | < | ||
| + | mdp_policy_iteration(P, | ||
| + | </ | ||
| + | |||
| + | |||