差分

このページの2つのバージョン間の差分を表示します。

--- r:mdptoolbox [2018/12/16 16:30] – watalu
+++ r:mdptoolbox [2018/12/16 16:34] (現在) – [方策反復法] watalu
@@ 行 15: / 行 15: @@
 n.status = 3
 n.action = 3
-P = array(dim(n.status,n.status,n.action))
+P = array(dim=c(n.status,n.status,n.action))
 </code>
@@ 行 55: / 行 55: @@
 ,10,150,
 ,50,150,
-,250,150),nrow=n.status, ncol=n.action, byrow=TRUE))
+,250,150),nrow=n.status, ncol=n.action, byrow=TRUE)
 colnames(R) = c("keep","repair","replace")
 rownames(R) = c(1:3)
@@ 行 77: / 行 77: @@
 R
 </code>
+=== 価値反復法 ===
+マルコフ決定過程の最適方策を価値反復によって求めるには、次の一行を実行すればよい。
+<code>
+mdp_value_iteration(P, R, 0.9)
+</code>
+=== 方策反復法 ===
+マルコフ決定過程の最適方策を方策反復によって求めるには、次の一行を実行すればよい。
+<code>
+mdp_policy_iteration(P, R, 0.9)
+</code>

Applied Statistics and Data Mining