差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
r:mdptoolbox [2018/12/16 16:30] watalur:mdptoolbox [2018/12/16 16:34] (現在) – [方策反復法] watalu
行 15: 行 15:
 n.status = 3 n.status = 3
 n.action = 3 n.action = 3
-P = array(dim(n.status,n.status,n.action))+P = array(dim=c(n.status,n.status,n.action))
 </code> </code>
  
行 55: 行 55:
     0,10,150,     0,10,150,
     0,50,150,     0,50,150,
-    2000,250,150),nrow=n.status, ncol=n.action, byrow=TRUE))+    2000,250,150),nrow=n.status, ncol=n.action, byrow=TRUE)
 colnames(R) = c("keep","repair","replace") colnames(R) = c("keep","repair","replace")
 rownames(R) = c(1:3) rownames(R) = c(1:3)
行 77: 行 77:
 R R
 </code> </code>
 +
 +=== 価値反復法 ===
 +
 +マルコフ決定過程の最適方策を価値反復によって求めるには、次の一行を実行すればよい。
 +
 +<code>
 +mdp_value_iteration(P, R, 0.9)
 +</code>
 +
 +=== 方策反復法 ===
 +
 +マルコフ決定過程の最適方策を方策反復によって求めるには、次の一行を実行すればよい。
 +
 +<code>
 +mdp_policy_iteration(P, R, 0.9)
 +</code>
 +
 +