差分

このページの2つのバージョン間の差分を表示します。

--- r:maintenance:condition_monitoring_with_two_dimension_state [2019/01/06 18:56] – created watalu
+++ r:maintenance:condition_monitoring_with_two_dimension_state [2019/01/07 10:45] (現在) – watalu
@@ 行 1: / 行 1: @@
+はじめに：この箇所のみ、状態を0から始める、として番号付けを行なっている。状態数がN+1の時、状態の番号は0からNまでとなる。
+===== 多次元の状態ベクトルを持つマルコフ決定過程 =====
+[[::markov_chain|マルコフ連鎖]]と[[::markov_decision_process|マルコフ決定過程]]は、状態が多次元の場合にも応用できる。以下では、状態が２次元の場合を例に、１次元に変換して、[[::r:markovchain|マルコフ連鎖のパッケージmarkovchain]]と[[::r:mdptoolbox|マルコフ決定過程のパッケージMDPtoolbox]]を用いる手順を説明する。〔現時点でこの原稿は、データの変換と状態遷移行列の推定については省略し、マルコフ決定過程の適用の準備を中心に述べている。〕
 ==== 直積状態空間の１次元への変換 ====
@@ 行 75: / 行 81: @@
 <code>
 mmdp_X.to.Y = function(X,S) {
+  mdp_check.state = function(S) {
+    if( min(S)!=0 ) {
+      stop("state space should begin with 0.")
+    } else if( max(S)!=(length(S)-1) ) {
+      stop("state space should end with N.")
+    } else {
+      return(TRUE)
+    }
+  }
   m = length(X)
   n = NULL
@@ 行 104: / 行 119: @@
 <code>
 mmdp_X.to.Y.n = function(S) {
+  mdp_check.state = function(S) {
+    if( min(S)!=0 ) {
+      stop("state space should begin with 0.")
+    } else if( max(S)!=(length(S)-1) ) {
+      stop("state space should end with N.")
+    } else {
+      return(TRUE)
+    }
+  }
   m = length(S)
   x.max = NULL
@@ 行 116: / 行 140: @@
 この関数には状態空間のみを与える。
 <code>
-> mmdp_X.to.Y.n(list(c(0:4),c(0:4)) # 実行例
+> mmdp_X.to.Y.n(list(c(0:4),c(0:4))) # 実行例
 [1] 25
 </code>
@@ 行 158: / 行 182: @@
 </code>
 この表示された行列の意味を少し確認すること。
-=== 状態指定取替 P.Age ===
-ある状態でのみ取替を実行し、他の状態では何もしない行動を定義しておく。
-<code>
-mmdp_create.age.replacement.matrix = function(S,T.ast) {
-  R.S = max(S)-min(S)
-  n.S = length(S)
-  if( R.S != n.S-1 ) {
-    stop("state space is not regular and/or does not begin with 0.")
-  }
-  P = diag(rep(1,n.S))
-  P[T.ast+1,1] = 1
-  P[T.ast+1,T.ast+1] = 0
-  rownames(P) = S
-  colnames(P) = S
-  return(P)
-}
-</code>
-これも状態空間が0から4の場合に実行してみておく。
-<code>
-> mmdp_create.age.replacement.matrix(c(0:4),3)
-1 2 3 4
-1 0 0 0 0
-0 1 0 0 0
-0 0 1 0 0
-1 0 0 0 0
-0 0 0 0 1
-</code>
-この行動は、通常の状態監視保全では現れないことを注意しておく。
 ==== 状態遷移行列の組み合わせ ====
@@ 行 295: / 行 286: @@
 あるいは２つ目の方を取り替えるのであれば
 <code>
-mmdp_expand.P.2(list(mmdp_create.replacement.matrix(c(0:4),P.Dgr)))
+mmdp_expand.P.2(list(mmdp_create.replacement.matrix(c(0:4)),P.Dgr))
 </code>
 とする。
@@ 行 387: / 行 378: @@
 あとは実行するだけ。
-上の例を実行すると、次のような結果を得る。
+例によって準備をする。
+<code>
+install.packages("MDPtoolbox")
+library(MDPtoolbox)
+</code>
+そして、上の例の最適方策を価値反復アルゴリズムによって求めると、次のような結果を得る。
 <code>
 > mdp_value_iteration(P,R,0.95)
@@ 行 416: / 行 414: @@
 <code>
 > optimal.policy = mdp_value_iteration(P,R,0.95) # 実行例
-> cbind(expand.grid(c(0:4),c(0:4)),optimal.policy$policy) # 実行例
+> cbind(expand.grid(c(0:4),c(0:4)),optimal.policy$policy,optimal.policy$V) # 実行例
-   Var1 Var2 optimal.policy$policy
+   Var1 Var2 optimal.policy$policy optimal.policy$V
-     0    0                     1
+     0    0                     1        -64.03890
-     1    0                     1
+     1    0                     1        -81.67123
-     2    0                     1
+     2    0                     1       -108.58531
-     3    0                     1
+     3    0                     1       -149.66496
-     4    0                     2
+     4    0                     2       -212.36385
-     0    1                     1
+     0    1                     1        -81.67123
-     1    1                     1
+     1    1                     1        -99.30356
-     2    1                     1
+     2    1                     1       -126.21764
-     3    1                     1
+     3    1                     1       -167.29729
-    4    1                     2
+    4    1                     2       -229.99618
-    0    2                     1
+    0    2                     1       -108.58531
-    1    2                     1
+    1    2                     1       -126.21764
-    2    2                     1
+    2    2                     1       -153.13171
-    3    2                     1
+    3    2                     1       -194.21137
-    4    2                     2
+    4    2                     2       -256.91025
-    0    3                     1
+    0    3                     1       -149.66496
-    1    3                     1
+    1    3                     1       -167.29729
-    2    3                     1
+    2    3                     1       -194.21137
-    3    3                     1
+    3    3                     1       -235.29102
-    4    3                     2
+    4    3                     2       -297.98991
-    0    4                     3
+    0    4                     3       -212.36385
-    1    4                     3
+    1    4                     3       -229.99618
-    2    4                     3
+    2    4                     3       -256.91025
-    3    4                     3
+    3    4                     3       -297.98991
-    4    4                     4
+    4    4                     4       -360.68879
 </code>
-この方策は「状態が４になったのみ方を取替し、両方とも４になったら両方とも取替する」という方策である。
+この方策は「状態が４になったのみ方を取替し、両方とも４になったら両方とも取替する」という方策であると、読み取れるだろうか。

r/maintenance/condition_monitoring_with_two_dimension_state.1546768585.txt.gz · 最終更新: 2019/01/06 18:56 by watalu

Applied Statistics and Data Mining

サイト用ツール

ユーザ用ツール

差分

サイト用ツール

ページ用ツール

ユーザ用ツール

差分