markov_decision_process [Applied Statistics and Data Mining]

文書の過去の版を表示しています。

マルコフ決定過程

マルコフ決定過程は、対象の状態、状態の遷移、行動、状態の評価関数、の４つのコンポーネントからなる確率事象に関する意思決定のモデルである。

状態の遷移には、次の２種類がある。

何も行動を取らず対象に介入しないことによる状態の遷移
何らかの行動を取り対象に介入することによる状態の遷移

介入するか否か、また介入するならその内容は、介入後の状態の良し悪しを評価して比較検討する例えば、車で交差点に進入する状況を考える。そのままの車線を走り続ければ直進だが、駅に家族を迎えにきたのであれば、右折レーンに入って、右折の準備をするのが良い。その方が目標を果たすことに近付く。そこで、右折のウィンカーを点灯して右折レーンに入る、という操作を行う。これが介入である。

また、ロボットを格子状の盤の上に作った迷路の中に置き、ゴールを目指させる状況を考える。ロボットは見通せる範囲の通路の形状しか認識できない。迷路の大きさも分からない。つまり、前後左右を向いたり、何歩が歩いたりしてみても、ゴールに近付いているかどうかを認識できない。状況を簡単にするために、ロボットは自分の前後左右が壁か通路かのみを認識できるとしよう。この時、どのような行動をとっていけば、ゴールに辿り着く確率が高まるだろうか。たとえ、ゴールの上に立たなければゴールに着いたことが分からないとしても、多くの試行を重ねることで、ゴールへ辿り着くための行動選択の指針を見出せることがある。

保全でも同様で、対象の状態を観測し、劣化の度合いに応じて、今、どの保全行動を取れば良いか、またもう少し遷移を見守るのが良いか、を将来に渡って運用し続けるために、余計な費用発生は避け、必要な費用発生は積極的に認めるように、保全行動を選択していく。

行動の選択は、将来の状態の評価関数の予測を行い、最も評価が高くなるように行動を選択することが合理的である、という考え方に基づいて行う。将来の状態は、行動ごとに定められた遷移行列を繰り返し用いて行う。

これらのことを、マルコフ決定過程はモデル化していく。

迷路の例

ロボットの状態を次のように考える。

番号	状態
1	正面に進める
2	正面に進めない

行動は次の3種類とする。

番号	状態
1	正面に進む
2	右に90度回転する
3	左に90度回転する

大きさ3×3の迷路が次のようになっているとする。

左下隅に、上向きにロボットを置く。人間であれば簡単に、ゴールまでたどり着くには、

時点	行動
1	1(前進)
2	1(前進)
3	2(右90度回転)
4	1(前進)
5	2(右90度回転)
6	1(前進)
7	3(左90度回転)
8	1(前進)
9	3(左90度回転)
10	1(前進)

という行動選択をすればいい、とたぶん分かる。

コンピュータ上であれば、最初の１ステップ目で

番号	状態
1	正面に進む
2	右に90度回転する
3	左に90度回転する

を全て試して、ゴールにたどり着くかどうかを調べる。辿り着かなければ、それぞれのステップの次に

番号	状態
1	正面に進む
2	右に90度回転する
3	左に90度回転する

を行う、3×3=9通りの行動の組み合わせを検討する。それでもだめなら、さらに9通りそれぞれの先に

番号	状態
1	正面に進む
2	右に90度回転する
3	左に90度回転する

を行う、9×3=27通りの行動の組み合わせを検討する。これをゴールに到達するまで繰り返すのが、総当たり法である。

それに対して、マルコフ決定過程では状態が2つしかないことから、次のような状態とアクションの対応表を埋めようとする。

番号	状態	行動
1	正面に進める
2	正面に進めない

状態ごとにどのような選択をするかを、将来の評価関数を高めるように選んでいく。

markov_decision_process.1544851966.txt.gz · 最終更新: 2018/12/15 14:32 by watalu

Applied Statistics and Data Mining

サイト用ツール

ユーザ用ツール

目次

マルコフ決定過程

迷路の例

サイト用ツール

ページ用ツール

ユーザ用ツール

目次

マルコフ決定過程

迷路の例