差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
markov_decision_process [2018/12/16 16:04] – [価値反復] watalu | markov_decision_process [2019/01/07 07:52] (現在) – [まとめ] watalu | ||
---|---|---|---|
行 1: | 行 1: | ||
==== マルコフ決定過程 ==== | ==== マルコフ決定過程 ==== | ||
+ | === 4つの変数 === | ||
- | マルコフ決定過程は、対象の状態、状態の遷移、行動、状態の評価関数、の4つのコンポーネントからなる確率事象に関する意思決定のモデルである。 | + | マルコフ決定過程は、対象の状態S、状態の遷移P、行動A、状態の評価関数R、の4つのコンポーネントからなる確率事象に関する意思決定のモデルである。 |
- | 状態の遷移には、次の2種類がある。 | + | - S 状態 |
+ | - A 行動 | ||
+ | - P 遷移 | ||
+ | - R 評価 (報酬・利得であればRと書いて最大化を考え、費用や損失であればCと書いて最小化を考える) | ||
+ | |||
+ | 状態Sの遷移Pには、次の2種類がある。 | ||
* 何も行動を取らず対象に介入しないことによる状態の遷移 | * 何も行動を取らず対象に介入しないことによる状態の遷移 | ||
- | * 何らかの行動を取り対象に介入することによる状態の遷移 | + | * 何らかの行動Aを取り対象に介入することによる状態の遷移 |
+ | |||
+ | ロボットなどの制御の問題では、何も行動を取らない場合には状態が遷移しない、とすることもある。以下では、遷移しないことも状態遷移の1つとして扱う。介入するか否か、また介入するならその内容は、介入後の状態の良し悪しを評価関数Rに基づいて評価して比較検討する | ||
- | 介入するか否か、また介入するならその内容は、介入後の状態の良し悪しを評価して比較検討する | ||
例えば、車で交差点に進入する状況を考える。そのままの車線を走り続ければ直進だが、駅に家族を迎えにきたのであれば、右折レーンに入って、右折の準備をするのが良い。その方が目標を果たすことに近付く。そこで、右折のウィンカーを点灯して右折レーンに入る、という操作を行う。これが介入である。 | 例えば、車で交差点に進入する状況を考える。そのままの車線を走り続ければ直進だが、駅に家族を迎えにきたのであれば、右折レーンに入って、右折の準備をするのが良い。その方が目標を果たすことに近付く。そこで、右折のウィンカーを点灯して右折レーンに入る、という操作を行う。これが介入である。 | ||
- | また、ロボットを格子状の盤の上に作った迷路の中に置き、ゴールを目指させる状況を考える。ロボットは見通せる範囲の通路の形状しか認識できない。迷路の大きさも分からない。つまり、前後左右を向いたり、何歩が歩いたりしてみても、ゴールに近付いているかどうかを認識できない。状況を簡単にするために、ロボットは自分の前後左右が壁か通路かのみを認識できるとしよう。この時、どのような行動をとっていけば、ゴールに辿り着く確率が高まるだろうか。たとえ、ゴールの上に立たなければゴールに着いたことが分からないとしても、多くの試行を重ねることで、ゴールへ辿り着くための行動選択の指針を見出せることがある。 | + | {{:: |
+ | |||
+ | また、ロボットを格子状の盤の上に作った迷路の中に置き、ゴールGを目指させる状況を考える。ロボットは見通せる範囲の通路の形状しか認識できない。迷路の大きさも分からない。つまり、前後左右を向いたり、何歩が歩いたりしてみても、ゴールに近付いているかどうかを認識できない。状況を簡単にするために、ロボットは自分の前後左右が壁か通路かのみを認識できるとしよう。この時、どのような行動をとっていけば、ゴールに辿り着く確率が高まるだろうか。たとえ、ゴールの上に立たなければゴールに着いたことが分からないとしても、多くの試行を重ねることで、ゴールへ辿り着くための行動選択の指針を見出せることがある。 | ||
+ | |||
+ | {{: | ||
保全でも同様で、対象の状態を観測し、劣化の度合いに応じて、今、どの保全行動を取れば良いか、またもう少し遷移を見守るのが良いか、を将来に渡って運用し続けるために、余計な費用発生は避け、必要な費用発生は積極的に認めるように、保全行動を選択していく。 | 保全でも同様で、対象の状態を観測し、劣化の度合いに応じて、今、どの保全行動を取れば良いか、またもう少し遷移を見守るのが良いか、を将来に渡って運用し続けるために、余計な費用発生は避け、必要な費用発生は積極的に認めるように、保全行動を選択していく。 | ||
+ | |||
+ | {{:: | ||
+ | |||
+ | {{:: | ||
+ | |||
+ | {{:: | ||
+ | |||
+ | {{:: | ||
+ | |||
+ | {{:: | ||
+ | |||
+ | 上の図はリンク先の企業の事業における劣化と保全の関係を表したものである。保全は社会を支える重要な技術であり、大きな市場を形成している。 | ||
行動の選択は、将来の状態の評価関数の予測を行い、最も評価が高くなるように行動を選択することが合理的である、という考え方に基づいて行う。将来の状態は、行動ごとに定められた遷移行列を繰り返し用いて行う。 | 行動の選択は、将来の状態の評価関数の予測を行い、最も評価が高くなるように行動を選択することが合理的である、という考え方に基づいて行う。将来の状態は、行動ごとに定められた遷移行列を繰り返し用いて行う。 | ||
行 19: | 行 42: | ||
これらのことを、マルコフ決定過程はモデル化していく。 | これらのことを、マルコフ決定過程はモデル化していく。 | ||
- | === 迷路の例 === | + | === 方策と迷路の例 === |
ロボットの状態を次のように考える。 | ロボットの状態を次のように考える。 | ||
行 75: | 行 98: | ||
|2|正面に進めない| | | |2|正面に進めない| | | ||
+ | この表を、方策policyという。 | ||
状態ごとにどのような選択をするかを、将来の評価関数を高めるように選んでいく。 | 状態ごとにどのような選択をするかを、将来の評価関数を高めるように選んでいく。 | ||
- | === 状態の定め方 === | + | === 状態の定め方が大事 |
実は、上の2状態では、常にゴールにたどり着ける解法はもとまらない。 | 実は、上の2状態では、常にゴールにたどり着ける解法はもとまらない。 | ||
行 152: | 行 176: | ||
=== 方策の学習 === | === 方策の学習 === | ||
+ | |||
+ | 上にも述べたがマルコフ決定過程では、状態と行動を結びつける表を方策という。 | ||
+ | 方策の最適化が、マルコフ決定過程を用いた対象のモデル化の目標である。 | ||
方策の候補をひとつ定める。 | 方策の候補をひとつ定める。 | ||
行 180: | 行 207: | ||
このように方策を比較して、良い方策を得るように探索をしていくのが、マルコフ決定過程の基本的な考え方である。1980年代から2000年代までは、ボードゲームのコンピュータのプレイヤーを作るのに、マルコフ決定過程の考え方がよく用いられていた。どのようなボードゲームにも、神の手と呼ばれる、誰でもその手順に従えば勝てる、という方策は存在せず、相手の手に合わせて状況を評価し、最善の手を打っていくことになる。ゲームでは、状況の数が膨大になり、取り得る行動もたくさんあるため、すべての行動の順列を比較検討すると、組み合わせ爆発が生じる。その爆発した組み合わせを、アドホックに刈り込んで、必要な組み合わせだけを比較するようにして、計算量を軽減する工夫が行われていた。 | このように方策を比較して、良い方策を得るように探索をしていくのが、マルコフ決定過程の基本的な考え方である。1980年代から2000年代までは、ボードゲームのコンピュータのプレイヤーを作るのに、マルコフ決定過程の考え方がよく用いられていた。どのようなボードゲームにも、神の手と呼ばれる、誰でもその手順に従えば勝てる、という方策は存在せず、相手の手に合わせて状況を評価し、最善の手を打っていくことになる。ゲームでは、状況の数が膨大になり、取り得る行動もたくさんあるため、すべての行動の順列を比較検討すると、組み合わせ爆発が生じる。その爆発した組み合わせを、アドホックに刈り込んで、必要な組み合わせだけを比較するようにして、計算量を軽減する工夫が行われていた。 | ||
+ | |||
+ | === 強化学習 === | ||
+ | |||
+ | 上ででてきたQという関数を、様々な状態の対象に様々な行動を適用して、その結果から試行錯誤を繰り返すことで学習し、その下で最適な行動を選択していく。必要に応じて、アクションごとの状態推移も学習する。 | ||
+ | |||
+ | https:// | ||
+ | |||
+ | 強化学習の話は、この原稿のスコープを大きく超えるので、別の機会に譲る。 | ||
+ | |||
+ | ==== マルコフ決定過程における方策の学習 ==== | ||
=== マルコフ性の活用と状態遷移行列の活用 === | === マルコフ性の活用と状態遷移行列の活用 === | ||
- | 保全の問題では、対象システムに何も保全行動という介入しなければ、システムは劣化していく。 | + | 保全を施さない場合のシステムの劣化が、次の図で表されるマルコフ連鎖に従うとする。 |
- | ただしその状態の遷移は、現在の状態とマルコフ行列に記された条件付き分布に従う。 | + | |
- | ゲームはプレイヤーが複数いるのが通例だが、保全の問題では対象であるシステムが打ってくる手はとても単純で、保全行動を実行しなければ劣化による状態遷移が発生する。保全行動を実行すれば、その結果として状態が回復するという状態遷移が発生する。 | + | |
{{: | {{: | ||
行 219: | 行 254: | ||
|状態|1|2|3| | |状態|1|2|3| | ||
|最適行動|稼働|修理|取替| | |最適行動|稼働|修理|取替| | ||
+ | |||
+ | === 価値関数あるいは費用関数 === | ||
マルコフ連鎖に基づいて推移する対象に、保全行動によって介入する場合には、最適な行動を選択するためには、将来に渡る費用を算出する関数Vの学習が不可欠となる。 | マルコフ連鎖に基づいて推移する対象に、保全行動によって介入する場合には、最適な行動を選択するためには、将来に渡る費用を算出する関数Vの学習が不可欠となる。 | ||
そのためのアルゴリズムを2つ紹介する。 | そのためのアルゴリズムを2つ紹介する。 | ||
- | |||
=== 学習アルゴリズム === | === 学習アルゴリズム === | ||
行 256: | 行 292: | ||
現在の最適な行動と、その行動の帰結として将来に渡って発生する費用の総額は、勿論、将来の費用に依存する。t=∞の時点の費用が分かっていれば、例えば V∞(s)≡0ならば、そこから1時点ずつ遡ってVtを計算していくことが考えられる。この計算が、tを小さくするにつれて、つまり過去に遡るにつれて、ある一定の関数に収束するなら、その関数は次の方程式を満たす。 | 現在の最適な行動と、その行動の帰結として将来に渡って発生する費用の総額は、勿論、将来の費用に依存する。t=∞の時点の費用が分かっていれば、例えば V∞(s)≡0ならば、そこから1時点ずつ遡ってVtを計算していくことが考えられる。この計算が、tを小さくするにつれて、つまり過去に遡るにつれて、ある一定の関数に収束するなら、その関数は次の方程式を満たす。 | ||
- | {{: | + | {{:: |
+ | |||
+ | これがベルマン方程式である。ベルマン更新の式との違いは関数Vの添え字の有無しかない。でもこの違いは、Vが遷移している状態か、定常状態かの違いでもある。 | ||
+ | |||
+ | 将来の費用関数をどのように算出するか、そして将来の状態をどのように予測するか、がマルコフ決定過程がうまく働くための鍵となる。 | ||
- | これがベルマン方程式である。 | + | == 報酬の場合 == |
費用ではなく、報酬が得られる場合は、ベルマン更新が | 費用ではなく、報酬が得られる場合は、ベルマン更新が | ||
行 266: | 行 306: | ||
定常状態におけるQ関数とベルマン方程式はそれぞれ次のようになる。 | 定常状態におけるQ関数とベルマン方程式はそれぞれ次のようになる。 | ||
- | {{: | + | {{:: |
{{:: | {{:: | ||
- | |||
- | そこで、将来の費用関数をどのように算出するか、そして将来の状態をどのように予測するか、がマルコフ決定過程がうまく働くための鍵となる。 | ||
== マルコフ連鎖に基づく予測 == | == マルコフ連鎖に基づく予測 == | ||
行 328: | 行 366: | ||
最終時点のVをひとつ与える。次にベルマン更新 | 最終時点のVをひとつ与える。次にベルマン更新 | ||
- | {{: | + | |
+ | {{: | ||
によって、時点を1つ戻す。毎時点、費用を最小にするように状態sごとに行動aを選ぶ。 | によって、時点を1つ戻す。毎時点、費用を最小にするように状態sごとに行動aを選ぶ。 | ||
この対応が方策π(s)になっているが、そのことは特に意識しない。 | この対応が方策π(s)になっているが、そのことは特に意識しない。 | ||
そしてVt(s)が収束した時点の方策π(s)を最適方策、またそのときの関数Vt(s)をV(s)とする。 | そしてVt(s)が収束した時点の方策π(s)を最適方策、またそのときの関数Vt(s)をV(s)とする。 | ||
+ | == まとめ == | ||
+ | 上の二つのアルゴリズムはどちらも関数V(s)を与える。 | ||
+ | この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。 | ||
+ | == 要検討課題 == | ||
- | === 価値関数 | + | 価値反復と方策反復では、得られる方策の解が同じでも、総期待割引き報酬もしくは費用Vの値が異なる。なぜか? |
+ | ==== Rでマルコフ決定過程の計算を行う ==== | ||
- | 上の二つのアルゴリズムはどちらも関数V(s)を与える。 | + | [[:: |
- | この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。 | + | |
- | === 強化学習 | + | [[:: |
- | 上ででてきたQという関数を、様々な状態の対象に様々な行動を適用して、その結果から試行錯誤を繰り返すことで学習し、その下で最適な行動を選択していく。必要に応じて、アクションごとの状態推移も学習する。 | + | この2つを組み合わせると、データから遷移行列を推定して、その遷移行列と評価関数に基づいてマルコフ決定過程に基づく最適方策の学習を行う、という一連の最適化プロセスを実装できる。 |
- | https:// | + | ==== 保全とマルコフ決定過程 ==== |
+ | |||
+ | 保全の問題では、対象システムに何も保全行動という介入しなければ、システムは劣化していく。 | ||
+ | ただしその状態の遷移は、現在の状態とマルコフ行列に記された条件付き分布に従う。 | ||
+ | ゲームはプレイヤーが複数いるのが通例だが、保全の問題では対象であるシステムが打ってくる手はとても単純で、保全行動を実行しなければ劣化による状態遷移が発生する。保全行動を実行すれば、その結果として状態が回復するという状態遷移が発生する。 | ||
- | 強化学習の話は、この原稿のスコープを大きく超えるので、別の機会に譲る。 |