差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
markov_decision_process [2018/12/17 08:39] – [ベルマン方程式] watalumarkov_decision_process [2019/01/07 07:52] (現在) – [まとめ] watalu
行 7: 行 7:
   - A 行動   - A 行動
   - P 遷移   - P 遷移
-  - R 評価+  - R 評価 (報酬・利得であればRと書いて最大化を考え、費用や損失であればCと書いて最小化を考える)
  
 状態Sの遷移Pには、次の2種類がある。 状態Sの遷移Pには、次の2種類がある。
行 292: 行 292:
 現在の最適な行動と、その行動の帰結として将来に渡って発生する費用の総額は、勿論、将来の費用に依存する。t=∞の時点の費用が分かっていれば、例えば V∞(s)≡0ならば、そこから1時点ずつ遡ってVtを計算していくことが考えられる。この計算が、tを小さくするにつれて、つまり過去に遡るにつれて、ある一定の関数に収束するなら、その関数は次の方程式を満たす。 現在の最適な行動と、その行動の帰結として将来に渡って発生する費用の総額は、勿論、将来の費用に依存する。t=∞の時点の費用が分かっていれば、例えば V∞(s)≡0ならば、そこから1時点ずつ遡ってVtを計算していくことが考えられる。この計算が、tを小さくするにつれて、つまり過去に遡るにつれて、ある一定の関数に収束するなら、その関数は次の方程式を満たす。
  
-{{:bellman-equation-inifinite-horizon-reward.png?450|}}+{{::bellman-equation-cost-discounted.png?400|}}
  
-これがベルマン方程式である。+これがベルマン方程式である。ベルマン更新の式との違いは関数Vの添え字の有無しかない。でもこの違いは、Vが遷移している状態か、定常状態かの違いでもある。 
 + 
 +将来の費用関数をどのように算出するか、そして将来の状態をどのように予測するか、がマルコフ決定過程がうまく働くための鍵となる。 
 + 
 +== 報酬の場合 ==
  
 費用ではなく、報酬が得られる場合は、ベルマン更新が 費用ではなく、報酬が得られる場合は、ベルマン更新が
行 305: 行 309:
  
 {{::bellman-equation-reward.png?400|}} {{::bellman-equation-reward.png?400|}}
- 
-そこで、将来の費用関数をどのように算出するか、そして将来の状態をどのように予測するか、がマルコフ決定過程がうまく働くための鍵となる。 
  
 == マルコフ連鎖に基づく予測 == == マルコフ連鎖に基づく予測 ==
行 376: 行 378:
 この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。 この関数を用いて、現時点で将来の推移を考慮しながら、最適な行動を選択する。
  
 +== 要検討課題 ==
 +
 +価値反復と方策反復では、得られる方策の解が同じでも、総期待割引き報酬もしくは費用Vの値が異なる。なぜか?
 ==== Rでマルコフ決定過程の計算を行う ==== ==== Rでマルコフ決定過程の計算を行う ====