差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン | |||
| r:mdptoolbox [2018/12/16 16:34] – [価値反復法] watalu | r:mdptoolbox [2018/12/16 16:34] (現在) – [方策反復法] watalu | ||
|---|---|---|---|
| 行 87: | 行 87: | ||
| === 方策反復法 === | === 方策反復法 === | ||
| + | |||
| + | マルコフ決定過程の最適方策を方策反復によって求めるには、次の一行を実行すればよい。 | ||
| < | < | ||
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン | |||
| r:mdptoolbox [2018/12/16 16:34] – [価値反復法] watalu | r:mdptoolbox [2018/12/16 16:34] (現在) – [方策反復法] watalu | ||
|---|---|---|---|
| 行 87: | 行 87: | ||
| === 方策反復法 === | === 方策反復法 === | ||
| + | |||
| + | マルコフ決定過程の最適方策を方策反復によって求めるには、次の一行を実行すればよい。 | ||
| < | < | ||