Udemyの【 TensorFlow, Python3, OpenAI Gymで学ぶ】強化学習入門 を受けてみた感想

Pocket



Udemyで強化学習

はじめに

こんにちは!

はんぺんです!

この動画を見て強化学習に興味を持ったので,Udemyで勉強してみました!

いつか自分もこういう動画を作ってみたい…!と思いつつモチベを上げていきます!笑

強化学習とは?

強化学習

ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。代表的な手法としてTD学習やQ学習が知られている。

最も基本的なモデルでは、ここでの環境は、有限状態数のマルコフ決定過程として定式化される。また、強化学習のアルゴリズムは動的計画法に類似したアルゴリズムである。

出典: Wikipedia, 強化学習

つまり,最も報酬を多く得られるように学習するってことですかね.

コースの概要

コンテンツ

  • セクション: 1
    • イントロと環境構築
    • 1. このコースの概要
    • 2. 強化学習の枠組み
  • セクション: 2
    • 環境構築(Windows)
  • セクション: 3
    • 環境構築(macOS)
  • セクション: 4
    • Qテーブルによる学習
  • セクション: 5
    • Qネットワーク学習
  • セクション: 6
    • 多腕バンディット問題(方策勾配)
  • セクション: 7
    • カートポール問題(方策勾配法 その2)
  • セクション: 8
  • ボーナスセクション

所要時間

動画の時間は3時間になります.

私は5時間ほどで講義を終わらせられました!

受講対象者

  • TensorFlowで強化学習を学んでみたい人
  • ある程度の機械学習の知識はある人

CartPoleを使った強化学習

CartPoleというのチュートリアルを行った動画です.

講義でPythonを使っております.

こちらはOpenAI Gymにあるものです.

OpenAI

人工知能を研究する非営利団体である。

人類全体に、害をもたらすよりは、有益性があるやりかたで、オープンソースと親和性の高い人工知能を、注意深く推進することを目的として掲げている。

OpenAI Gymは強化学習アルゴリズムの検証プラットフォーム

CartPoleは,簡単に言えば小さい頃に放棄を手の上にのせてバランスをとって遊んでいたアレです.笑

こちらが学習前のバランス棒の様子です.

ある角度まで棒が傾いたら,リセットされるようになっています.

そしてこちらが,学習した後のバランス棒の結果です!

棒のバランスをとるために何度も学習をさせて,最終的にみごと倒れずにバランスが取れているのが見て取れます.

何に使える?

ネットではゲームに多く用いられている例を見つけるのですが,ロボットに組み合わせるのが非常に面白いと思ってます!

例えば,テニスラケットを持たせロボットにボールを投げて,打ち返せたら報酬を与え,打ち返せなかったら罰を与える...という学習をすることで,テニスボールを打ち返せるロボットが出来上がるのではないでしょうか!

まとめ

今回はUdemyのTensorFlowによる強化学習の講座の紹介をしました.

数少ない強化学習の動画による講座ですので,強化学習がどんなものか試してみたいという人には適していると思います!

ぜひお試しください!

参考

CartPole-v0



スポンサーリンク














コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください