下坂正倫　逆強化学習　模倣学習　時系列データモデリング　マルコフ決定過程　報酬関数　ベルマン方程式　セミナー

　 58,800円/1口　

逆強化学習・模倣学習の
基礎と応用

　S200409K

開催日時：2020年4月9日（木） 10:30-16:30

会　　場：オームビル（東京都千代田区神田錦町3‐1）
受講料：お1人様受講の場合　46,000円[税別]／1名

　　　　　1口でお申込の場合　57,000円[税別]／1口（3名まで受講可能）

　講　師

　下坂正倫　氏　

　　　　　　東京工業大学　情報理工学院　情報工学系　
　　　　　　准教授　博士(情報理工学)
　

　　　<講師紹介>
　　　【主経歴】
　　　　　　2001年　東京大学工学部　卒業
　　　　　　2006年　東京大学大学院情報理工学系研究科　博士課程　修了
　　　　　　2006年　東京大学　助手・助教・講師の後
　　　　　　2015年　東京工業大学　准教授

　　　【専門・得意分野】
　　　　　　ユビキタスコンピューティング
　　　　　　人工知能(パターン認識・機械学習)
　　　　　　人間行動センサデータ解析

　　　【本テーマ関連の学会・協会・団体等】
　　　　　　人工知能学会、情報処理学会、電子情報通信学会、日本ロボット学会、
　　　　　　計測自動制御学会、AAAI(American Association for Artificial Intelligence)、
　　　　　　IEEE(The Institute of Electrical and Electronics Engineerse,Inc.)
　　　　　　ACM(Association for Computing Machinery)

　　　【セミナーポイント】
　　　　　　　逆強化学習は統計を基盤とした機械学習と最適制御の学際領域を担う、近年発達著しい
　　　　　　研究領域である。強化学習が「成功」と「失敗」の繰り返しの経験から、ロボットに最適な動作を
　　　　　　自律獲得させる学習の仕組みであるのに対し、逆強化学習は、明文化が難しい熟練者の巧み
　　　　　　なスキルを機械に自律獲得させる、見まねを通じた学習の枠組みになっている。
　　　　　　　熟練者のうまみ＝「報酬」を、観察に基づき推定する枠組みとみなせるため、逆強化学習は、
　　　　　　強化学習の逆問題に相当するものである。そのため逆強化学習は模倣学習と呼ばれるほか、
　　　　　　逆最適制御とも呼ばれる。　
　　　　　　　本セミナーでは、逆強化学習の基盤となる数理的な問題設定の基本を説明するとともに、
　　　　　　講師の研究室での経験を踏まえ、初学者が陥りがちな課題を整理し、逆強化学習アルゴリズムの
　　　　　　実装方法やどのように適用するかに焦点をあて、説明を進めていく。その次に逆強化学習の応用
　　　　　　事例を幅広く紹介する予定である。特に強化学習の実応用で問題となる報酬関数の設計など、
　　　　　　明文化が難しいスキルの「コツ」といったものをモデル化することに適した技術であり、人行動の
　　　　　　モデル化を中心とした話題を提供したいと考えている。例えば状況に応じた運転経路・目的地予測、
　　　　　　人と人とのインタラクション行動の予測、運転の好みに応じた追い越し運転予測といった応用などを
　　　　　　紹介する予定である。最後に、逆強化学習が抱える課題を共有し、この分野の発展につながればと
　　　　　　考えている。

　　　【受講後、習得できること】
　　　　　　・逆強化学習の問題設定が理解できる。
　　　　　　・マルコフ決定過程・ベルマン方程式といった基礎が理解できる。
　　　　　　・例題を通じて逆強化学習の実装方法が理解できる。
　　　　　　・制御分野と機械学習の共通部分を理解できる。
　　　　　　・逆強化学習の事例を知るとともに応用範囲のイメージが理解できる。

　講義項目

　　1. 機械学習・制御における逆強化学習の位置づけ
　　　1.1　機械学習における位置づけ
　　　1.2　最適制御との接点
　　　1.3　逆強化学習の応用分野・従来の時系列データ解析との違い

　　2. 機械学習の基礎 (概要)
　　　2.1　識別的な機械学習の一般的な定式化
　　　2.2　正則化付き経験損失最小化
　　　2.3　典型的な識別問題(分類・回帰)の例
　　　2.4　逆強化学習における問題設定

　　3. 時系列データのモデリング : マルコフ決定過程と最適制御
　　　3.1　時系列データモデリング
　　　　3.1.1.　マルコフ過程・動的システム
　　　3.2　報酬と紐付く時系列データモデリング
　　　　3.2.1　マルコフ決定過程
　　　3.3　報酬関数最大化問題 : 最適制御・最適政策
　　　3.4　ベルマン方程式・価値反復法

　　4. 逆強化学習
　　　4.1　逆強化学習の定式化
　　　4.2　逆強化学習の損失関数の設計
　　　4.3　逆強化学習のパラメータ最適化

　　5. 逆強化学習の適用
　　　5.1　逆強化学習の実装
　　　5.2　研究事例から学ぶ逆強化学習の適用事例
　　　　5.2.1　マルコフ決定過程(状態空間・行動)の設計の実例
　　　　5.2.2　報酬関数設計の実例

　　6. 逆強化学習の最近の話題
　　　逆強化学習の高速化・高次元化・文脈の活用・
　　　マルチエージェント問題・深層学習との融合・落穂拾い

　　7. まとめ

下坂 正倫 氏

東京工業大学 情報理工学院 情報工学系 准教授 博士(情報理工学)

　下坂正倫　氏　

　　　　　　東京工業大学　情報理工学院　情報工学系　
　　　　　　准教授　博士(情報理工学)