☆☆☆Web配信セミナー☆☆☆

『逆強化学習・模倣学習の基礎と応用』

S220929AW1

　☆☆☆本セミナーは、Zoomを使用して、行います。☆☆☆

開催日時：2022年11月22日（火）10:00-16:00
受講料：お1人様受講の場合　51,700円[税込]／1名
　　　　　1口でお申込の場合　62,700円[税込]／1口（3名まで受講可能）

　★本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、
　お申込み前にZoomのテストミーティング（http://zoom.us/test）にアクセスできることをご確認下さい。

　★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。
　講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

　★受講中の録音・撮影等は固くお断りいたします。

　　

　講　師

　下坂正倫（しもさかまさみち）　氏　

　　　東京工業大学　情報理工学院　情報工学系　准教授（博士（情報理工学））

＜略歴＞	2001年　東京大学工学部機械情報工学科卒業　2006年　東京大学大学院　情報理工学系研究科　知能機械情報学専攻博士課程修了　2006年～2007年　東京大学大学院　情報理工学系研究科助手　2007年～2011年　東京大学大学院　情報理工学系研究科助教　2011年～2015年　東京大学大学院　情報理工学系研究科講師　2015年　東京工業大学　情報理工学(系)研究科　准教授　2016年　東京工業大学　情報理工学院　准教授　　現在に至る

　　講義項目

　1　逆強化学習の位置づけ・機械学習の基礎
　　1.1　逆強化学習と機械学習・最適制御の関係
　　　＊強化学習は制御と関連が強い
　　　＊逆強化学習と強化学習（最適制御）と何が違う？
　　1.2　機械学習の基礎のおさらい
　　　＊生成的　/　識別的
　　　＊経験リスク最小化
　　　＊様々な損失
　　　＊2クラス分類　/　他クラス分類　/　系列ラベル分類
　　　…構造的なデータに対しても「識別」は定義できる　⇒　逆強化学習ではどうやって解く？

　2　逆強化学習の定式化・解法
　　2.1　強化学習の基礎：マルコフ決定過程、ベルマン方程式
　　　＊動的システム
　　　＊マルコフ性
　　　＊マルコフ決定過程　/　報酬関数
　　　＊価値関数　/　ベルマン方程式
　　2.2　逆強化学習の定式化とアルゴリズム
　　　＊報酬期待値の最大化
　　　＊損失関数の設定
　　　＊最大エントロピー逆強化学習
　　　＊周辺分布の獲得前向き・後ろ向き計算
　　2.3　逆強化学習を適用しようとすると起きる問題は？？　

　3　逆強化学習の適用例・最近の事例
　　3.1　適用事例
　　3.2　連続・高次元化に向けた方向性
　　3.3　深層学習との融合
　　3.4　確率的最適制御への展開

『逆強化学習・模倣学習の基礎と応用』

S220929AW1

下坂正倫（しもさかまさみち） 氏

東京工業大学 情報理工学院 情報工学系 准教授（博士（情報理工学））

　下坂正倫（しもさかまさみち）　氏　

　　　東京工業大学　情報理工学院　情報工学系　准教授（博士（情報理工学））