☆☆☆Web配信セミナー☆☆☆

『逆強化学習・模倣学習の基礎と応用』

S211223AW

　☆☆☆本セミナーは、Zoomを使用して、行います。☆☆☆

開催日時：2021年12月23日（木）10:30-16:30
受講料：お1人様受講の場合　51,700円[税込]／1名
　　　　　1口でお申込の場合　62,700円[税込]／1口（3名まで受講可能）

　★本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、
　お申込み前にZoomのテストミーティング（http://zoom.us/test）にアクセスできることをご確認下さい。

　★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。
　講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

　★受講中の録音・撮影等は固くお断りいたします。

　　

　講　師

　下坂正倫（しもさかまさみち）　氏　

　　　東京工業大学　情報理工学院　情報工学系　准教授（博士（情報理工学））

＜略歴＞	2001年　東京大学工学部機械情報工学科卒業　2006年　東京大学大学院　情報理工学系研究科　知能機械情報学専攻博士課程修了　2006年～2007年　東京大学大学院　情報理工学系研究科助手　2007年～2011年　東京大学大学院　情報理工学系研究科助教　2011年～2015年　東京大学大学院　情報理工学系研究科講師　2015年　東京工業大学　情報理工学(系)研究科　准教授　2016年　東京工業大学　情報理工学院　准教授　　現在に至る

　　講義項目

　1　機械学習・制御における逆強化学習の位置づけ
　　1.1　機械学習における位置づけ
　　1.2　最適制御との接点
　　1.3　逆強化学習の応用分野・従来の時系列データ解析との違い

　2　機械学習の基礎（概要）
　　2.1　識別的な機械学習の一般的な定式化
　　2.2　正則化付き経験損失最小化
　　2.3　典型的な識別問題（分類・回帰）の例
　　2.4　逆強化学習における問題設定

　3　時系列データのモデリング：マルコフ決定過程と最適制御
　　3.1　時系列データモデリング
　　　3.1.1　マルコフ過程・動的システム
　　3.2　報酬と紐付く時系列データモデリング
　　　3.2.1　マルコフ決定過程
　　3.3　報酬関数最大化問題：最適制御・最適政策
　　3.4　ベルマン方程式・価値反復法

　4　逆強化学習
　　4.1　逆強化学習の定式化
　　4.2　逆強化学習の損失関数の設計
　　4.3　逆強化学習のパラメータ最適化

　5　逆強化学習の適用
　　5.1　逆強化学習の実装
　　5.2　研究事例から学ぶ逆強化学習の適用事例
　　　5.2.1　マルコフ決定過程（状態空間・行動）の設計の実例
　　　5.2.2　報酬関数設計の実例

　6　逆強化学習の最近の話題
　　6.1　逆強化学習の高速化・高次元化・文脈の活用・
　　6.2　マルチエージェント問題・深層学習との融合・落穂拾い

　7　まとめ

『逆強化学習・模倣学習の基礎と応用』

S211223AW

下坂正倫（しもさかまさみち） 氏

東京工業大学 情報理工学院 情報工学系 准教授（博士（情報理工学））

　下坂正倫（しもさかまさみち）　氏　

　　　東京工業大学　情報理工学院　情報工学系　准教授（博士（情報理工学））