セミナー　Zoom　Web配信　Vision Transformer　ViT　自己注意機構　BEV Perception ニューラルネットワーク　Transformer　SoTA　CNN　特徴表現獲得　ロバストな認識　コンピュータビジョン　再帰型ニューラルネットワーク　RNN　LSTM　Seq2seq　Attention Seq2seq　大規模言語モデル　画像認識　Swin Transformer　ConvNeXt　物体検出セマンティックセグメンテーション自動運転 Bird’s-Eye-View BEVFormer BeVers UniADe　中部大学　藤吉弘亘

S240718AW1

　☆☆☆本セミナーは、Zoomを使用して、行います。☆☆☆

開催日時：2024年7月18日（木）10:00-16:00
受講料：お1人様受講の場合　53,900円[税込]／1名
　　　　　1口でお申込の場合　66,000円[税込]／1口（3名まで受講可能）

　★本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、
　お申込み前にZoomのテストミーティング（http://zoom.us/test）にアクセスできることをご確認下さい。

　★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。
　講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

　★受講中の録音・撮影等は固くお断りいたします。

講　師

　　　中部大学　工学部　情報科学科　/　大学院工学研究科情報工学専攻　教授（博士（工学））

＜略歴＞	1997年　中部大学大学院博士後期課程了　1997～2000年　米国カーネギーメロン大学ロボット工学研究所　Postdoctoral Fellow 　2000年　中部大学　講師　2004年　中部大学　准教授　2005～2006年　米国カーネギーメロン大学　ロボット工学研究所　客員研究員　2010年　中部大学　教授　2014年　名古屋大学　客員教授　　現在に至る
＜学会＞	電子情報通信学会、情報処理学会、ロボット学会、IEEE
＜主な受賞＞	ロボカップ研究賞（2005年）　情報処理学会論文誌CVIM優秀論文賞（2009年）　情報処理学会山下記念研究賞（2009年）　画像センシングシンポジウム優秀学術賞（2010, 2013, 2014年）　電子情報通信学会情報・システムソサイエティ論文賞（2013年）
＜研究＞	計算機視覚、動画像処理、パターン認識・理解の研究に従事

　自己注意機構を活用したニューラルネットワークであるTransformerは、機械翻訳タスクでSoTAを達成し実用化を加速させている。このTransformerをコンピュータビジョンタスクに適用したモデルがVision Transformerであり、2019年以降、急速に応用と改良が加えられている。Vision Transformerは、CNNとは異なる新たな特徴表現獲得が可能となり、テクスチャノイズに対してロバストな認識が可能となっている。
　本セミナーではVision Transformerについて従来の手法と対比しながらその仕組みと特長について解説し、コンピュータビジョン応用として物体検出、セマンティックセグメンテーション、自己教師あり学習について紹介する。また、自動運転技術に欠かせないTransformerベースのBEV Perceptionの最前線についても紹介する。

　3　Vision Transformerの仕組み

　　3.1　特徴表現獲得の変遷
　　3.2　VIsion Transformer（ViT)
　　3.3　ViTによる画像認識
　　3.4　ViTによる特徴表現獲得
　　3.5　ViTベースの物体検出、セマンティックセグメンテーション
　　3.6　ViTの自己教師あり学習

『Vision Transformerの仕組み』

～物体検出、自己教師あり学習、BEV Perception等の
　コンピュータビジョン最前線～

S240718AW1

藤吉弘亘（ふじよしひろのぶ）　氏

中部大学　工学部　情報科学科　/　大学院工学研究科情報工学専攻　教授（博士（工学））

1　再帰型ニューラルネットワークの仕組み

1.1　再帰型ニューラルネットワーク（RNN）
　　1.2　LSTM
　　1.3　Seq2seq、Attention Seq2seq

2　Transformerの仕組み

2.1　Transformer
　　2.2　大規模言語モデル

3　Vision Transformerの仕組み

3.1　特徴表現獲得の変遷
　　3.2　VIsion Transformer（ViT)
　　3.3　ViTによる画像認識
　　3.4　ViTによる特徴表現獲得
　　3.5　ViTベースの物体検出、セマンティックセグメンテーション
　　3.6　ViTの自己教師あり学習

4　ViTの最新動向

4.1　ViTの派生手法（Swin Transformer、ConvNeXtなど）
　　4.2　ViTの派生手法の傾向

5　TransformerによるBEV Perception

5.1　Bird’s-Eye-View（BEV）空間
　　5.2　BEVベースの3D物体検出：BEVFormer, BeVerse
　　5.3　BEVベースの自動運転：UniAD

『Vision Transformerの仕組み』

～物体検出、自己教師あり学習、BEV Perception等の コンピュータビジョン最前線～

S240718AW1

藤吉弘亘（ふじよしひろのぶ） 氏

中部大学 工学部 情報科学科 / 大学院 工学研究科 情報工学専攻 教授（博士（工学））

1 再帰型ニューラルネットワークの仕組み

1.1 再帰型ニューラルネットワーク（RNN） 1.2 LSTM 1.3 Seq2seq、Attention Seq2seq

2 Transformerの仕組み

2.1 Transformer 2.2 大規模言語モデル

3 Vision Transformerの仕組み

3.1 特徴表現獲得の変遷 3.2 VIsion Transformer（ViT) 3.3 ViTによる画像認識 3.4 ViTによる特徴表現獲得 3.5 ViTベースの物体検出、セマンティックセグメンテーション 3.6 ViTの自己教師あり学習

4 ViTの最新動向

4.1 ViTの派生手法（Swin Transformer、ConvNeXtなど） 4.2 ViTの派生手法の傾向

5 TransformerによるBEV Perception

5.1 Bird’s-Eye-View（BEV）空間 5.2 BEVベースの3D物体検出：BEVFormer, BeVerse 5.3 BEVベースの自動運転：UniAD

『Vision Transformerの仕組み』　

～物体検出、自己教師あり学習、BEV Perception等の
　コンピュータビジョン最前線～

　藤吉弘亘（ふじよしひろのぶ）　氏　

　　　中部大学　工学部　情報科学科　/　大学院工学研究科情報工学専攻　教授（博士（工学））

　1　再帰型ニューラルネットワークの仕組み

　　1.1　再帰型ニューラルネットワーク（RNN）
　　1.2　LSTM
　　1.3　Seq2seq、Attention Seq2seq

　2　Transformerの仕組み

　　2.1　Transformer
　　2.2　大規模言語モデル

　3　Vision Transformerの仕組み

　　3.1　特徴表現獲得の変遷
　　3.2　VIsion Transformer（ViT)
　　3.3　ViTによる画像認識
　　3.4　ViTによる特徴表現獲得
　　3.5　ViTベースの物体検出、セマンティックセグメンテーション
　　3.6　ViTの自己教師あり学習

　4　ViTの最新動向

　　4.1　ViTの派生手法（Swin Transformer、ConvNeXtなど）
　　4.2　ViTの派生手法の傾向

　5　TransformerによるBEV Perception

　　5.1　Bird’s-Eye-View（BEV）空間
　　5.2　BEVベースの3D物体検出：BEVFormer, BeVerse
　　5.3　BEVベースの自動運転：UniAD