State Space Models for Event Cameras (第61回CV勉強会＠関東発表資料)

第61回 CV勉強会@関東「CVPR2023読み会(前編)」 State Space Models for Event Cameras 2024/07/07 takmin

自己紹介 2 株式会社ビジョン＆ITラボ代表取締役皆川卓也（みながわたくや）博士（工学）「コンピュータビジョン勉強会＠関東」主催株式会社フューチャースタンダード
技術顧問略歴： 1999-2003年日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリセールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻単位取得退学後、博士号取得（2014年） 2009年-現在フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化） http://visitlab.jp

事業内容 1. Ｒ＆Ｄコンサルティング 2. 受託研究/開発 3. 開発マネジメント 4. 開発コンサルティング 5.
ビジネス化コンサルティング 3

IoT管理ミドルウェア：シナリオエンジン 4  ノーコードで人やモノなどを「動的に」管理するためのルールエンジン  「いつ」、「どこで」、「誰（何）が」、「何をした」かをトリガーに、サイネージやAR、Webサーバーなどのアクションを制御できる。  特許取得済み
アクション人：歩く人：歩く

AR探索アドベンチャー 5  スマホでイラスト、ランドマーク、ものなどを撮影すると、キャラクターやアイテムが現れてストーリーが進むアドベンチャーゲーム。 
アプリインストール不要  シナリオエンジンにより、ユーザの行動や天候、混雑具合によって動的なストーリー変更が可能拡張現実感(AR)

紹介する論文 7  State Space Models for Event Cameras 
Nikola Zubic, Mathias Gehrig, Davide Scaramuzza  Robotics and Perception Group, University of Zurich, Switzerland  イベントカメラを用いた物体検出等を行う従来手法は、学習測度の問題や、学習時と異なる周波数に対応できない問題を、状態空間モデル（SSM）を導入することで解決

イベントカメラ 8  輝度の変化のみ転送  非同期なイベントシーケンスを発生  低遅延、ブラー無し、High Dynamic Range

Related Work 9  Gehrig, M., & Scaramuzza, D. (2023).
Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出

Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出 𝒆𝑘 = (𝑥𝑘 , 𝑦𝑘 , 𝑡𝑘 , 𝑝𝑘 ) 画素の座標発生時刻変化方向（正/負） (2𝑇, 𝐻, 𝑊)とすることで、画像として処理

Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出空間内での Local Window Self-Attention 空間内での Dilated Attention

本手法 12  LSTMを状態空間モデル（State Space Model）に置き換える  RVT Block
→ SSM-ViT Block SSM-ViT Block

状態空間モデル（SSM）の利用 13 SSM利用のメリット：  既存手法と比べて、長い時系列データを扱える  学習が高速  学習時と推論時で異なる周波数を扱うことができる。 
今回、S4、S4D、S5というSSMを使用。  次のスライドから、S4、S4D、S5に至るSSMの進化を簡単に解説

HiPPO 14  Gu, A., Dao, T., Ermon, S., Rudra,
A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections. Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数（直交多項式の和）で近似することで、理論上無限長の系列を扱うことができる。

HiPPO 15  Gu, A., Dao, T., Ermon, S., Rudra,
A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections. Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数（直交多項式の和）で近似することで、理論上無限長の系列を扱うことができる。任意の関数𝑓(𝑡) からサンプリングした系列データ𝑓𝑖 系列データをN個の直交多項式へ投影 𝜇(𝑡𝑖): 測度（=データへの重み）基底関数（直交多項式）の係数𝑐(𝑡) 係数𝑐(𝑡)を逐次的に更新離散化 𝐴𝑘 はサンプリング間隔∆t に依存しない（学習時と推論時に異なる周波数に対応）

LSSL 16  Gu, A., Johnson, I., Goel, K., Saab,
K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化

K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力内部状態出力 HiPPO ሶ 𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡

K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力内部状態出力離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘

K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力内部状態出力離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘 離散化状態空間モデルを展開すると、畳み込み演算に変換できる (ഥ 𝐃𝑢𝑘 はSkip Connectionとみなして省略) 𝑦𝑘 = ҧ 𝐂(ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 ) ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝑥𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝟐𝑥𝑘−2 + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝒌ഥ 𝐁𝑢0 + ҧ 𝐂ഥ 𝐀𝒌−𝟏ഥ 𝐁𝑢1 + ⋯ + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦 = ഥ 𝑲 ∗ 𝒖 ഥ 𝑲 = ҧ 𝐂ഥ 𝐁, ҧ 𝐂ഥ 𝑨ഥ 𝐁, … , ҧ 𝐂ഥ 𝐀𝐿−1ഥ 𝐁 …

S4 20  Gu, A., Goel, K., & Ré, C.
(2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネルഥ 𝑲の計算を様々な数学的テクニッ��を用いて簡略化

S4 21  Gu, A., Goel, K., & Ré, C.
(2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化 Diagonal Plus Low-Rank 𝑨 = 𝚲 − 𝒑𝒒∗ 対角行列と低階級の和 ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 周波数領域で畳み込みカーネル 𝑲を生成周波数領域で 𝒖と𝑲を乗算（＝時間領域で畳み込み）入力信号𝒖をフーリエ変換出信号𝒚を逆フーリエ変換

S4D 22  Gu, A., Gupta, A., Goel, K., &
Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にしても、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、S4より簡易な手法を提案

S4D 23  Gu, A., Gupta, A., Goel, K., &
Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にしても、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、より簡易な手法を提案対角行列

S5 24  Smith, J. T. H., Warrington, A., &
Linderman, S. W. (2023). Simplified State Space Layers for Sequence Modeling. International Conference on Learning Representation (ICLR)  S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理  S4D同様DPLRの対角成分のみ使用  畳み込み処理の代わりに再帰処理を並列化（Parallel Scan）

本手法 25  LSTMを状態空間モデル（State Space Model）に置き換える  RVT Block
→ SSM-ViT Block SSM-ViT Block

Low-pass bandlimiting 26  学習時よりも高い周波数の信号に対し推定を行う場合、エイリアシングの問題が発生  以下の２つの対策を取る  Output
Masking:  畳み込みカーネル𝑲の周波数成分𝑓𝑛 を選択的にマスクする(𝛼 = 1の時、Nyquist limit)  𝐶𝑛 = ൝ 𝐶𝑛 if 𝑓𝑛 ≤ 𝛼 2 , 0 otherwise,  𝐇2 Norm  損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛 以上の周波数スペクトラムの和を加える

Experiments 27  以下の２つのイベントカメラデータセットに対して評価  Gen 1  https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive- detection-dataset/
 1 Mpx  https://www.prophesee.ai/2020/11/24/automotive-megapixel-event- based-dataset/  ベースモデル： ViT-SSM-B  軽量モデル： ViT-SSM-S  学習はTimeWindow Size 50ms (20Hz)、binの数は10で行った

Gen1/1 Mpxデータセットでの評価 28  Competitiveな性能を非常に速い推論速度で達成

異なる周波数での評価 29  周波数が上がるにつれ、他の手法が大幅に性能を落とすのに対し、本手法での劣化はわずか

SSMs: initialization & bandlimiting 30  SSMのモデルと初期化方法、周波数制限パラメータ毎の比較（初期化法の詳細はS4Dの論文参照）モデル名-初期化法

SSM Utilization Analysis 31  各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ性能に影響をしているかの評価

Evaluation at different frequencies 32

DSECデータセットでの評価 33  1 Mpxデータセットで学習したモデルでDSECデータセットを評価  結果動画  https://youtu.be/WRZZJn6Me9M?si=g5JBNIccSr5sL6-F&t=175

結論 34  イベントカメラの物体検出タスクに対して、Vision TransformerとState Space Modelを利用することで、高周波数帯で、従来法に比べて30 mAP以上高い精度と33% の学習速度の向上を達成した。
 SSM-ViTモデルは、学習時とは異なる周波数での推論に対しても、追加学習無しで適応可能。  更にOutput Maskingと𝐇2 Norm調整によって特に高周波で問題となるエイリアシングを抑えることができた。

State Space Models for Event Cameras (第61回CV勉強会＠関東発表資料)

State Space Models for Event Cameras (第61回CV勉強会＠関東発表資料)

Takuya MINAGAWA

More Decks by Takuya MINAGAWA

Other Decks in Technology

Featured

Transcript

第61回 CV勉強会@関東「CVPR2023読み会(前編)」 State Space Models for Event Cameras 2024/07/07 takmin

自己紹介 2 株式会社ビジョン＆ITラボ代表取締役皆川卓也（みながわたくや）博士（工学）「コンピュータビジョン勉強会＠関東」主催株式会社フューチャースタンダード

事業内容 1. Ｒ＆Ｄコンサルティング 2. 受託研究/開発 3. 開発マネジメント 4. 開発コンサルティング 5.

AR探索アドベンチャー 5  スマホでイラスト、ランドマーク、ものなどを撮影すると、キャラクターやアイテムが現れてストーリーが進むアドベンチャーゲーム。 

紹介する論文 7  State Space Models for Event Cameras 

イベントカメラ 8  輝度の変化のみ転送  非同期なイベントシーケンスを発生  低遅延、ブラー無し、High Dynamic Range

Related Work 9  Gehrig, M., & Scaramuzza, D. (2023).

Related Work 10  Gehrig, M., & Scaramuzza, D. (2023).

Related Work 11  Gehrig, M., & Scaramuzza, D. (2023).

本手法 12  LSTMを状態空間モデル（State Space Model）に置き換える  RVT Block

状態空間モデル（SSM）の利用 13 SSM利用のメリット：  既存手法と比べて、長い時系列データを扱える  学習が高速  学習時と推論時で異なる周波数を扱うことができる。 

HiPPO 14  Gu, A., Dao, T., Ermon, S., Rudra,

HiPPO 15  Gu, A., Dao, T., Ermon, S., Rudra,

LSSL 16  Gu, A., Johnson, I., Goel, K., Saab,

LSSL 17  Gu, A., Johnson, I., Goel, K., Saab,

LSSL 18  Gu, A., Johnson, I., Goel, K., Saab,

LSSL 19  Gu, A., Johnson, I., Goel, K., Saab,

S4 20  Gu, A., Goel, K., & Ré, C.

S4 21  Gu, A., Goel, K., & Ré, C.

S4D 22  Gu, A., Gupta, A., Goel, K., &

S4D 23  Gu, A., Gupta, A., Goel, K., &

S5 24  Smith, J. T. H., Warrington, A., &

本手法 25  LSTMを状態空間モデル（State Space Model）に置き換える  RVT Block

Low-pass bandlimiting 26  学習時よりも高い周波数の信号に対し推定を行う場合、エイリアシングの問題が発生  以下の２つの対策を取る  Output

Experiments 27  以下の２つのイベントカメラデータセットに対して評価  Gen 1  https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive- detection-dataset/

Gen1/1 Mpxデータセットでの評価 28  Competitiveな性能を非常に速い推論速度で達成

異なる周波数での評価 29  周波数が上がるにつれ、他の手法が大幅に性能を落とすのに対し、本手法での劣化はわずか

SSMs: initialization & bandlimiting 30  SSMのモデルと初期化方法、周波数制限パラメータ毎の比較（初期化法の詳細はS4Dの論文参照）モデル名-初期化法

SSM Utilization Analysis 31  各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ性能に影響をしているかの評価

Evaluation at different frequencies 32

DSECデータセットでの評価 33  1 Mpxデータセットで学習したモデルでDSECデータセットを評価  結果動画  https://youtu.be/WRZZJn6Me9M?si=g5JBNIccSr5sL6-F&t=175

結論 34  イベントカメラの物体検出タスクに対して、Vision TransformerとState Space Modelを利用することで、高周波数帯で、従来法に比べて30 mAP以上高い精度と33% の学習速度の向上を達成した。