Upgrade to Pro — share decks privately, control downloads, hide ads and more …

State Space Models for Event Cameras (第61回CV勉強会@関東発表資料)

State Space Models for Event Cameras (第61回CV勉強会@関東発表資料)

第61回コンピュータビジョン勉強会@関東「CVPR2024読み会(前編)」発表資料です。
https://kantocv.connpass.com/event/321174/

Takuya MINAGAWA

July 07, 2024
Tweet

More Decks by Takuya MINAGAWA

Other Decks in Technology

Transcript

  1. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 博士(工学) 「コンピュータビジョン勉強会@関東」主催 株式会社フューチャースタンダード

    技術顧問 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp
  2. AR探索アドベンチャー 5  スマホでイラスト、ランド マーク、ものなどを撮影 すると、キャラクターやア イテムが現れてストー リーが進むアドベン チャーゲーム。 

    アプリインストール不要  シナリオエンジンにより、 ユーザの行動や天候、混 雑具合によって動的なス トーリー変更が可能 拡張現実感(AR)
  3. 紹介する論文 7  State Space Models for Event Cameras 

    Nikola Zubic, Mathias Gehrig, Davide Scaramuzza  Robotics and Perception Group, University of Zurich, Switzerland  イベントカメラを用いた物体検出等を行う従来手法は、学習測度の 問題や、学習時と異なる周波数に対応できない問題を、状態空間 モデル(SSM)を導入することで解決
  4. Related Work 9  Gehrig, M., & Scaramuzza, D. (2023).

    Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出
  5. Related Work 10  Gehrig, M., & Scaramuzza, D. (2023).

    Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出 𝒆𝑘 = (𝑥𝑘 , 𝑦𝑘 , 𝑡𝑘 , 𝑝𝑘 ) 画素の 座標 発生 時刻 変化方向 (正/負) (2𝑇, 𝐻, 𝑊)とすることで、 画像として処理
  6. Related Work 11  Gehrig, M., & Scaramuzza, D. (2023).

    Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出 空間内での Local Window Self-Attention 空間内での Dilated Attention
  7. HiPPO 14  Gu, A., Dao, T., Ermon, S., Rudra,

    A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections. Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数(直交多項式の和)で近似することで、理論上無限長の 系列を扱うことができる。
  8. HiPPO 15  Gu, A., Dao, T., Ermon, S., Rudra,

    A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections. Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数(直交多項式の和)で近似することで、理論上無限長の 系列を扱うことができる。 任意の関数𝑓(𝑡) からサンプリングし た系列データ𝑓𝑖 系列データをN個の 直交多項式へ投影 𝜇(𝑡𝑖): 測度(=データへの重み) 基底関数(直交多項 式)の係数𝑐(𝑡) 係数𝑐(𝑡)を逐次的に更新 離散化 𝐴𝑘 はサンプリング間隔∆t に依存しない(学習時と推 論時に異なる周波数に対 応)
  9. LSSL 16  Gu, A., Johnson, I., Goel, K., Saab,

    K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化
  10. LSSL 17  Gu, A., Johnson, I., Goel, K., Saab,

    K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 HiPPO ሶ 𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡
  11. LSSL 18  Gu, A., Johnson, I., Goel, K., Saab,

    K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘
  12. LSSL 19  Gu, A., Johnson, I., Goel, K., Saab,

    K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘 離散化状態空間モデルを展開すると、畳み込み演算 に変換できる (ഥ 𝐃𝑢𝑘 はSkip Connectionとみなして省略) 𝑦𝑘 = ҧ 𝐂(ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 ) ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝑥𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝟐𝑥𝑘−2 + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝒌ഥ 𝐁𝑢0 + ҧ 𝐂ഥ 𝐀𝒌−𝟏ഥ 𝐁𝑢1 + ⋯ + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦 = ഥ 𝑲 ∗ 𝒖 ഥ 𝑲 = ҧ 𝐂ഥ 𝐁, ҧ 𝐂ഥ 𝑨ഥ 𝐁, … , ҧ 𝐂ഥ 𝐀𝐿−1ഥ 𝐁 …
  13. S4 20  Gu, A., Goel, K., & Ré, C.

    (2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネルഥ 𝑲の計算を様々な数学的テクニッ���を用いて簡 略化
  14. S4 21  Gu, A., Goel, K., & Ré, C.

    (2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化 Diagonal Plus Low-Rank 𝑨 = 𝚲 − 𝒑𝒒∗ 対角行列と低階級の和 ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 周波数領域で畳 み込みカーネル 𝑲を生成 周波数領域で 𝒖と𝑲を乗算 (=時間領域で 畳み込み) 入力信号𝒖を フーリエ変換 出信号𝒚を逆 フーリエ変換
  15. S4D 22  Gu, A., Gupta, A., Goel, K., &

    Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして も、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、S4より簡易な手法を提案
  16. S4D 23  Gu, A., Gupta, A., Goel, K., &

    Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして も、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、より簡易な手法を提案 対角行列
  17. S5 24  Smith, J. T. H., Warrington, A., &

    Linderman, S. W. (2023). Simplified State Space Layers for Sequence Modeling. International Conference on Learning Representation (ICLR)  S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理  S4D同様DPLRの対角成分のみ使用  畳み込み処理の代わりに再帰処理を並列化(Parallel Scan)
  18. Low-pass bandlimiting 26  学習時よりも高い周波数の信号に対し推定を行う場合、 エイリアシングの問題が発生  以下の2つの対策を取る  Output

    Masking:  畳み込みカーネル𝑲の周波数成分𝑓𝑛 を選択的にマスクする(𝛼 = 1の 時、Nyquist limit)  𝐶𝑛 = ൝ 𝐶𝑛 if 𝑓𝑛 ≤ 𝛼 2 , 0 otherwise,  𝐇2 Norm  損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛 以上の周波数スペクトラム の和を加える
  19. Experiments 27  以下の2つのイベントカメラデータセットに対して評価  Gen 1  https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive- detection-dataset/

     1 Mpx  https://www.prophesee.ai/2020/11/24/automotive-megapixel-event- based-dataset/  ベースモデル: ViT-SSM-B  軽量モデル: ViT-SSM-S  学習はTimeWindow Size 50ms (20Hz)、binの数は10で 行った
  20. 結論 34  イベントカメラの物体検出タスクに対して、Vision TransformerとState Space Modelを利用することで、高周 波数帯で、従来法に比べて30 mAP以上高い精度と33% の学習速度の向上を達成した。

     SSM-ViTモデルは、学習時とは異なる周波数での推論に 対しても、追加学習無しで適応可能。  更にOutput Maskingと𝐇2 Norm調整によって特に高周 波で問題となるエイリアシングを抑えることができた。