第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」

© GO Inc. 第61回コンピュータビジョン勉強会＠関東（前編） CVPR2024読み会 BioCLIP: A Vision Foundation
Model for the Tree of Life GO株式会社鈴木達哉 1

© GO Inc. 自己紹介鈴木達哉 GO株式会社 AI技術開発部 AI研究開発第二グループ Data-Centric AI
Community運営「データ」に着目した勉強会を1, 2ヶ月毎に開催中発表いただける方随時募集中です！ @x_ttyszk 2

© GO Inc. • 論文：CVPR 2024 open access • コード：https://github.com/Imageomics/BioCLIP
• プロジェクトページ：https://imageomics.github.io/bioclip/ • モデル：https://huggingface.co/imageomics/bioclip • 概要： ◦ 生物学分野特化のマルチモーダル基盤モデルの提案 ◦ 大規模学習データセットを作成 ◦ 生物分類学の階層構造を学習し未学習の種へも一般化 • Best Student Paper どんな論文？ 3

© GO Inc. 4 imageomics/bioclip · Hugging Faceで試せますこういうことができるモデルの話この写真はアジサイ科？シレンゲ科？ミズキ科？
この写真は犬？オオカミ？狐？猫？この例はかなり簡単だけど、相当珍しい生物を入れても対応してくれる

© GO Inc. 5 生物は似た特徴を持つものをグルーピングし、種・属・科などの階層構造で整理されている。生物分類学の階層構造？生物の分類 - Wikipedia より
生物以外でもこういった階層構造を持つ領域には適用できるだろう研究

© GO Inc. 6 • 写真から生物の種類が分かると自然界の研究に役立つが、種類は合計200万種と膨大 • 従来の最大規模の生物データセットiNat21でも1万種類だけしかない • 一般的な学習法では近い種でも独立して扱われてしまい、未学習の種をうまく扱えない
課題 iNaturalist - Google Play のアプリ応用例。生物を撮影し記録できる。画像認識によるサジェスト機能もあり。

© GO Inc. 7 ImageNetも階層的なラベル付けがされている。 Bilalら[10]はImageNetの誤検出が階層構造に関係していることを発見し、階層構造を利用したアーキテクチャにより精度を改善した。関連研究：クラスの階層構造を扱ったコンピュータビジョン [10] Alsallakh
Bilal, Amin Jourabloo, Mao Ye, Xiaoming Liu, and Liu Ren. Do convolutional neural networks learn class hierarchy? IEEE Transactions on Visualization and Computer Graphics, 24(1):152–162, 2018. [10]より、ImageNetの階層ごとに並べた混同行列グループ内で間違えやすい

© GO Inc. 8 Bertinettoら[9]は階層構造を使った損失関数を提案した。 Top-1の精度を妥協し、別のグループとの間違いを減らした。関連研究：クラスの階層構造を扱ったコンピュータビジョン [9] Luca Bertinetto,
Romain Mueller, Konstantinos Tertikas, Sina Samangooei, and Nicholas A Lord. Making better mistakes: Leveraging class hierarchies with deep networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12506–12515, 2020. [9]より。ImageNetのTop-1は年々改善しているが、誤分類時の階層的な遠さは改善できていないことを示す図 [9]より２つのデータセットに対する手法比較。 Top-1 errorと間違いの階層的距離のトレードオフの図グループ外と間違えて欲しくない話

© GO Inc. 9 Zhangら[96]は階層的距離を使ったContrastive Lossを提案した。 ImageNetとiNat17でクロスエントロピーによるモデルを上回った。関連研究：クラスの階層構造を扱ったコンピュータビジョン [96] Shu
Zhang, Ran Xu, Caiming Xiong, and Chetan Ramaiah. Use all the labels: A hierarchical multi-label contrastive learning framework. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 16660–16669, 2022. [96]より。階層的距離を使った学習のイメージ図。

© GO Inc. 10 • CLIPモデルの訓練にはデータの質と多様性が重要[24, 26, 57] • Encyclopedia
of Lifeプロジェクトから44万種類・660万枚の画像を入手 • iNat21の1万種類・270万枚の画像や昆虫のデータセットBIOSCAN-1Mも利用 TreeOfLife-10Mデータセット Encyclopedia of Lifeプロジェクト TreeOfLife-10Mに含まれる生物の種類 [24] Alex Fang, Gabriel Ilharco, Mitchell Wortsman, Yuhao Wan, Vaishaal Shankar, Achal Dave, and Ludwig Schmidt. Data determines distributional robustness in contrastive language image pre-training (CLIP). In International Conference on Machine Learning, pages 6216–6234, 2022. [26] Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, et al. DataComp: In search of the next generation of multimodal datasets. arXiv preprint arXiv:2304.14108, 2023. [57] Thao Nguyen, Gabriel Ilharco, Mitchell Wortsman, Sewoong Oh, and Ludwig Schmidt. Quality not quantity: On the interaction between dataset design and robustness of CLIP. In Advances in Neural Information Processing Systems, pages 21455–21469, 2022.

© GO Inc. 11 • 複数のデータセットに統一的な生物の名前のラベルをつける難しい作業を実施 • ITISなど複数の情報源を優先順位を付けて利用 • 84％のデータに完全なラベリング
• Hugging Faceで公開 imageomics/TreeOfLife-10M · Datasets at Hugging Face TreeOfLife-10Mデータセット表：3つのデータセットから構成 1000万枚！45万クラス！丁寧なラベル付けによる高品質なデータ作りがポイント

© GO Inc. 12 生物の名前は複数ある。推論時に柔軟に扱えるように分類学名以外も利用する。 Taxonomic name 分類学名界〜種の7種類が標準的。本研究では単一の文字列に連結して扱う。例：Animalia
Chordata Aves Passeriformes Corvidae Pica hudsonia Scientiﬁc name 学名属と種から構成された名称。ラテン語。例：Pica hudsonia Common name 一般名日常的な名称。言語によって変わる。分類学名と一対一とは限らない。例：Black-billed magpie 　　（日本語ではアメリカカササギ）生物名称の種類 5種類のテキストを学習に利用 Black-billed magpie - Wikipedia

© GO Inc. 13 分類学名など生物の名称のテキストと画像の埋め込みが近づくようにCLIPを学習する。 ResNetやSwin Transformerは各ラベルを独立して扱う。提案手法は階層情報を捉えられると期待できる。提案手法：生物分類学の階層構造を学習モデルとして特別なことはしていない
入力するデータ（テキスト）を工夫

© GO Inc. 20 ラベル付き画像の学習にCLIPを使うことは直感的ではないので非CLPモデルと比較した。非CLIPモデルはZero-ShotはできないためOne-Shot, Five-Shotで比較した。階層的クロスエントロピー[11]はクロスエントロピーよりも高精度だがCLIPよりは低かった。実験：CLIPが必要かどうか [11]
Kim Bjerge, Quentin Geissmann, Jamie Alison, Hjalte MR Mann, Toke T Høye, Mads Dyrmann, and Henrik Karstoft. Hierarchical classification of insects with multitask learning and anomaly detection. Ecological Informatics, 77:102278, 2023. 表：学習方法による比較

© GO Inc. 21 学習していない画像の埋め込みをt-SNEを用いて可視化し、分類学的ラベルで色分けした。 BioCLIPはCLIPよりも明確に階層構造ごとに分離できていた。実験：BioCLIPは階層構造を学習できている？図：t-SNEによる可視化。(B) BioCLIP, (O)
OpenAI’s CLIP BioCLIP CLIP Animalia（動物界） -> Arthropoda（節足動物門） -> Insecta（昆虫網）境界がぼやっとしている境界が明確

© GO Inc. 22 学習していない画像の埋め込みをt-SNEを用いて可視化し、分類学的ラベルで色分けした。 BioCLIPはCLIPよりも明確に階層構造ごとに分離できていた。実験：BioCLIPは階層構造を学習できている？図：t-SNEによる可視化。(B) BioCLIP, (O)
OpenAI’s CLIP BioCLIP CLIP Lepidoptera（チョウ目） -> Nymphalidae（タテハチョウ科） -> Junonia（タテハモドキ属）境界がぼやっとしている境界が明確

© GO Inc. 23 • 膨大な種類を含む生物学のデータセットTreeOfLife-10Mを作成 • 分類学名をCLIPで学習させることで階層構造を学習できる • 生物の種類をZero-shot,
Few-shotで高精度に分類できるまとめ

第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」

第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」

Tatsuya Suzuki

More Decks by Tatsuya Suzuki

Other Decks in Science

Featured

Transcript

© GO Inc. 第61回コンピュータビジョン勉強会＠関東（前編） CVPR2024読み会 BioCLIP: A Vision Foundation

© GO Inc. 自己紹介鈴木達哉 GO株式会社 AI技術開発部 AI研究開発第二グループ Data-Centric AI

© GO Inc. • 論文：CVPR 2024 open access • コード：https://github.com/Imageomics/BioCLIP

© GO Inc. 4 imageomics/bioclip · Hugging Faceで試せますこういうことができるモデルの話この写真はアジサイ科？シレンゲ科？ミズキ科？

© GO Inc. 5 生物は似た特徴を持つものをグルーピングし、種・属・科などの階層構造で整理されている。生物分類学の階層構造？生物の分類 - Wikipedia より

© GO Inc. 8 Bertinettoら[9]は階層構造を使った損失関数を提案した。 Top-1の精度を妥協し、別のグループとの間違いを減らした。関連研究：クラスの階層構造を扱ったコンピュータビジョン [9] Luca Bertinetto,

© GO Inc. 9 Zhangら[96]は階層的距離を使ったContrastive Lossを提案した。 ImageNetとiNat17でクロスエントロピーによるモデルを上回った。関連研究：クラスの階層構造を扱ったコンピュータビジョン [96] Shu

© GO Inc. 10 • CLIPモデルの訓練にはデータの質と多様性が重要[24, 26, 57] • Encyclopedia

© GO Inc. 11 • 複数のデータセットに統一的な生物の名前のラベルをつける難しい作業を実施 • ITISなど複数の情報源を優先順位を付けて利用 • 84％のデータに完全なラベリング

© GO Inc. 12 生物の名前は複数ある。推論時に柔軟に扱えるように分類学名以外も利用する。 Taxonomic name 分類学名界〜種の7種類が標準的。本研究では単一の文字列に連結して扱う。例：Animalia

© GO Inc. 14 • BioCLIPと通常のCLIPやvision-onlyモデルを比較 • 10種類のテストデータを用意実験：提案手法の効果動物

© GO Inc. 15 Zero-Shot・One-Shot・Five-Shotどれも平均を見るとBioCLIPが高精度だった。実験：提案手法の効果結果

© GO Inc. 16 iNat21のみよりTreeOfLifeを使った方が高精度となった。特にZero-Shotで差が大きい。より多様なデータを使うことに意味があった。実験：データセットによる差

© GO Inc. 17 特に希少種に対してBioCLIPは高精度に認識できた。 TreeOfLife-10Mから30枚の画像がある400種を削除しテストデータとして使用している。実験：希少種の認識結果

© GO Inc. 18 植物の病気の診断データセットに対して、特にZero-Shotの際に高精度だった。生物の種類を学習しているが、それ以外のタスクにも利用できる特徴を捉えている。実験：種類以外の認識結果

© GO Inc. 23 • 膨大な種類を含む生物学のデータセットTreeOfLife-10Mを作成 • 分類学名をCLIPで学習させることで階層構造を学習できる • 生物の種類をZero-shot,

文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。 © GO Inc. 24