Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルの論理構造の把握能力と予測モデルの生成

 大規模言語モデルの論理構造の把握能力と予測モデルの生成

2024年度人工知能学会全国大会(第38回)[1B3-GS-2]機械学習:生成モデル
https://confit.atlas.jp/guide/event/jsai2024/session/1B01-05/tables?YhsefOnFMJ

Toma Tanaka

July 02, 2024
Tweet

More Decks by Toma Tanaka

Other Decks in Science

Transcript

  1. 2024年度 人工知能学会全国大会 [1B3-GS-2]機械学習:生成モデル 大規模言語モデルの論理構造の把握能力と予測モデルの生成 Ability to understand the logical structure of

    Large Language Models and generate predictive model 田中 冬馬 江本 直史 弓林 司 The views expressed here are our own and do not necessarily reflect the views of BrainPad Inc. Any errors and inadequacies are our own.
  2. 4 ©BrainPad Inc. Strictly Confidential 背景 LLMとIn-Context Learning(ICL)  In-Context Learning(文脈内学習;ICL)はプロンプト内に与えられた例からモデルのパラメータを更新するこ 

    となくタスクを学習するLLMの能力  入力されたプロンプトのコンテキストに基づいて新しいタスクに適応できる能力,およびそれを実現する  ための学習方法[Brown20] • 本論文ではこの”能力”に焦点を当てている [Brown20]”Language Models are Few-Shot Learners” NeurIPS 2020,LLM:Large Language Model,大規模言語モデル LLM x1 x2 y 1  3  0 2  4  1 7  1  0 5  2  0 8  7  1 4  9   Prompt 1 Output
  3. 5 ©BrainPad Inc. Strictly Confidential 背景 In-Context Learningの課題 • In-Context

    LearningはLLMのある種の論理関係やパターンを把握する能力と考えることができる • In-Context Learningの”仕組み”や”能力の獲得条件”,”能力の可能性”については研究が進んでいる 一方,以下の点についてはこれまで取り組まれていない • In-Context Learningの際,LLMがプロンプト内の論理関係を定量的にどの程度把握しているか • 把握した論理関係を直接確認することができるか “LLMがデータからどの程度論理関係を把握し, その知識やルールを出力できるか”を明らかにすることを目指す
  4. 6 ©BrainPad Inc. Strictly Confidential 背景 本研究の主題と取り組み  主題 • LLMがデータからどの程度論理関係を把握し,その知識やルールを出力できるか

     アプローチ • データから予測モデルを生成するInductive-Bias Learning(IBL)という手法を用いる  本研究の取り組み • LLMがデータをもとに予測モデルを生成できるかの検証 • 様々なLLMで同様のことが実現できるか,また性能の差があるかについて検証 • 生成した予測モデルと機械学習モデルとの比較
  5. 7 ©BrainPad Inc. Strictly Confidential 背景 関連研究 In-Context Learning •

    ICLによる様々な関数の学習[Garg22] ◦ スパース線形関数,二層ニューラルネットワーク,決定木などの関数が学習可能であることを発見 LLMによるコード生成 • LLMによりPythonコードを生成させ道具として利用[Tianle23] ◦ 高精度高コストのLLMでコードを出力させ,低精度低コストのLLMに実行させることで実行コストを削減 記号回帰(Symbolic Regression) • Transformerモデルを利用した記号回帰によるScientific Discoverへの応用[Florian23] ◦ 本発表はLLMを用いてtext2textでの記号回帰を実現している [Garg22]”What Can Transformers Learn In-Context? A Case Study Function Classes” NeurIPS 2022 [Tianle23]”Large Language Models as Tool Makers” ICLR 2024 [Florian23]”A Transformer Model for Symbolic Regression towards Scientific Discovery” NeurIPS 2023 AI for Science Workshop
  6. 9 ©BrainPad Inc. Strictly Confidential 提案手法 In-Context Learningと提案手法(Inductive-Bias Learning)の比較 プロンプトに含まれる          の組み合わせ

    から,xに対するyの値そのものを出力する プロンプトに含まれる          の組み合わ せから,xとyの関係性を推定しPythonコードとして出力 LLM x1 x2 y 1 3 0 2 4 1 7 1 0 5 2 0 8 7 1 4 9   Prompt 1 def model(x1, x2):   if x1 > 4:     y = 1   else :     y = 0   return y LLM IBLのための指示 x1 x2 y 1 3 0 2 4 1 7 1 0 5 2 0 8 7 1 4 9 1 Prompt In-Context Learning(ICL) Inductive-Bias Learning(IBL) Output Output
  7. 10 ©BrainPad Inc. Strictly Confidential 提案手法 Inductive-Bias Learningについて Inductive-Bias Learning(IBL)

    • プロンプトにラベル付きデータセットを与え,データに対すラベルの予測を行うコードを生成する手法 • 論理構造を出力するため機械学習などを使わずにデータ間の関係性のみから予測を行うコードを出力 • text2textによる記号回帰(symbolic regression) ※Inductive-bias Learning(IBL)という名称は,ICLのオマージュであり,IBLによる予測モデル生成がモデルの帰納バイアス (モデルのアーキテクチャ)自体も合わせて決定しているように振る舞うことに由来 def model(x1, x2):   if x1 > 4:     y = 1   else :     y = 0   return y LLM IBLのための指示 x1 x2 y 1 3 0 2 4 1 7 1���0 5 2 0 8 7 1 4 9 1 Prompt Output
  8. 11 ©BrainPad Inc. Strictly Confidential 提案手法 Inductive-bias Learningのプロンプト IBLによる予測モデルの生成を行うためにプロンプトにいくつかの指示を記載 •

    与えられたデータセットをもとにラベルの予測を行うPythonコードを出力 • 機械学習モデルは使わずに,データから予測するためのロジックを出力 • 予測はラベルが1となる確率を出力 ◦ 本検証では二値分類に焦点を当てているため • Pythonコードの出力形式を指定 ーーーーーー {データセット} ※カラム名は含めない(カラム名の影響を受ける可能性があるため) ーーーーーー ※実際のプロンプトは全て英語で記載しています
  9. 13 ©BrainPad Inc. Strictly Confidential 実験設定 実験に用いた大規模言語モデルと機械学習モデル 大規模言語モデル(LLM) • IBLの検証をするための予測モデルの生成に使ったLLM(API経由で利用)

    • 検証に用いた大規模言語モデル ◦ gpt-4-0125-preview(以降ではGPT-4-Turboと記載) ◦ gpt-3.5-turbo-0125(以降ではGPT-3.5-Turboと記載) ◦ Gemini Pro 機械学習モデル • 代表的な機械学習モデルを用いて精度の比較を行う • 比較に用いた機械学習モデル ◦ ロジスティック回帰 ◦ SVM(Support Vector Machine) ◦ GBDT(Gradient Boosting Decision Tree)
  10. 14 ©BrainPad Inc. Strictly Confidential 実験設定 データセットとモデルの評価 データセット • 二値分類タスク

    • 以下の設定でデータセットを作成 ◦ Scikit-learnのmake_classificationメソッドを用いた擬似データ ◦ 4種類のseed値でデータセットを作成 ◦ 学習データ数:300,350,400,450,500 ▪ LLMに入力するデータ数が異なると生成される予測モデルも異なるため ◦ テストデータ数:1000 モデルの評価 • 比較には主にROC-AUCを用いた
  11. 16 ©BrainPad Inc. Strictly Confidential 実験結果 生成した予測モデルの比較 検証に用いたLLMでIBLによる予測モデルの生成を行うことができた 生成した予測モデルの性能 •

    ROC AUCのスコアの平均値が高いのGPT-4-Turbo (表1より) • 生成した予測モデルのROC AUCのばらつきが小さいのはGemini Pro (表2より) GPT-4-Turbo GPT-3.5-Turbo Gemini Pro Dataset 1 0.087 0.207 0.024 Dataset 2 0.062 0.310 0.018 Dataset 3 0.245 0.242 0.012 Dataset 4 0.078 0.272 0.011 GPT-4-Turbo GPT-3.5-Turbo Gemini Pro Dataset 1 0.870 0.689 0.840 Dataset 2 0.864 0.598 0.825 Dataset 3 0.665 0.751 0.847 Dataset 4 0.865 0.598 0.839 表1:データセットごとのROC AUCの平均 表2:データセットごとのROC AUCの標準偏差
  12. 17 ©BrainPad Inc. Strictly Confidential 実験結果 生成した予測モデルの比較 既存の機械学習モデルとの比較 • 機械学習モデルには劣るもののIBLによって生成した予測モデルでも高いROC

    AUCを達成した • 以前の研究で用いたGPT-4に比べGPT-4-Turboではさらに高いAUCを実現した GPT-4-Turbo GPT-3.5-Turbo Gemini Pro Logistic Regression SVM GBDT Dataset 1 0.992 0.877 0.860 0.999 1.00 0.996 Dataset 2 0.939 0.881 0.842 0.936 0.994 0.999 Dataset 3 0.924 0.952 0.862 0.999 1.00 0.986 Dataset 4 0.940 0.901 0.845 0.979 0.987 0.983 表3:LLMにより生成した予測モデルのROC AUCの最大値(同じデータセットでデータ数を変え 最大のAUCになったもの)と機械学習モデルの比較
  13. 18 ©BrainPad Inc. Strictly Confidential 実験結果 生成した予測モデル GPT-3.5-Turboにより生成した予測モデルの例 • 各評価指標

    ◦ ROC AUC:0.8932 ◦ PR AUC:0.8878 ◦ Accuracy:0.81 ◦ Recall:0.872 ◦ Precision:0.7758 • ロジスティック回帰のような式を生成
  14. 19 ©BrainPad Inc. Strictly Confidential 実験結果 生成した予測モデル GPT-4-Turboにより生成した予測モデルの例 • 各評価指標

    ◦ ROC AUC:0.9513 ◦ PR AUC:0.9368 ◦ Accuracy:0.814 ◦ Recall:0.998 ◦ Precision:0.7295 • GPT-3.5-Turboより高い精度のモデルを生成
  15. 21 ©BrainPad Inc. Strictly Confidential まとめ 本研究の結果 Inductive-Bias Learningという手法を提案 •

    LLMによりデータから予測モデルを生成する機械学習を使わない手法 • 論理構造を出力し,それを定量的に評価することができる LLMに依存しない • 特定のLLMだけでなく様々なLLMで利用することができる 既存の機械学習との比較 • 既存の機械学習モデルに及ばない • LLMの性能向上とともにIBLによる予測モデルの性能も向上していた ◦ データから論理構造,パターン認識を行う精度が向上
  16. 22 ©BrainPad Inc. Strictly Confidential まとめ 研究の限界 タスクの汎用性 • 本研究では二値分類タスクにのみ焦点を当てており,マルチクラス分類や回帰などのタスクで上手

    くいくかは不明 大規模なデータセットでの検証 • 今回の検証は小規模データセット(データ数,カラム数がともに小さい)での検証であり,より大規模 なデータセットでIBLが上手くいくかは分かっていない LLMのAPI経由での利用 • 利用しているLLMがAPI経由でありブラックボックスである
  17. 23 ©BrainPad Inc. Strictly Confidential まとめ 今後の展望 タスクの汎用性 • 二値分類だけでなくマルチクラス分類や回帰などのタスクでの検証

    • LLMを活用したビジネス的な観点での価値の創出(モデルの解釈性など) 記号回帰(Symbolic Regression)のパラダイムシフト • 本研究はLLMを使うことによる記号回帰(関数同定問題)を実現している • 従来の記号回帰では基本的な要��の部分集合を与えるがIBLでは何も与えない.代わりにLLMの事前 学習の知識を使うことにより実現できていると考えている 「AIによるAIの生成」 • IBLは広義の意味でのAIによるAIの生成を実現 • 複雑なパターン認識を行うモデルの作成も,いずれはモデル自体が実行する