Weekly AI Agents News!

Weekly AI Agents News @ottamm_190

はじめに • LLMエージェントに関するニュースや論⽂をほぼ毎週更新しています。 • 論⽂、プロダクトの順番でまとめています。 • 個⼈の備忘録で取り組んでおり、誤りがある場合もあります。 • ⽂字サイズ16ptで⼩さいのでPCで⾒ることをおすすめします。 •
SpeakerDeckに過去の4⽉分、5⽉分、6⽉分の資料を分けて公開しています。 • 7⽉から隔週で更新します。

宣伝 • オフラインイベントでAIエージェントの話をします！ 7/18(⽊) 18時30分からです。 connpassで募集しています。興味ある⽅、現地で交流しましょう！

7⽉15⽇更新 • 論⽂ • プロダクト・ニュース

論⽂ 7/1~7/12まで計画 • Planning with Large Language Models for
Conversational Agents ⻑いコンテキスト理解 • Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems ツール利⽤ • WORLDAPIS: The World Is Worth How Many APIs? A Thought Experiment • Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks • GTA: A Benchmark for General Tool Agents 評価 • AI Agents That Matter Agent framework • Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods • Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents

論⽂ 7/1~7/12まで Agentic AI Systems • A Review of Large
Language Models and Autonomous Agents in Chemistry • AgentInstruct: Toward Generative Teaching with Agentic Flows • MMedAgent: Learning to Use Medical Tools with Multi-modal Agent • MIRAI: Evaluating LLM Agents for Event Forecasting • ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions • InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation • LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies Multi Agent Systems • Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models • BMW Agents - A Framework For Task Automation Through Multi-Agent Collaboration Embodied Agents • Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Computer Controlled Agents • Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence • Tree Search for Language Model Agents

Planning with Large Language Models for Conversational Agents • ⾃律型ビジネス対話エージェントには、対話の積極性や制御性、⼿動介⼊の依存度の削減が求められる
• 例えば、会話型推薦では、会話から興味を惹きつけ説得し、購⼊⼿続きまで完了させる必要がある • 対話の前にSOP（標準作業⼿順）をオフライン計画し、対話中は最適なアクションをオンライン計画する左) 対話の前にSOP（標準作業⼿順）をオフライン計画中央) エージェントの⾏動結果⽔⾊がSOPに準拠した⾏動、ピンク⾊が積極的な説得や対話になる右) クレジットカード有効化のための対話 Agent Capabilities：計画

Summary of a Haystack: A Challenge to Long-Context LLMs and
RAG Systems • Salesforce AI からSummary of a Haystackのタスクを設計し、ロングコンテキストとRAGシステムの評価 • 評価は、事実内容を要約に含めているか、引⽤番号を正しく⽣成できているかで評価 • Claude3 Opusが全体的に性能がよく、特にRAG（Rerank3 model）が最も良い • ロングコンテキスト（Full）も悪くないが、引⽤の精度は落ちている評価結果引⽤元docsの作成から回答までのフロー要約はオラクル⽂書だけ渡すと⼈間よりは良いドキュメントの引⽤番号の⽣成は抜け漏れがあり⼈間より精度が低い Agent Capabilities：⻑いコンテキスト理解

WORLDAPIS: The World Is Worth How Many APIs? A Thought
Experiment • 物理環境でエージェントがタスクを実⾏するためのシミュレーションの限界 • 限られた⼿作りの⾏動空間に制限される • どのくらいのAPIがあれば汎⽤的なEmbodied Agent になるのか？ • wikiHowのチュートリアルが広範なタスクを包含すると仮定 • タスクを実⾏するためのPythonプログラムを⽣成 • 既存のAPIを再利⽤しつつ、新しいAPIが必要な場合には⽣成 1000のタスクに9個のAPIから始めた徐々に増加しつつも2回以上使われたAPIの数はチュートリアルが600辺りで飽和しているその数は300~400程度ノイズも多いため、精査は必要 Agent Capabilities：ツール利⽤

Granite-Function Calling Model: Introducing Function Calling Abilities via Multi- task
Learning of Granular Tasks • IBMからGRANITE-20B-FUNCTIONCALLINGモデルの学習の詳細を公開 • 関数呼び出し能⼒を持つように訓練されている • High-Level Function Calling Tasks：ネストされた関数呼び出し、関数チェーン、並列関数 • Low -Level Function Calling Tasks：関数名検出、パラメータ値ペア検出、次の最適な関数選択、応��⽣成 • GRANITE-20B-CODE-INSTRUCTモデルを16万の指⽰データでQLoRAを⽤いて指⽰チューニング • 関数呼び出し能⼒を評価した結果、既存のオープンモデルより優れた結果を⽰した Agent Capabilities：ツール利⽤

GTA: A Benchmark for General Tool Agents • Shanghai AI
LaboratoryからGTA（General Tool Agents）のためのベンチマークを提案 • 他のツール利⽤のベンチマークとの違い • 実際の⼈間が書いたクエリを使⽤して曖昧さや多様性が反映されている • 画像、ウェブページのスクリーンショット、表、コードスニペットなどのマルチモーダル⼊⼒も使⽤ • 各タスクに対してツールチェーンを含み、複数のステップにおける複雑な問題も含む • 評価指標 • InstAcc：タスクを遂⾏するために必要なステップを正確に実⾏できているか • ToolAcc：モデルが問題解決のために適切なツールを選択しているか • ArgAcc：モデルがツールを呼び出す際に適切な引数を指定できているか • SummAcc：モデルがタスクの実⾏後に、⾏った処理の結果をどれだけ正確に要約できるか Agent Capabilities：ツール利⽤

AI Agents That Matter • プリンストン⼤学からエージェントのベンチマークと評価⽅法に問題提起する論⽂ • エージェントのベンチマークは新しい分野であり、ベストプラクティスが確⽴されていないため、真の進展と誇⼤宣伝を区別することが難しい •
コストと精度のトレードオフを⾒過ごしていると指摘 • コストの評価、精度とコストの共同最適化、ホールドアウトの設定、評価⽅法の標準化が必要と提⾔ 164問のHumanEval で評価 HumanEvalはコード⽣成タスクでテストケースに通るかで評価するデータセットコードを書いてテストケース通すだけなら繰り返し GPT-4を叩く⽅が性能は出るのは納得 Agent Capabilities：評価

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and
Methods • 強化学習にLLMを取り⼊れる⽅法とその利点についての包括的なレビュー • LLMの役割：情報処理、報酬設計、意思決定、⽣成の4つの役割 • LLMの効果：データ収集のサンプル効率向上、報酬関数の設計、新しいタスクや環境に対する⼀般化、複雑な⾃然⾔語ベースの指⽰理解 • RLエージェントの性能と適⽤範囲が増え、実世界での応⽤可能性が⾼まる Agent Framework

Converging Paradigms: The Synergy of Symbolic and Connectionist AI in
LLM- Empowered Autonomous Agents • Symbolic AIとConnectionist AIの融合に焦点を当てた歴史を振り返る論⽂ • Connectionist AIはそのブラックボックス性と解釈可能性の⽋如が問題 • Symbolic AIは労⼒のかかる知識獲得と管理プロセスとルール依存の適応⼒の限界が問題 • LLMエージェントは双⽅が組��合わされたNeuro-symbolic AI のひとつ • LLMに知識を分散させ格納（知識管理の課題解決） • ケースベース推論とも取れるFew-Shot Learning（⾼い適応性） • タスク分解や順次推論（解釈可能な意思決定プロセス） Agent Framework

MMedAgent: Learning to Use Medical Tools with Multi-modal Agent •
多様な医療タスクを扱うために設計された最初のマルチモーダル医療エージェントを提案 • MMedAgent を作るためのInstruction Tuning データセットを作成 • タスク：グラウンディング、セグメンテーション、医療画像分類、医療レポート⽣成（MRG）、RAG、VQA • 指⽰データは、Thought, Action, Value で構成され、GPT-4oを使って作成 • LLaVA-Med 60K-IM を48K の指⽰データで学習 • ツール選択の正確性は100%に達し、特定のタスクではGPT-4oを上回る結果を⽰した Agentic AI Systems

AgentInstruct: Toward Generative Teaching with Agentic Flows • Microsoft Research
からLLMの事後学習⽤の⾃動データ⽣成プロセスAgentInstruct を提案 • AgentInstructは3つのフローで構成されるマルチエージェントワークフロー 1. コンテンツ変換フロー：⽣データを中間表現に変換し、指⽰データ⽣成を容易にする 2. シード指⽰⽣成フロー：変換されたコンテンツを基に、多様な指⽰と応答データを⽣成 3. 指⽰精錬フロー：⽣成された指⽰と応答データの複雑さと品質を向上 • AgentInstructが⽣成する指⽰データの種類とタスクの⼀例 • Reading Comprehension, Tool Use, RAG, Web Agent, Coding など17種類 • Mistral-7b-v0.1 を提案⼿法に従い2580万のデータでファインチューニングしOrca-3を作成 • 学習に利⽤した17種類のタスクの性能はGPT-4に匹敵した Agentic AI Systems

A Review of Large Language Models and Autonomous Agents in
Chemistry • LLMベースの⾃律エージェントは化学研究において様々なタスクを⾃動化し効率化する • ⼤量の科学⽂献を効率的に検索・分析し、研究者にとって重要な情報を要約 • ⼤量の化学データを解析し、分⼦設計や合成⽅法の⾰新的なアイデアを提案 • 過去のデータと現在の⽬標を基に効率的で成功率の⾼い実験計画を⽴案 • タスク（データベース検索、分⼦シミュレーション、結果の解析など）を⾃動化 Agentic AI Systems

MIRAI: Evaluating LLM Agents for Event Forecasting • LLMエージェントの予測能⼒を評価するために国際イベントの予測ベンチマークを作成 •
世界中の⼤規模データベースから重要な情報を⾃律的に収集し統合する能⼒を評価 • ドメイン固有のAPIやライブラリを使⽤してコードを書き、ツールを活⽤する能⼒を評価 • 多様な形式や時期の歴史的知識を統合し、将来のイベントを正確に予測する能⼒を評価 • GDELTイベントデータベースを⽤い、様々な予測期間を持つ関係予測タスク • イベントの予測（外交訪問、経済制裁、軍事⾏動） • 国家間の関係の予測（協⼒関係の強化、対⽴の激化、和解） • 精度は低く困難なタスクだった • 精度の向上にはツール利⽤が効果的であることはわかった Agentic AI Systems

ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions
• ECにおいてユーザーの曖昧なクエリに対する確認質問を⾏うことで、より正確な商品検索を実現する • 戦略的な確認質問の⽣成と動的な商品検索能⼒を備えた会話型情報検索エージェントを提案 • エージェントは、カテゴリを絞り、アイテムを検索し、複数の新しい質問を⽣成する Agentic AI Systems

InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation •
ServiceNow Research がビジネスデータからインサイトを抽出し回答する能⼒を評価するベンチマークを提案 • インサイトは、記述的、診断的、予測的、規範的がある • インシデント管理：インシデントの解決時間が時間とともに増加している傾向があるかなど • ユーザー管理：特定の部署でのユーザーのログインパターンと業務効率の関連性の分析など • 財務管理：特定のカテゴリにおける⽀出の増減傾向とその原因の診断など • 資産管理：企業のハードウェア資産管理の購⼊⽇と保証期間との相関関係の評価など • 提案⼿法はText-to-Analytics Agentsに属する • スキーマ抽出、⾼レベルな問いの⽣成、コード⽣成と実⾏、インサイトの⽣成と要約をおこなう Agentic AI Systems

LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies
• タスク指向対話エージェント（TOD）は、ユーザーのリクエストを理解し、会話を誘導し関連情報を提供する • カスタマーサポート、⾦融サービス、医療フォームの記⼊など、多岐にわたる⽤途で利⽤される • 従来のダイアログツリーによる会話のレールからはみ出せない限界を克服する⼿法を提案 • ⽬的に応じたワークシートを使い分け、エージェントポリシーが⾏動を進める • ワークシートは命令的でなく宣⾔的に記述でき、必要な⾏動や必要なユーザー情報も記述できる Agentic AI Systems

Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with
Large Language Models • マルチエージェント環境における他のエージェントの⾏動や戦略を推測・適応する Hypothetical Mindsを提案 • ⼼の理論モジュールは、他のエージェントの戦略や⽬標について仮説を⽣成、評価、精緻化する • その結果をもとに⾃⾝の計画を⽴て⾏動を選択する • 従来のLLMエージェントおよびRLベースラインと⽐較して優れた性能を発揮 Multi Agent Systems

BMW Agents - A Framework For Task Automation Through Multi-Agent
Collaboration • BMW Groupからマルチエージェントフレームワークの提案 • エージェントには計画、実⾏、検証の3つに分かれる • 様々な応⽤事例のエージェント設計例を紹介しており、参考になる Multi Agent Systems

Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era
of Foundation Models • Vision-and-Language Navigation (VLN) は、エージェントが⼈間からの指⽰に従い、視覚情報を⽤いて3D環境を探索し、⽬的地に到達するためのタスク • VLNは、家庭⽤ロボット、⾃動運転、パーソナルアシスタントで役⽴つ • 研究者が今後取り組むべき課題とその解決策についてのロードマップを提供する論⽂ Embodied Agents

Tree Search for Language Model Agents • CMUからWeb⾃動化タスクにおけるLLMエージェント向けにツリーサーチアルゴリズムの適⽤ • 探索能⼒をLLMとは別のアルゴリズムで担う（LLMに⾏動を決定させない）
• VLMには画⾯遷移のスクショから価値関数のスコアの⽣成、次の画⾯から⾏動候補の⽣成を担わせる Computer Controlled Agents

Internet of Agents: Weaving a Web of Heterogeneous Agents for
Collaborative Intelligence • インターネットにインスパイアされたエージェント通信と協⼒のための汎⽤フレームワーク • エージェントが動的にチームを形成し、タスクに応じて最適なコミュニケーションを取る • 異なる場所にある複数のデバイスが相互に通信し協⼒する • 異なるサードパーティエージェントを統合するためのオープンなプロトコルと標準を提供 Interaction Layer エージェントのチーム形成とコミュニケーションを円滑に進めるための機能を提供 Data Layer エージェント、グループチャット、およびタスクに関連する情報を管理 Foundation Layer エージェント統合、データ管理、およびネットワーク通信のための基本的なインフラストラクチャを提供 Computer Controlled Agents

プロダクト・ニュースリリース • Agents for Amazon Bedrock now retain memory
(Preview) • Announcing Mosaic AI Agent Framework and Agent Evaluation イベント Welcome to CMU Agent Workshop 2024 ブログ • What is a "cognitive architecture"? • Agent Planning • Build A Financial Analyst Agent Using CrewAI and LlamaIndex • Building “Auto-Analyst” ̶ A data analytics AI agentic system • Meet Jace AI: Revolutionizing Autonomous Artificial Intelligence Agents

Agents for Amazon Bedrock now retain memory (Preview) • Amazon
Bedrock のエージェントがセッションの要約やセッション内容をメモリを保持できることを発表 • エージェントは、メモリコンテキストを使⽤して、保存されている会話履歴と会話の概要にアクセスし、応答を⽣成する • Bedrock エージェントはセッションをメモリ内に最⼤ 30 ⽇間保持 • オプションで1 〜 30 ⽇間の期間を指定して保持期間 https://docs.aws.amazon.com/bedrock/latest/userguide/agents-memory.html

Announcing Mosaic AI Agent Framework and Agent Evaluation • Databricksは、Mosaic
AI Agent FrameworkとAgent EvaluationのパブリックプレビューをData + AI Summit 2024で発表 • デベロッパーがDatabricks Data Intelligence Platform内で⾼品質のエージェント型および検索拡張⽣成（RAG）アプリケーションを構築し、展開するのを⽀援する • RAG エージェントは、ユーザークエリを処理し、ベクターデータベースから関連データを取得し、このデータを LLM に渡して応答を⽣成 https://www.databricks.com/blog/announcing-mosaic-ai-agent-framework-and-agent-evaluation https://docs.databricks.com/ja/generative-ai/retrieval-augmented-generation.html

Welcome to CMU Agent Workshop 2024 • 2024年5⽉2~3⽇に開催されたワークショップ • ポスターセッションやチュートリアルもあり、資料も公開されている
• LLMのツール利⽤ • ツール利⽤からエージェント • エージェントの構築⽅法 • エージェントの学習⽅法 • など https://cmu-agent-workshop.github.io/

What is a "cognitive architecture"? • 認知アーキテクチャとは、システムがどのように考えるか、ユーザー⼊⼒を受け取り、アクションを実⾏したり応答を⽣成したりするコード/プロンプト/LLM 呼び出しのフローを意味する
• ⾃律性のレベルを認知アーキテクチャにマッピングする

Agent Planning • エージェントの計画の種類の紹介ブログ • Chain of Thought (CoT) Google
Brain • 特徴: タスクを管理可能なステップに分割することで、連続タスクに特に適している • 制限: 計画で異なるルートを適応的に扱う柔軟性に⽋ける • Tree of Thoughts (ToT) DeepMind とプリンストン • 特徴: CoTの制限を克服し、問題解決の中間ステップを容易にし、複数の選択肢を検討できるようにする • ⽬的: 計画の中でエージェントが後戻りして影響⼒のある選択を⾏えるようにする • Chain of Code (CoC) DeepMind、スタンフォード、バークレー • 特徴: コードエミュレーションを⽤いて、複雑な計算タスクに対処する • 利点: LLMの⾮決定論的な特性と幻覚の問題を緩和し、より正確なタスク処理を可能にする https://medium.com/@memary_labs/agent-planning-43e03472ec29

Build A Financial Analyst Agent Using CrewAI and LlamaIndex •
⾦融リサーチアナリストエージェントの開発 • 推論エンジンとしてgroq、ドキュメント検索にLlamaIndex、エージェント開発にCrewAIを採⽤開発⼿順 1. LlamaIndexを使⽤してRAGシステムを構築する 2. RAG クエリエンジンを LlamaindexTool としてラップする 3. リサーチエージェントが株式データから洞察を明らかにする 4. ライティングエージェントは、提供された洞察に基づいて、記事を作成 https://medium.com/the-ai-forum/build-a-financial-analyst-agent-using-crewai-and-llamaindex-6553a035c9b8

Building “Auto-Analyst” ̶ A data analytics AI agentic system •
DSPyを使ったデータ分析エージェントの開発記事 • 計画エージェントがいくつかのサブエージェントを⽤いる • 各サブエージェントの⽣成コードを結合エージェントが整形し実⾏ https://medium.com/firebird-technologies/building-auto-analyst-a-data-analytics-ai-agentic-system-3ac2573dcaf0

Meet Jace AI: Revolutionizing Autonomous Artificial Intelligence Agents • ロンドンに拠点を置くスタートアップ企業Zeta
Labsが、最新作を公開した • Jace は⾳声またはテキスト指⽰に基づいて、Web ブラウザでタスクを実⾏するように設計されている • 複数のアカウントへのログイン、Web サイトからの情報のスクレイピング、オンライン購⼊などの反復的なアクションを⾃動化できる • WebエージェントにはAWA one という独⾃モデルを利⽤ https://lindane.co/blog/jace-ai-revolutionizing-autonomous-artificial-intelligence-agents/

論⽂ 6/22~6/28まで計画 • Octo-planner: On-device Language Model for Planner-Action
Agents • FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents ⻑いコンテキスト理解：Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA メモリ：AI-native Memory: A Pathway from LLMs Towards AGI ツール利⽤：BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions マルチモーダル理解：CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs フレームワーク：Symbolic Learning Enables Self-Evolving Agents Agentic AI Systems • LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing Multi Agent Systems • Autonomous Agents for Collaborative Task under Information Asymmetry • EVOAGENT: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms • MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate

論⽂ 6/22~6/28まで計画⻑いコンテキスト理解メモリツール利⽤マルチモーダル理解 Agent framework Agentic
AI Systems Multi Agent Systems

Octo-planner: On-device Language Model for Planner-Action Agents • デバイス上で動くエージェントのため、計画と⾏動を別のモデルを採⽤し、この論⽂では計画モデルを提案 •
⾏動は従来のOctopus-v2を利⽤する。計画部分をphi-3 miniを微調整させたOcto-plannerを使う • 今は静的な計画のため、今後はアクションの観察に基づくリアルタイム計画更新を検討する最初の計画を間違うと観察に基づき振り返れない Agent Capabilities：計画

FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM- based Agents
• LLMエージェントは、専⾨知識が必要なタスクにおいて計画的な幻覚を起こしやすい • 課題解決に外部知識をテキスト、コード、フローチャート形式で与えるが、有効性の⽐較評価がされていない • 初めてワークフローガイド計画を含むベンチマークを作成しタスクの評価をしフローの有効性を検証 • ワークフローで解けるタスクが多く載っておりオススメ評価タスクフローチャート形式をMarkdownのMermaid記法で与える他形式に⽐べ、ステップの⽋落や順序の誤り、ツールの使⽤に関するミスが減少ツール呼び出し性能 Agent Capabilities：計画

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc
QA • 複数のドキュメントにわたる質問応答（QA）を通じて評価をおこなう⻑い⽂脈ベンチマークLoong を提案 • タスクは精度が良い順にスポットライトロケーティング7割、推論の連鎖6割、⽐較5割、クラスタリング4割 • 複数のドキュメントを丸ごと渡してどんな推論タスクがどの程度できるのか理解できるのでオススメ⾦額や会社の⽐較分析ある条件でカテゴライズ時系列表⽰引⽤リンク理解証拠を⼀つ抽出 Agent Capabilities：⻑いコンテキスト理解

AI-native Memory: A Pathway from LLMs Towards AGI • LLMに⻑いコンテキストから関連情報を⾒つけ出し、同時に複雑な推論を⾏うことが⾮常に難しい
• LLMをプロセッサ、コンテキストをRAM、そしてメモリをディスクとして機能させるシステムの構築を提案 • LLMが⽣データから得られる重要な結論をメモリに保存し、クエリ時に活⽤することで、効率的かつ効果的な情報処理と推論を可能にする • L1（⾃然⾔語メモリ）：ユーザーに関する情報を⾃然⾔語形式（嗜好や所属、タグ、要約）で保存 • L2（AIネイティブメモリ）：個⼈の興味⾏動などの予測につながる個⼈⾔語モデルをメモリとする • AGIには⾃然語形式のメモリではなく、個⼈⾔語モデルが必要だという主張 • ユーザーごとにパーソナライズされたメモリ（LPM：Large Personal Model）を持つことで、ユーザーの過去の⾏動や好みに基づいた個別化された体験やサービスを提供できるらしい Large Personal Model Agent ⾃然⾔語メモリ趣味、嗜好、関係性、過去の会話彼はXXがしたいと思う Agent Capabilities：メモリ

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex
Instructions • Pythonのライブラリの関数を正しく呼び出し使えるか評価するプログラミングタスクのベンチマークを提案 • タスクはdocstringsが提供され、コード⽣成し、 5つ程度のテストケースの合格数で評価 • LLMsはまだライブラリの関数を正確に使⽤する能⼒に⽋けており、⼈間の性能97%に対して最⼤60%のスコアしか達成できなかった 77 44 31 30 10 8 5 281 128 63 60 20 16 10 Agent Capabilities：ツール利⽤

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
• MLLMの性能のうち科学論⽂や財務報告書の図表の理解に注⽬し、arXiv論⽂から収集したデータセットを作成 • 既存のデータセットは、過度に単純化された図表とテンプレートベースの質問だった • GPT-4oは推論的質問に対して47.1%、記述的質問に対して84.5%の精度記述的質問：基本的な情報抽出例「サブプロットの⾏2列1において、線は交差していますか？」推論的質問：図表内の複数の要素を関連付けて分析例「4⽉の直後に咳、発熱、病気に関するGoogle検索の急増が⾒られる国の名前は何ですか？」 Agent Capabilities：マルチモーダル理解

Symbolic Learning Enables Self-Evolving Agents • ニューラルネットの学習アルゴリズムと対応づけてエージェントのフローを更新するフレームワークを提案 • PromptOptimizer: プロンプトの各コンポーネント（タスクの説明、少数ショットの例、原則、出⼒形式の制御）の最適化
• ToolOptimizer: ツールの編集、削除、新しいツールの実装を⾏う • PipelineOptimizer: ツールや各プロンプトとその接続を含むエージェントパイプライン全体の最適化 • 損失値はプロンプトでLLMに正解データとの近さをスカラー値とテキストで⽣成させる • 最適化なのかは謎だが、エージェント構築とNN構築の開発モチベは似ているのは分か�� Agent Framework

LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing • LLMが論⽂のレビューおよびメタレビューをどの程度効果的に⾏えるかを分析 •
LLMs as Reviewers：⼈間のレビューとLLMが⽣成したレビューの質を⽐較する • LLMは特に論⽂の範囲外の実験や分析を提案する傾向が強く、専⾨知識を要する批評はエラーが少ない • LLMs as Metareviewers：LLMが個々のレビュー内の問題を特定できるかどうかを評価する • 形式的な間違いや⼀般的な誤解を特定するのには効果的、多くのレビュワーの⽋陥を指摘できる • 表⾯的なレビューや、誤った専⾨知識に基づく指摘が多いレビューのエラー分析 Agentic AI Systems

Autonomous Agents for Collaborative Task under Information Asymmetry • 情報⾮対称性下での協調タスクを遂⾏するための⾃律エージェントシステム（iAgents）を提案
• 同じ情報が全員に共有される設定が多いが、現実世界ではビジネスの交渉、災害対応、SNSではありえない • iAgentsは、InfoNavという互いに計画し、情報収集し、不明確な部分をお互いに伝えて合意形成をすることで、エージェント間の効果的な情報交換を実現 • 全ての情報を⼀元的に管理するのではなく、エージェントが個別に情報を持ち、必要に応じて交換するのはプライバシーの保護に繋がる Multi Agent Systems

EVOAGENT: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms • Microsoft
から進化的アルゴリズムを⽤いて専⾨的なマルチエージェントを⽣成する⼿法を提案 • EVOAGENTは任意の既存のエージェントフレームワーク（MetaGPT、Camel、AutoGen、Generative Agents）に適⽤可能 • 複雑なタスクを解くために利⽤する以下をT世代まで繰り返す 1. 初期化スキルと役割のプロンプトを持つエージェントを⽤意する 2. 交叉＆突然変異初期エージェントの履歴からどのスキルや設定を改良すべきかチェックし、⼦エージェントプロンプトをN個⽣成 3. 淘汰⽣成された⼦エージェントプロンプトの中から、最適なエージェントを選ぶ。選択は、品質チェックプロンプトを⽤いる。 4. 結果の更新⼦エージェントプロンプトで⽣成された結果を前の世代の結果と統合するよう⽣成 EVOAGENTアルゴリズム Multi Agent Systems

MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model
Collaborations via Debate • 1つのエージェントが敵対者として設定され、他のエージェントを誤った回答に説得することを⽬的とする • 3つのエージェントを使⽤し、3ラウンドでディベートを実施 • 敵対者がいると多数決精度が10〜40%低下。エージェント数とラウンド数を増やしても精度低下を防げない • GPT-4oは他のモデルと⽐べて敵対者に対して最も耐性が⾼い。精度の悪化が⼩さく、敵対者との合意も少ない • GPT-3.5とLlamaは、敵対者の影響を強く受け、精度の悪化が⼤きく、敵対者との合意も増加 Multi Agent Systems

プロダクト・ニュースリリース • Llama Agents : AI Agents as a
Service • Collaborate with Claude on Projects • Announcing LangGraph v0.1 & LangGraph Cloud: Running agents at scale, reliably ブログ • Enhancing Code Reviews with AI PR Agent • Literature Review on Task Planning with LLM Agents • How to build AI agents to automate web browsing with human level reasoning? Part 2: Using Large Context Window • Architecting + testing reliable agents • Gemini API の Function Calling 機能で LLM Agent を実装するベンチャー企業 • MyLens AI turns any input into an easy-to-understand visual. • Relay.app • AI-FLOW

Llama Agents : AI Agents as a Service • Llama
Agents は、各エージェントは別々の URL で独⽴して動作させることができる • Crew AI や Autogen と異なり、Llama Agents は⾮同期実⾏機能がある • Google Cloud や AWS などでエージェントをホストする場合は、構成でホストとポート番号を指定する https://medium.com/@lbq999/llama-agents-ai-agents-as-a-service-e474aaa416e5

Collaborate with Claude on Projects • Claudeがプロジェクト機能をリリース • Claude.ai Pro
および Team ユーザーは、チャットをプロジェクトに整理し、ナレッジ⽂書セットとチャットアクティビティを 1 か所にまとめることができる • プロジェクトには、スタイルガイド、コードベース、インタビューの記録など、社内の知識をアップできる • 各プロジェクトにカスタム指⽰を定義して、クロードの応答をさらにカスタマイズすることもできる

Announcing LangGraph v0.1 & LangGraph Cloud: Running agents at scale,
reliably • LangGraph v0.1 の安定版リリースを発表 • LangGraph を使⽤すると、次のことも可能 • タスクの実⾏中に、明⽰的に⼈間の承認を待機するようにエージェントを設計できる • エージェントのアクションを実⾏する前に編集できる • エージェントの実⾏を検査、再接続、編集、再開できる (「タイムトラベル」機能と呼ぶ) • ベータ版である LangGraph Cloud をリリース • LangGraph エージェントを展開するためのインフラストラクチャ • LangGraph Studioも含まれ、エージェントの軌跡を視覚化する • 障害モードをデバッグし、中断、状態編集、再開、タイムトラベルのブレークポイントを追加できる https://blog.langchain.dev/langgraph-cloud/

Enhancing Code Reviews with AI PR Agent • PR Agent
は、コードレビューの⾃動化ツール • 機能：⾃動PR説明、⾃動コードレビュー、コード改善、CI/CD パイプラインとの統合 • PR エージェントは、GitHub、GitLab、BitBucket、Azure DevOps などをサポート • PR エージェントはコードレビューに OpenAI を使⽤する • .github/workflows/pr_agent.yml をリポジトリに追加 https://gyliu513.medium.com/enhancing-code-reviews-with-ai-pr-agent-fe1c92244d51

Literature Review on Task Planning with LLM Agents ⽇本⼈のisozakiさんが、LLM計画に関する⽂献調査をまとめている 1.
ReAct: Synergizing Reasoning and Acting in Language Models • ⾔語モデルにタスクとツールを与え、反復的に「思考」「⾏動」「観察」を⾏うフレームワーク。self-consistencyとCoTを組み合わせることで、結果の精度が向上 2. Reflexion: Language Agents with Verbal Reinforcement Learning • ReActに評価と内省のステップを追加し、出⼒や現在の軌跡が正しいかを判断。外部の信号がある場合に効果的である 3. LLM+P: Empowering Large Language Models with Optimal Planning Proficiency • タスクをPDDL（Planning Domain Definition Language）に変換し、ソルバー/プランナーで解決。PDDLの制限として、アクション空間が⼤きい場合には適⽤が難しい。 6. Language Agent Tree Search (LATS) • モンテカルロ⽊探索をLLMに統合し、⾏動、観察、計画を⾏う。 self-consistency と評価スコアを組み合わせ、反射ステップで失敗の原因を分析。 7. ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models • 計画と実⾏者を分離し、計画と実⾏結果から回答を⽣成。ReActを上回る性能を発揮 8. Plan, Eliminate, and Track ̶ Language Models are Good Teachers for Embodied Agents • ⾼レベルのタスクをサブタスクに分解し、不要なタスクを排除、タスク完了を追跡。タスクの依存関係を前提としない独⽴した⽅法 9. LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models • ⾼レベルのプランは低レベルのプランナーが知り得た環境情報に基づいて計画更新。フィードバックが重要で、失敗時に新たなプランを⽣成 10. Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents • 実⾏可能な計画が複数存在することが多い。複雑な環境での効率的なプラン選択するモデルを提案 https://isamu-website.medium.com/literature-review-on-task-planning-with-llm-agents-a5c60ce4f6de

How to build AI agents to automate web browsing with
human level reasoning? Part 2: Using Large Context Window • Playwrightを⽤いてwebタスクの⾃動化のエージェント開発（ソースコード付き）タスクの例：Nvidiaに関連するSEC（⽶国証券取引委員会）の⽂書リンクを収集すること実⾏の計画 1. タスクをリストに分解する • ⾼レベルのタスクを⼩さなサブタスクに分解する 2. URLを取得する • 最初にアクセスすべきURLを決定する 3. Playwrightを使⽤してページにアクセスし、リンクを収集する 1. 指定されたURLに移動する 2. ページの内容を取得する 3. ページ上のリンクを収集する 4. タスクリストの更新と次のコマンドの実⾏ 1. 現在のページの内容に基づいてタスクリストを更新する 2. 次に実⾏すべきコマンドを決定し、実⾏する 3. 必要に応じて、ページ間を移動しながらリンクを収集する 5. タスクの完了を確認する 1. 全てのサブタスクが完了したかを確認する https://systemdesigner.medium.com/how-to-build-ai-agents-to-automate-web-browsing-with-human-level-reasoning-eb19c821297a

Architecting + testing reliable agents • LangChainがAI Engineer World Fairで発表した資料
• エージェントのアーキテクチャと信頼できるテスト⽅法を紹介 • LangGraphは制御フローを⾃分で組めて(Reliable)、エージェントの制御ループも⼊れられる(Flexible) • ��ストはLangSmithがエラーハンドリング、テストとモニタリングを全てカバー https://docs.google.com/presentation/d/1QWkXi4DYjfw94eHcy9RMLqpQdJtS2C_kx_u7wAUvlZE/edit?usp=sharing

Gemini API の Function Calling 機能で LLM Agent を実装する •
Google Cloud の Gemini API の Function Calling 機能を使ってLLM Agent の実装例を紹介 • Function Calling は、「どの API を使⽤すれば回答に必要な情報が得られるか？」を Gemini ⾃⾝に考えさせる • ToolsにはBigQueryのAPIを⽤意し、関数の引数でSQLクエリを⽣成させる • Geminiが関数とそのSQLクエリを⽣成したらその値をもとにAPIを実⾏する https://zenn.dev/google_cloud_jp/articles/3fa4da1eb63948 ツールの定義 Function Calling を使⽤した Agent の動作

MyLens AI turns any input into an easy-to-understand visual. •
MyLensは、AIを活⽤したタイムラインの作成と探索を可能にするプラットフォーム • データを⼊⼒するとタイムライン、マインドマップ、四象限、テーブルなど、複数の形式でデータを表⽰できる • マーケティング、教育、ビジネス分析、スタートアップ⽀援、研究、健康管理、コンテンツ制作、デザイン、プロジェクト管理、経営管理、財務分析で利⽤できるマインドマップ四象限タイムラインテーブル https://mylens.ai/use-cases

Relay.app ワークフローによる⾃動化ソリューション AI を簡単に使⽤するために、Relay.app では 3 つのクラスの AI 機能を提供 1.
要約やデータ抽出などの⼀般的なユースケース向けの組み込み AI アクション 2. 完全な柔軟性を実現する構造化された出⼒フィールドを備えたカスタムプロンプト 3. 半⾃律的にアクションを実⾏するミニAIエージェント https://www.relay.app/features/ai#maximize-confidence-in-ai 組み込みAIアクションカスタムプロンプトミニAIエージェント

AI-FLOW • AI-Flow はノードベースのアーキテクチャを提供し、ユーザーはさまざまな種類のノードを接続してデータフローを構築できる • URL からデータ抽出、GPT を使⽤してテキスト⽣成、画像の作成や編集 •
AI-Flow はニーズに合わせてカスタマイズされた幅広い機能を提供 https://docs.ai-flow.net/docs/intro/

過去のアーカイブ • SpeakerDeckに4⽉分、5⽉分、6⽉分の資料を分けて公開しています。

Weekly AI Agents News!

Weekly AI Agents News!

More Decks by masatoto

Other Decks in Research

Featured

Transcript