📍 LLMはタスク全体で高レベルのツールスキルを発見し、抽象化し、再利用できるのでしょうか? 既存のツール使用ベンチマークは固定ツールで課題を解決するテストを行います。しかし実際のワークフローには、効率が再利用可能なツール構成から生まれる繰り返しの構造があり、単なる呼び出しではありません。 SkillCraftを紹介します:6つのドメインにわたる126のタスクで、LLMエージェントが単に原子ツールを呼び出すだけでなく、合成スキルを習得できるかどうかをテストします。 また、4つのMCPプリミティブを持つ軽量プロトコルであるSkill Modeも提案し、エージェントがテスト時にツールチェーンを合成、検証、キャッシュ、再利用できます。 8つのSOTAモデルを評価した主な発見: ⚡スキルモードはエージェントがスキルを自己発見し再利用できるようにし、スキルモードなしよりも高い成功と効率をもたらします。より強力なモデルほど、その利点は大きくなります。 🧠 より強力なモデル(例:Claude)は、より汎化可能なスキルを発見し、それがタスク間やモデル間に移転します。 🔍 より深い構成≠より良く、浅く、よく練られたスキルが最も一般化できます。 🔗 論文: 💻 コード: 🏠 ページ: (1/7)