トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 LLMはタスク全体で高レベルのツールスキルを発見し、抽象化し、再利用できるのでしょうか?
既存のツール使用ベンチマークは固定ツールで課題を解決するテストを行います。しかし実際のワークフローには、効率が再利用可能なツール構成から生まれる繰り返しの構造があり、単なる呼び出しではありません。
SkillCraftを紹介します:6つのドメインにわたる126のタスクで、LLMエージェントが単に原子ツールを呼び出すだけでなく、合成スキルを習得できるかどうかをテストします。
また、4つのMCPプリミティブを持つ軽量プロトコルであるSkill Modeも提案し、エージェントがテスト時にツールチェーンを合成、検証、キャッシュ、再利用できます。
8つのSOTAモデルを評価した主な発見:
⚡スキルモードはエージェントがスキルを自己発見し再利用できるようにし、スキルモードなしよりも高い成功と効率をもたらします。より強力なモデルほど、その利点は大きくなります。
🧠 より強力なモデル(例:Claude)は、より汎化可能なスキルを発見し、それがタスク間やモデル間に移転します。
🔍 より深い構成≠より良く、浅く、よく練られたスキルが最も一般化できます。
🔗 論文:
💻 コード:
🏠 ページ:
(1/7)
トップ
ランキング
お気に入り
