📍 Possono gli LLM scoprire, astrarre e riutilizzare abilità di strumenti di livello superiore attraverso i compiti? I benchmark esistenti sull'uso degli strumenti testano la risoluzione di compiti con strumenti fissi. Ma i flussi di lavoro reali contengono strutture ricorrenti dove l'efficienza deriva da composizioni di strumenti riutilizzabili, non da chiamate isolate. Introduciamo SkillCraft: 126 compiti in 6 domini progettati per testare se gli agenti LLM possono acquisire abilità compositive, non solo chiamare strumenti atomici. Proponiamo anche Skill Mode, un protocollo leggero con quattro primitive MCP che consentono agli agenti di comporre, verificare, memorizzare e riutilizzare catene di strumenti al momento del test. Le nostre scoperte chiave nella valutazione di 8 modelli SOTA: ⚡Skill Mode consente agli agenti di scoprire e riutilizzare autonomamente abilità, portando a un successo e a un'efficienza maggiori rispetto agli agenti senza di essa. I guadagni sono maggiori per i modelli più forti. 🧠 I modelli più forti (ad es., Claude) scoprono abilità più generalizzabili, che si trasferiscono tra i compiti e persino tra i modelli. 🔍 Composizione più profonda ≠ migliore — abilità superficiali e ben testate si generalizzano meglio. 🔗 Documento: 💻 Codice: 🏠 Pagina: (1/7)