📍 Pot LLM-urile să descopere, să abstractizeze și să reutilizeze abilități de nivel înalt pentru instrumente în diverse sarcini? Benchmark-urile existente pentru utilizarea uneltelor testează rezolvarea sarcinilor cu unelte fixe. Dar fluxurile de lucru reale conțin structuri recurente în care eficiența provine din compozițiile instrumentelor reutilizabile, nu din apeluri izolate. Introducem SkillCraft: 126 de sarcini în 6 domenii concepute pentru a testa dacă agenții LLM pot dobândi abilități compoziționale, nu doar pentru a chema unelte atomice. De asemenea, propunem Skill Mode, un protocol ușor cu patru primitive MCP care permite agenților să compună, verifice, cachează și reutilizeze lanțuri de unelte în timpul testării. Concluziile noastre cheie în evaluarea a 8 modele SOTA: ⚡Skill Mode permite agenților să se auto-descopere și să reutilizeze abilități, ceea ce duce la un succes și o eficiență mai mare decât agenții fără aceasta. Câștigurile sunt mai mari pentru modele mai puternice. 🧠 Modelele mai puternice (de exemplu, Claude) descoperă abilități mai generalizabile, care se transferă între sarcini și chiar între modele. 🔍 Compoziția mai profundă ≠ mai bună — abilitățile superficiale, bine testate generalizează cel mai bine. 🔗 Hârtie: 💻 Cod: 🏠 Pagină: (1/7)