DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Connor Davis

Grundare av @getoutbox_ai Lär dig hur du bygger AI-agenter för GRATIS 👉 https://t.co/q9zPwlldZ4

MIT har precis publicerat en artikel som tyst förklarar varför LLM-resonemang stöter på en vägg och hur man kan ta sig förbi den. Den vanliga historien är att modeller misslyckas med svåra problem eftersom de saknar skala, data eller intelligens. Denna artikel argumenterar för något mycket mer strukturellt: modeller slutar förbättras eftersom inlärningssignalen försvinner. När en uppgift blir för svår kollapsar framgångsfrekvensen mot noll, förstärkningsinlärning har inget att optimera och resonemanget stagnerar. Misslyckandet är inte kognitivt, det är pedagogiskt. Författarna föreslår en enkel men radikal omformulering. Istället för att fråga hur man får modeller att lösa svårare problem, frågar de hur modeller kan generera problem som lär dem dem. Deras system, SOAR, delar upp en enda förtränad modell i två roller: en elev som försöker sig på extremt svåra måluppgifter, och en lärare som genererar nya träningsproblem. Problemet är att läraren inte belönas för att producera smarta eller realistiska frågor. Den belönas endast om studentens prestation förbättras på en fast uppsättning verkliga utvärderingsproblem. Ingen förbättring betyder noll belöning. Den incitamentet omformar allt. Läraren lär sig att skapa mellanliggande, springplankor som ligger precis inom elevens nuvarande kapacitetsgräns. Dessa problem är inte förenklade versioner av måluppgiften, och slående nog kräver de inte ens korrekta lösningar. Det viktiga är att deras struktur tvingar studenten att öva rätt sorts resonemang, vilket tillåter gradientsignal att uppstå även när direkt handledning misslyckas. De experimentella resultaten gör poängen smärtsamt tydlig. På benchmarks där modeller börjar utan framgång och standard förstärkningsinlärning helt stagnerar, bryter SOAR dödläget och förbättrar prestandan stadigt. Modellen undkommer gränsen för inlärningsbarhet inte genom att tänka hårdare, utan genom att bygga en bättre lärmiljö för sig själv. Den djupare implikationen är obekväm. Många påstådda "resonemangsgränser" är kanske inte alls intelligensgränser. De är artefakter från träningsupplägg som antar att världen erbjuder inlärningsproblem gratis. Denna artikel föreslår att om modeller kan forma sin egen läroplan, blir resonemangståer tekniska problem, inte grundläggande hinder. Inga nya arkitekturer, inga extra mänskliga data, inga större modeller. Bara en förändring i vad vi belönar: lärandeframsteg istället för svar.

Herregud... Denna artikel förklarar tyst varför de flesta "resonememangsmodeller" faller isär i samma ögonblick som du kopplar ur dem från rena benchmarks och släpper in dem i verkligheten. LongCat-teamet tar sig an en fråga som fältet ständigt undviker: om dagens modeller är så bra på att resonera, varför misslyckas de fortfarande med grundläggande agentbeteende när verktygen går sönder, instruktionerna blir otydliga eller miljöerna trycker tillbaka? Deras svar är obekvämt. Resonemanget misslyckas inte för att tankekedjor är för korta. Det misslyckas eftersom vi tränade tänkande utan konsekvenser. Artikeln introducerar LongCat-Flash-Thinking-2601, en 560B-parameter Mixture-of-Experts-modell byggd kring en enkel men radikal idé: resonemang blir bara tillförlitligt när det tvingas agera, observera misslyckanden och anpassa sig i verkliga miljöer. Istället för att behandla resonemang som textgenerering, ramar de in det som en loop: Observera → planera → agera → få feedback → revidera. Den förändringen sprider sig överallt. Data är inte längre statiska promptar. Träning är inte rena banor. Utvärdering är inte enkla svar. En av de viktigaste bidragen är miljöskalning. Författarna genererar automatiskt 10 000+ exekverbara miljöer över 20+ domäner, var och en grundad i verkliga verktyg, verkliga databaser och flera giltiga lösningsvägar. Svårighetsgraden ökar strukturellt, inte genom smarta prompttrick. Avgörande är att de inte sanerar världen. Verktygsfel, tvetydiga instruktioner, partiella utgångar och brusig återkoppling injiceras medvetet. Ljud är ingen bugg. Det är läroplanen. För att hålla träningen stabil i denna skala förlänger de asynkron RL (DORA) för att hantera långhorisontella, flervarvsinteraktioner med tiotusentals samtidiga miljöer utan att kollapsa. Vid inferenstidpunkten introducerar de Heavy Thinking Mode. Istället för en lång tankekedja kör modellen parallella resonemangsvägar och reflekterar sedan över dem innan den agerar. Detta slår konsekvent självkonsekvens på komplexa, agentiska uppgifter. Resultaten talar högt. Toppmodern prestanda på BrowseComp, τ²-Bench och VitaBench. Stark matematik, kodning och sökresultat. Och viktigast av allt, mycket mindre nedbrytning under bullriga förhållanden. Den verkliga slutsatsen är skarpare än något riktmärke: Att resonera och kvaliteten är inte längre flaskhalsen. Generalisering är det. Och generalisering kommer inte från bättre prompts eller längre tankar. Det kommer från miljöer som gör motstånd. Om vi vill ha agenter som arbetar utanför demos måste vi sluta träna dem i rena, påhittade världar. Intelligens smids inte där allt går rätt. Det smids där saker går sönder. Papper: LongCat-Flash-Thinking-2601 Teknisk rapport Läs hela artikeln här på:

Topp

Rankning

Favoriter