Kan robotar bemästra komplex manipulation genom att öva i sina egna AI-genererade videor? Forskare från Stanford och Tsinghua introducerar VLAW, ett nytt ramverk utformat för att stärka robotarnas lärande genom en kontinuerlig återkopplingsslinga. Metoden använder en samförbättringsstrategi: verklig robotdata används för att göra en videosimulator mer realistisk, som sedan genererar högkvalitativ syntetisk träningsdata för att träna robotens hjärna. Detta löser det vanliga problemet där simulatorer misslyckas med att fånga de små, kritiska fysiska detaljer som behövs för knepiga uppgifter. I verkliga experiment uppnådde VLAW en absolut framgångsgrad på 39,2 procent jämfört med grundpolicyn, vilket betydligt överträffade standardmodeller genom att effektivt överbrygga gapet mellan simulering och verklighet. VLAW: Iterativ samförbättring av vision-språk-handlingspolicy och världsmodell Papper: Kod: Vår rapport: