To prawdopodobnie pierwsza praca RL na OpenClaw 🔥 MetaClaw: Po prostu porozmawiaj ze swoim agentem i pozwól mu ewoluować automatycznie. Github: Większość agentów AI jest zamrożona w momencie, gdy zostaną wydani. Każdy błąd, który popełnią, powtórzą jutro. MetaClaw to naprawia. To warstwa RL online zbudowana na OpenClaw, która pozwala agentom uczyć się na podstawie własnych interakcji — bez klastra GPU, bez zbioru danych offline, bez zespołu inżynierów. Pętla jest prosta: każda rozmowa jest rejestrowana jako trajektoria treningowa. Kiedy agent zawodzi, analizuje, co poszło nie tak i proponuje nową umiejętność do ponownego wykorzystania. Aktualizacje LoRA trenują asynchronicznie w tle. Następnym razem, gdy pojawi się podobna sytuacja, odpowiednia umiejętność jest automatycznie pobierana do promptu. Agent nie tylko gromadzi rozmowy. Gromadzi zdolności. Co sprawia, że to różni się od fine-tuningu: nie ma ludzkiego procesu etykietowania, nie ma treningów wsadowych, nie ma cyklu wdrożeniowego. Ulepszenie odbywa się ciągle, niewidocznie, w produkcji. Interakcja → uczenie się → poprawa, w pętli. Brak zbioru danych offline. Nie wymaga kodowania. Brak klastra GPU. Część, na którą warto zwrócić uwagę: to przekształca każdą interakcję użytkownika w sygnał treningowy. Agent, którego wdrażasz w dniu pierwszym, nie jest tym samym agentem, którego masz w dniu trzydziestym. Został ukształtowany przez wszystko, co zrobił źle i naprawił. Świetna praca @HuaxiuYaoML !