Это, вероятно, первая работа по RL на OpenClaw 🔥 MetaClaw: Просто поговорите с вашим агентом и позвольте ему эволюционировать автоматически. Github: Большинство AI-агентов замораживаются в момент их выпуска. Каждую ошибку, которую они совершают, они повторят и завтра. MetaClaw это исправляет. Это онлайн-слой RL, построенный на OpenClaw, который позволяет агентам учиться на своих собственных взаимодействиях — без GPU-кластера, без оффлайн-датасета, без инженерной команды. Цикл прост: каждый разговор записывается как обучающая траектория. Когда агент терпит неудачу, он анализирует, что пошло не так, и предлагает новый многоразовый навык. Обновления LoRA обучаются асинхронно в фоновом режиме. В следующий раз, когда возникнет аналогичная ситуация, соответствующий навык автоматически извлекается в подсказку. Агент не просто накапливает разговоры. Он накапливает способности. Что отличает это от дообучения: нет человеческой разметки, нет пакетного обучения, нет цикла развертывания. Улучшение происходит непрерывно, незаметно, в производстве. Взаимодействие → обучение → улучшение, по кругу. Нет оффлайн-датасета. Кодирование не требуется. Нет GPU-кластера. Часть, на которую стоит обратить внимание: это превращает каждое взаимодействие пользователя в обучающий сигнал. Агент, которого вы развертываете в первый день, не тот же агент, который у вас на тридцатый день. Он был сформирован всем, что он сделал неправильно и исправил. Отличная работа от @HuaxiuYaoML !