البحث التلقائي لكارباثي أمر كبير. 630 سطرا من بايثون. وحدة معالجة رسوميات واحدة. مقياس واحد. تكتب التعليمات في ملف ماركداون. يقوم وكيل الذكاء الاصطناعي بتعديل رمز التدريب، ويجري تجربة مدتها 5 دقائق، ويتحقق مما إذا كانت النتيجة قد تحسنا، ويحتفظ بها أو يرفضها، ويكرر التكرار. ~12 تجربة في الساعة. ~100 في الليل. اذهب للنوم. تستيقظ على نموذج أفضل. أنا أوجه هذا إلى نظام ذاكرتي. دعه يعمل طوال الليل لتحسين تسجيل التذكر وحدود الثقة أثناء النوم. الجزء المثير للاهتمام ليس الأتمتة. هذا ما قاله كارباثي عن تغيير الدور. أنت لم تعد تكتب بايثون. أنت تكتب تعليمات تخفيض السعر لوكيل اللعبة. كلما كانت تعليماتك أفضل، كانت النتائج أفضل. يبدو مألوفا إذا كنت تبني مع وكلاء. توبي لوتكي كان يدير اللعبة بالفعل على نموذج أصغر. تحسن بنسبة 19٪. النموذج الصغير المحسن للوكيل تفوق على نموذج أكبر تم تكوينه يدويا. نحن نشاهد إغلاق حلقة البحث في الوقت الحقيقي. ناقشنا الأمر على @modernmarket_