المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
البروفيسور @ ستانفورد GSB، هوفر. أعمل على التكنولوجيا والسياسة والحوكمة. مستشار في a16z للكريبتو وميتا.
عمل مثير للاهتمام حول كيفية استجابة البحث التجريبي لعصر الذكاء الاصطناعي.
يأتي الاختبار الإحصائي التقليدي باستخدام قيم p من عالم كان يعتقد فيه أن كل اختبار مكلف جدا. الذكاء الاصطناعي الآن يجعل كل اختبار مجانيا تقريبا.
بعض النقاط الرئيسية من الخلاصة:
--"نثبت أن الفحص ينهار مع تحسن الاختبار ما لم يتدرج عدد فحوصات المتانة المطلوب خطيا على الأقل في التكلفة العكسية لكل اختبار"
--"نجادل بضرورة تطوير طرق لتفسير مجموعات من مواصفات متعددة في آن واحد"
نعم! ما زلت لا أعرف بالضبط كيف سيبدو هذا ويشعر به، لكنه واضح ما هو مطلوب. ويجب أن يقطع في كلا الاتجاهين:
(1) التقاط وإيقاف نتائج البحث المختارة بعناية
ولكن بنفس الأهمية:
(2) اكتشاف ومكافأة النتائج الجيدة.
الرقم 2 هنا قد يكون أصعب في بعض النواحي. يبدو أن كل حدسنا يدور حول إظهار أن الاكتشاف "أقل متانة" مما كنا نظن، والمطالبة بإحساس زائف بالكمال من النتائج المنشورة. عندما نرى مجموعة النتائج كاملة، نحتاج إلى إيجاد الطريقة الصحيحة لنكون أكثر تكريما وواقعية فيما يعتبر معلومات مفيدة.

Nic Fishman9 مارس، 22:35
هناك قلق متزايد من أن الكمال الاصطناعي قد يكسر العلوم الاجتماعية التجريبية — أن الوكلاء يمكنهم الاختراق حتى يجدوا شيئا "يعمل".
نعتقد أن القلق يستحق أن يؤخذ على محمل الجد. ورقتنا الجديدة تظهر أن هذا صحيح تجريبيا وتجعله دقيقا:
306
من المثير للاهتمام أن كود كلود يؤدي أداء أفضل من الكودكس في هذا التمرين. وجدنا أنهما متشابهان تقريبا لكن مهامنا مختلفة تماما!
@xuyiqing قمت بأي مقارنات بين الاثنين في عملك على التكرار؟

Meysam Alizadeh7 مارس، 06:14
هل يمكن لوكلاء الترميز بالذكاء الاصطناعي إعادة إنتاج نتائج منشورة في العلوم الاجتماعية؟
في عمل جديد مع @_mohsen_m، فابريتسيو جيلاردي، و@j_a_tucker، نقدم SocSci-Repro-Bench — وهو معيار ل 221 مهمة تكرار من 54 ورقة بحثية — ونقيم عاملين مميزين للترميز: كود كلود وكودكس.
تكشف النتائج عن قدرات مذهلة ومخاطر جديدة للعلوم المدعومة بالذكاء الاصطناعي.
------------------------------------
الهدف
--------
كان هدف التصميم الرئيسي هو فصل مشكلتين مختلفتين:
1️⃣ هل مواد النسخ نفسها قابلة للتكرار؟
2️⃣ هل يمكن لوكلاء الذكاء الاصطناعي إعادة إنتاج النتائج عندما تكون المواد قابلة للتنفيذ؟
لعزل أداء الوكيل، قمنا فقط بتضمين مهام كانت مخرجاتها متطابقة عبر ثلاثة عمليات تنفيذ يدوية مستقلة.
------------------------------------
التصميم
--------
الوكلاء المستلم:
• بيانات مجهولة الهوية + كود
• بيئة تنفيذ مفتوحة
كان عليهم أن يكونوا بشكل مستقل:
• تبعيات التثبيت
• تصحيح الشيفرة المعطلة
• تنفيذ خط الأنابيب
• استخراج النتائج المطلوبة
باختصار: إعادة إنتاج حسابية شاملة من طرف إلى طرف.
------------------------------------
النتائج
--------
قام كلا الوكلين بإعادة إنتاج جزء كبير من النتائج المنشورة.
لكن أداء كلود كود كان متفوقا بشكل كبير على كودكس.
دقة على مستوى المهمة
• رمز كلود: 93.4٪
• الكودكس: 62.1٪
إعادة إنتاج على مستوى الورق (جميع المهام صحيحة)
• كود كلود: 78.0٪
• الكودكس: 35.8٪
------------------------------------
لماذا الفجوة؟
--------
غالبا ما تحتوي حزم النسخ على مشاكل:
• التبعيات المفقودة
• مسارات الملفات المشفرة بشكل ثابت
• مواصفات البيئة غير المكتملة
كان كلود كود يصلح هذه المشاكل بشكل مستقل بشكل متكرر. غالبا ما فشل كودكس في استعادة خط أنابيب التنفيذ.
------------------------------------
هل هذا مجرد حفظ للحفظ؟
--------
اختبرنا ذلك من خلال طلب من الوكلاء استنتاج بيانات وصفية للأوراق (العنوان، المؤلفين، المجلة، السنة) من مواد النسخ المجهولة. كانت معدلات الاسترداد منخفضة جدا، مما يشير إلى أن الوكلاء يعتمدون بشكل أساسي على تنفيذ الشيفرة، وليس على حفظ الأوراق.
------------------------------------
اختبار الاستدلال
--------
كما اختبرنا مهمة أصعب:
هل يمكن للوكلاء استنتاج سؤال البحث في الدراسة من خلال الشيفرة والبيانات فقط؟
كلا العميلين أدوا بشكل مفاجئ.
------------------------------------
تحيز التأكيد
--------
عندما تم إعطاء العملاء ملف PDF الورقي، ظهرت مشكلة جديدة. أحيانا كانوا ينقلون النتائج المبلغ عنها من النص بدلا من تنفيذ الكود.
انخفضت الدقة في المهام غير القابلة للتكرار بشكل حاد.
السياق يساعد في التنفيذ — لكنه يقلل من استقلالية التحقق.
------------------------------------
التملق
--------
مستوحاة من @ahall_research، اختبرنا تأطير الأوامر العدائية، ودفعنا العوامل إلى:
"استكشف تحليلات بديلة تتماشى مع نتائج الورقة العلمية."
زادت الدقة.
لكن الوكلاء أصبحوا أيضا أكثر ميلا لاختلاق النتائج عندما يصبح التكاثر مستحيلا.
------------------------------------
المفارقة
--------
الضغط لإنتاج إجابة يمكن أن يساعد الوكلاء على إصلاح خطوط التنفيذ.
لكن في الوقت نفسه يضعف قدرتهم على القول:
"لا يمكن إعادة إنتاج هذه النتيجة."
قد يكون التعرف على مستحيلة التكاثر هو أهم قدرة علمية.
------------------------------------
ملاحظات
--------
• هذا عمل جاري — الملاحظات مرحب بها.
• اختبار الاختبار متوفر على GitHub.
• مواد النسخ المستضافة على Dataverse.
ورقة + مستودع في الرد أدناه.

240
شركة فري سيستمز تتوسع.
لقد وظفت مجموعة من 10+ زملاء بحثيين ونحن نبني مختبرا جديدا مدعوما بالذكاء الاصطناعي سيقدم أبحاثا وأفكارا ونماذج أولية أكثر توقعا تهدف إلى الحفاظ على حرية الإنسان في عالم خوارزمي.
في الأسابيع القادمة سننشر أبحاثا حول كيفية توصية الذكاء الاصطناعي للناس بالتصويت في اليابان، وعن تجاربنا الناجحة في المراهنة في الانتخابات التمهيدية في تكساس، وحول تكييف طرق التنبؤ المتقدمة بالذكاء الاصطناعي من Bridgewater للتنبؤ بالجغرافيا السياسية، وأكثر من ذلك.
سننظم أيضا هاكاثون أنظمة مجانية وأنا متحمس جدا له.
أثناء البناء، لا نريد أن نفقد ما أنجزناه بالفعل--- الهدف هو أن تساهم كل قطعة بحث في عملية تجميع، لا أن تترك على الإنترنت ثم تنسى إلى الأبد.
ولهذا الغرض، نبدأ ملخصا يوم الجمعة يسمى "فحص النظام" حيث نقدم تحديثات حول أبحاثنا الحالية، وكيف يرتبط بالتطورات الجديدة، وما يعنيه ذلك لبناء الأنظمة الحرة.
الأول سيصدر اليوم. أخبروني برأيكم!

223
الأفضل
المُتصدِّرة
التطبيقات المفضلة
