Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Andy Hall

Giáo sư @ Stanford GSB, Hoover. Tôi làm việc về công nghệ, chính trị và quản trị. Cố vấn tại tiền điện tử a16z và Meta.

Thú vị là mã của Claude hoạt động tốt hơn codex trong bài tập này. Chúng tôi thấy chúng khá tương tự nhưng các nhiệm vụ của chúng tôi thì khá khác nhau! @xuyiqing bạn có thực hiện bất kỳ so sánh nào giữa hai cái này trong công việc tái tạo của bạn không?

Các tác nhân lập trình AI có thể tái tạo các phát hiện khoa học xã hội đã được công bố không? Trong công việc mới với @_mohsen_m, Fabrizio Gilardi, và @j_a_tucker, chúng tôi giới thiệu SocSci-Repro-Bench — một tiêu chuẩn gồm 221 nhiệm vụ tái tạo từ 54 bài báo — và đánh giá hai tác nhân lập trình tiên tiến: Claude Code và Codex. Kết quả cho thấy cả hai đều có khả năng đáng kể và những rủi ro mới cho khoa học hỗ trợ AI. ------------------------------------ GOAL -------- Một mục tiêu thiết kế chính là tách biệt hai vấn đề khác nhau: 1️⃣ Tài liệu tái tạo có thể tái tạo được không? 2️⃣ Các tác nhân AI có thể tái tạo kết quả khi tài liệu có thể thực thi không? Để cô lập hiệu suất của tác nhân, chúng tôi chỉ bao gồm các nhiệm vụ mà đầu ra giống hệt nhau qua ba lần thực hiện thủ công độc lập. ------------------------------------ DESIGN -------- Các tác nhân nhận được: • dữ liệu ẩn danh + mã • một môi trường thực thi được cách ly Họ phải tự động: • cài đặt các phụ thuộc • gỡ lỗi mã bị hỏng • thực thi quy trình • trích xuất các kết quả yêu cầu Tóm lại: tái tạo tính toán từ đầu đến cuối. ------------------------------------ RESULTS -------- Cả hai tác nhân đã tái tạo một phần lớn các phát hiện đã được công bố. Nhưng Claude Code đã vượt trội hơn Codex một cách đáng kể. Độ chính xác theo nhiệm vụ • Claude Code: 93.4% • Codex: 62.1% Tái tạo theo bài báo (tất cả nhiệm vụ đều đúng) • Claude Code: 78.0% • Codex: 35.8% ------------------------------------ TẠI SAO CÓ SỰ CHÊNH LỆCH? -------- Các gói tái tạo thường chứa các vấn đề: • thiếu phụ thuộc • đường dẫn tệp mã cứng • thông số môi trường không đầy đủ Claude Code thường tự động sửa chữa những vấn đề này. Codex thường không thể phục hồi quy trình thực thi. ------------------------------------ ĐÂY CHỈ LÀ NHỚ HAY KHÔNG? -------- Chúng tôi đã kiểm tra điều này bằng cách yêu cầu các tác nhân suy luận siêu dữ liệu bài báo (tiêu đề, tác giả, tạp chí, năm) từ các tài liệu tái tạo ẩn danh. Tỷ lệ phục hồi rất thấp, cho thấy các tác nhân chủ yếu dựa vào việc thực thi mã, không phải ghi nhớ các bài báo. ------------------------------------ KIỂM TRA LÝ LUẬN -------- Chúng tôi cũng đã kiểm tra một nhiệm vụ khó hơn: Các tác nhân có thể suy luận câu hỏi nghiên cứu của một nghiên cứu chỉ từ mã và dữ liệu không? Cả hai tác nhân đều thực hiện tốt một cách đáng ngạc nhiên. ------------------------------------ THIÊU KẾT QUYẾT ĐỊNH -------- Khi các tác nhân được cung cấp PDF bài báo, một vấn đề mới xuất hiện. Đôi khi họ sao chép kết quả đã báo cáo từ văn bản thay vì thực thi mã. Độ chính xác trên các nhiệm vụ không thể tái tạo giảm mạnh. Ngữ cảnh giúp thực thi — nhưng giảm tính độc lập của việc xác minh. ------------------------------------ SYCOPHANCY -------- Lấy cảm hứng từ @ahall_research, chúng tôi đã thử nghiệm khung thúc đẩy đối kháng, khiến các tác nhân: “khám phá các phân tích thay thế phù hợp với các kết quả đã báo cáo của bài báo.” Độ chính xác tăng lên. Nhưng các tác nhân cũng trở nên có khả năng bịa đặt kết quả hơn khi việc tái tạo là không thể. ------------------------------------ NGHỊCH LÝ -------- Áp lực để đưa ra câu trả lời có thể giúp các tác nhân sửa chữa các quy trình thực thi. Nhưng đồng thời làm giảm khả năng của họ để nói: “Kết quả này không thể được tái tạo.” Nhận ra khi nào việc tái tạo là không thể có thể là khả năng khoa học quan trọng nhất. ------------------------------------ GHI CHÚ -------- • Đây là công việc đang tiến hành — phản hồi là rất hoan nghênh. • Tiêu chuẩn có sẵn trên GitHub. • Tài liệu tái tạo được lưu trữ trên Dataverse. Bài báo + kho lưu trữ trong phản hồi bên dưới.

Hàng đầu

Thứ hạng

Yêu thích