Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Giáo sư @ Stanford GSB, Hoover. Tôi làm việc về công nghệ, chính trị và quản trị. Cố vấn tại tiền điện tử a16z và Meta.
Công việc rất thú vị về cách nghiên cứu thực nghiệm cần phải phản ứng với kỷ nguyên AI.
Kiểm tra thống kê thông thường với giá trị p xuất phát từ một thế giới mà mỗi bài kiểm tra được cho là khá tốn kém. AI hiện nay làm cho mỗi bài kiểm tra về cơ bản là miễn phí để thực hiện.
Một số điểm chính từ tóm tắt:
--"chúng tôi chứng minh rằng việc sàng lọc sẽ sụp đổ khi việc kiểm tra trở nên rẻ, trừ khi số lượng kiểm tra độ tin cậy yêu cầu tăng ít nhất theo tỷ lệ tuyến tính với chi phí ngược của mỗi bài kiểm tra"
--"chúng tôi lập luận về sự cần thiết phải phát triển các phương pháp để diễn giải các tập hợp nhiều thông số đồng thời"
Vâng! Tôi vẫn chưa biết chính xác điều này sẽ trông như thế nào và cảm giác ra sao nhưng rõ ràng đây là điều cần thiết. Và nó phải cắt theo cả hai hướng:
(1) Bắt và ngăn chặn những phát hiện nghiên cứu được chọn lọc
Nhưng cũng quan trọng không kém:
(2) Phát hiện và thưởng cho những phát hiện tốt.
Điểm số 2 ở đây có thể chứng minh là khó khăn hơn theo một số cách. Tất cả trực giác của chúng ta dường như xoay quanh việc chỉ ra rằng một phát hiện là "ít vững chắc" hơn chúng ta nghĩ, và yêu cầu một cảm giác giả tạo về sự hoàn hảo từ các kết quả đã công bố. Khi chúng ta có thể thấy toàn bộ chòm sao của các phát hiện, chúng ta cần tìm cách đúng đắn để trở nên hào phóng/thực tế hơn về những gì được coi là thông tin hữu ích.

Nic Fishman22:35 9 thg 3
Có một mối lo ngại ngày càng tăng rằng AI sẽ làm hỏng khoa học xã hội thực nghiệm -- rằng các tác nhân có thể p-hack cho đến khi họ tìm thấy điều gì đó "hoạt động."
Chúng tôi nghĩ rằng mối lo ngại đó xứng đáng được xem xét một cách nghiêm túc. Bài báo mới của chúng tôi cho thấy điều đó là đúng theo cách thực nghiệm và làm cho nó trở nên chính xác:
298
Thú vị là mã của Claude hoạt động tốt hơn codex trong bài tập này. Chúng tôi thấy chúng khá tương tự nhưng các nhiệm vụ của chúng tôi thì khá khác nhau!
@xuyiqing bạn có thực hiện bất kỳ so sánh nào giữa hai cái này trong công việc tái tạo của bạn không?

Meysam Alizadeh06:14 7 thg 3
Các tác nhân lập trình AI có thể tái tạo các phát hiện khoa học xã hội đã được công bố không?
Trong công việc mới với @_mohsen_m, Fabrizio Gilardi, và @j_a_tucker, chúng tôi giới thiệu SocSci-Repro-Bench — một tiêu chuẩn gồm 221 nhiệm vụ tái tạo từ 54 bài báo — và đánh giá hai tác nhân lập trình tiên tiến: Claude Code và Codex.
Kết quả cho thấy cả hai đều có khả năng đáng kể và những rủi ro mới cho khoa học hỗ trợ AI.
------------------------------------
GOAL
--------
Một mục tiêu thiết kế chính là tách biệt hai vấn đề khác nhau:
1️⃣ Tài liệu tái tạo có thể tái tạo được không?
2️⃣ Các tác nhân AI có thể tái tạo kết quả khi tài liệu có thể thực thi không?
Để cô lập hiệu suất của tác nhân, chúng tôi chỉ bao gồm các nhiệm vụ mà đầu ra giống hệt nhau qua ba lần thực hiện thủ công độc lập.
------------------------------------
DESIGN
--------
Các tác nhân nhận được:
• dữ liệu ẩn danh + mã
• một môi trường thực thi được cách ly
Họ phải tự động:
• cài đặt các phụ thuộc
• gỡ lỗi mã bị hỏng
• thực thi quy trình
• trích xuất các kết quả yêu cầu
Tóm lại: tái tạo tính toán từ đầu đến cuối.
------------------------------------
RESULTS
--------
Cả hai tác nhân đã tái tạo một phần lớn các phát hiện đã được công bố.
Nhưng Claude Code đã vượt trội hơn Codex một cách đáng kể.
Độ chính xác theo nhiệm vụ
• Claude Code: 93.4%
• Codex: 62.1%
Tái tạo theo bài báo (tất cả nhiệm vụ đều đúng)
• Claude Code: 78.0%
• Codex: 35.8%
------------------------------------
TẠI SAO CÓ SỰ CHÊNH LỆCH?
--------
Các gói tái tạo thường chứa các vấn đề:
• thiếu phụ thuộc
• đường dẫn tệp mã cứng
• thông số môi trường không đầy đủ
Claude Code thường tự động sửa chữa những vấn đề này. Codex thường không thể phục hồi quy trình thực thi.
------------------------------------
ĐÂY CHỈ LÀ NHỚ HAY KHÔNG?
--------
Chúng tôi đã kiểm tra điều này bằng cách yêu cầu các tác nhân suy luận siêu dữ liệu bài báo (tiêu đề, tác giả, tạp chí, năm) từ các tài liệu tái tạo ẩn danh. Tỷ lệ phục hồi rất thấp, cho thấy các tác nhân chủ yếu dựa vào việc thực thi mã, không phải ghi nhớ các bài báo.
------------------------------------
KIỂM TRA LÝ LUẬN
--------
Chúng tôi cũng đã kiểm tra một nhiệm vụ khó hơn:
Các tác nhân có thể suy luận câu hỏi nghiên cứu của một nghiên cứu chỉ từ mã và dữ liệu không?
Cả hai tác nhân đều thực hiện tốt một cách đáng ngạc nhiên.
------------------------------------
THIÊU KẾT QUYẾT ĐỊNH
--------
Khi các tác nhân được cung cấp PDF bài báo, một vấn đề mới xuất hiện. Đôi khi họ sao chép kết quả đã báo cáo từ văn bản thay vì thực thi mã.
Độ chính xác trên các nhiệm vụ không thể tái tạo giảm mạnh.
Ngữ cảnh giúp thực thi — nhưng giảm tính độc lập của việc xác minh.
------------------------------------
SYCOPHANCY
--------
Lấy cảm hứng từ @ahall_research, chúng tôi đã thử nghiệm khung thúc đẩy đối kháng, khiến các tác nhân:
“khám phá các phân tích thay thế phù hợp với các kết quả đã báo cáo của bài báo.”
Độ chính xác tăng lên.
Nhưng các tác nhân cũng trở nên có khả năng bịa đặt kết quả hơn khi việc tái tạo là không thể.
------------------------------------
NGHỊCH LÝ
--------
Áp lực để đưa ra câu trả lời có thể giúp các tác nhân sửa chữa các quy trình thực thi.
Nhưng đồng thời làm giảm khả năng của họ để nói:
“Kết quả này không thể được tái tạo.”
Nhận ra khi nào việc tái tạo là không thể có thể là khả năng khoa học quan trọng nhất.
------------------------------------
GHI CHÚ
--------
• Đây là công việc đang tiến hành — phản hồi là rất hoan nghênh.
• Tiêu chuẩn có sẵn trên GitHub.
• Tài liệu tái tạo được lưu trữ trên Dataverse.
Bài báo + kho lưu trữ trong phản hồi bên dưới.

232
Free Systems đang mở rộng.
Tôi đã thuê một nhóm 10+ nghiên cứu viên và chúng tôi đang xây dựng một phòng thí nghiệm hoàn toàn mới, được hỗ trợ bởi AI, sẽ cung cấp nghiên cứu, ý tưởng và nguyên mẫu kịp thời hơn nhằm bảo vệ tự do của con người trong một thế giới thuật toán.
Trong vài tuần tới, chúng tôi sẽ phát hành nghiên cứu về cách AI khuyến nghị mọi người bỏ phiếu ở Nhật Bản, về các thí nghiệm thành công của chúng tôi trong việc đặt cược ở các cuộc bầu cử sơ bộ Texas, về việc điều chỉnh các phương pháp dự đoán AI tiên tiến của Bridgewater để dự đoán địa chính trị, và nhiều hơn nữa.
Chúng tôi cũng sẽ tổ chức một cuộc thi hackathon Free Systems mà tôi rất hào hứng.
Khi chúng tôi xây dựng, chúng tôi không muốn mất đi những gì chúng tôi đã làm---mục tiêu là mỗi phần nghiên cứu đều đóng góp vào một quá trình tổng hợp, không bị bỏ lại trên mạng và rồi bị quên lãng mãi mãi.
Để đạt được điều đó, chúng tôi đang bắt đầu một bản tóm tắt vào thứ Sáu có tên "Kiểm tra Hệ thống" nơi chúng tôi cung cấp cập nhật về nghiên cứu hiện có của chúng tôi, cách nó liên quan đến các phát triển mới, và ý nghĩa của nó đối với việc xây dựng Free Systems.
Bản đầu tiên đã ra mắt hôm nay. Hãy cho tôi biết bạn nghĩ gì!

215
Hàng đầu
Thứ hạng
Yêu thích
