Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anubhav
Việc thu thập dữ liệu từ một trang web toàn bộ trước đây mất:
Một script Python.
Playwright hoặc Selenium.
Xoay vòng proxy.
Logic giới hạn tốc độ.
Xử lý lỗi.
3 giờ để gỡ lỗi tại sao trang 47 lại trả về mã 403.
Bây giờ chỉ cần một cuộc gọi API.
Mọi startup thu thập dữ liệu web đã huy động hàng triệu để giải quyết vấn đề này giờ chỉ còn là một điểm cuối duy nhất.
Mọi freelancer tính phí 500 đô la để "trích xuất dữ liệu trang web" giờ đã mất toàn bộ mô hình kinh doanh của họ cho một lệnh /crawl.
HTML. Markdown. JSON. Chọn định dạng của bạn. Không cần script. Không cần trình duyệt. Không đau đầu.
Toàn bộ ngành thu thập dữ liệu web vừa được giảm xuống chỉ còn một dòng mã.
Ai đó sẽ sử dụng điều này để sao chép trang web của mọi đối thủ cạnh tranh trước thứ Sáu. 💀

Cloudflare Developers05:51 11 thg 3
Giới thiệu điểm cuối /crawl mới - chỉ cần một cuộc gọi API và toàn bộ trang web sẽ được thu thập.
Không cần kịch bản. Không cần quản lý trình duyệt. Chỉ cần nội dung ở định dạng HTML, Markdown hoặc JSON.

127
Bạn có đang chú ý ngay bây giờ không?
Karpathy vừa mở mã nguồn một kho lưu trữ nơi một tác nhân AI tự thực hiện nghiên cứu ML của riêng nó. Tự động. Trong một vòng lặp. Trong khi bạn ngủ.
630 dòng mã. Mỗi điểm trong đồ thị là một lần huấn luyện LLM hoàn chỉnh.
AI chọn kiến trúc, điều chỉnh các siêu tham số, cam kết mã và bắt đầu lại.
Không có sự can thiệp của con người.
Bạn đã dành 6 tháng học một khóa học trên Udemy để học cách điều chỉnh tốc độ học.
Tác nhân này làm điều đó 50 lần trước khi bạn uống cà phê buổi sáng.
Người đã dạy internet về học sâu vừa tự động hóa nhà nghiên cứu.
Các tiến sĩ ML sắp phát hiện ra rằng luận án của họ chỉ là một lần huấn luyện 5 phút trên một GPU duy nhất.

Andrej Karpathy03:53 8 thg 3
Tôi đã đóng gói dự án "autoresearch" vào một kho lưu trữ tối thiểu tự chứa mới nếu mọi người muốn thử nghiệm vào cuối tuần. Nó cơ bản là lõi đào tạo LLM nanochat được rút gọn xuống phiên bản một tệp, một GPU với khoảng 630 dòng mã, sau đó:
- con người lặp lại trên prompt (.md)
- tác nhân AI lặp lại trên mã đào tạo (.py)
Mục tiêu là thiết kế các tác nhân của bạn để đạt được tiến bộ nghiên cứu nhanh nhất vô hạn mà không cần sự tham gia của bạn. Trong hình, mỗi chấm là một lần chạy đào tạo LLM hoàn chỉnh kéo dài đúng 5 phút. Tác nhân làm việc trong một vòng lặp tự động trên một nhánh tính năng git và tích lũy các cam kết git vào kịch bản đào tạo khi nó tìm thấy các cài đặt tốt hơn (có độ mất mát xác thực thấp hơn vào cuối) của kiến trúc mạng nơ-ron, bộ tối ưu hóa, tất cả các siêu tham số, v.v. Bạn có thể tưởng tượng so sánh tiến bộ nghiên cứu của các prompt khác nhau, các tác nhân khác nhau, v.v.
Một phần mã, một phần khoa học viễn tưởng, và một chút tâm thần :)

94
Hàng đầu
Thứ hạng
Yêu thích

