Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop

Ihtesham
Nhà đầu tư, nhà văn, nhà giáo dục và một người hâm mộ 🐉 Dragon Ball
Một sinh viên ngành CS tại MIT đã hoàn thành học kỳ cuối với GPA 4.0.
Tôi đã tìm thấy quy trình làm việc NotebookLM của anh ấy bị chôn vùi trong một chủ đề trên Reddit lúc 2 giờ sáng. Anh ấy đã xóa nó một giờ sau đó.
Đây chính xác là những gì anh ấy đã làm.
Anh ấy không bao giờ tải lên các slide bài giảng và yêu cầu một bản tóm tắt.
Lời nhắc đầu tiên của anh ấy luôn là: "Đây là ghi chú của tôi, chương sách giáo khoa và các đề thi của năm ngoái. Hãy cho tôi biết 3 cách mà các giáo sư lừa học sinh trong các kỳ thi với khái niệm này. Sau đó tạo ra một bài toán kết hợp nó với mọi thứ từ 3 tuần qua."
Anh ấy không học tài liệu.
Anh ấy đang học cách mà tài liệu bị lợi dụng chống lại mình.
Nhưng động thái khiến tôi phải đóng laptop và nhìn lên trần nhà là động thái thứ hai của anh ấy.
Anh ấy đã tải lên từng bài tập mà anh ấy đã làm sai trong suốt học kỳ.
Sau đó hỏi: "Tìm ra mẫu trong những sai lầm của tôi. Khái niệm nào là thứ tôi luôn hiểu sai dưới nhiều hình thức khác nhau?"
Mọi sinh viên khác đều sử dụng NotebookLM như một công cụ tìm kiếm.
Anh ấy sử dụng nó như một chiếc gương.
Lời nhắc thứ ba của anh ấy được lưu dưới dạng phím tắt trên điện thoại.
"Dựa trên ghi chú của tôi và những đề thi này, chủ đề nào mà tôi ít chuẩn bị nhất ngay bây giờ? Hãy cho tôi 5 câu hỏi có khả năng xuất hiện trong kỳ thi cuối mà tôi chưa thể trả lời."
Ba lời nhắc. Mỗi tuần một lần.
Trong khi các bạn cùng lớp của anh ấy đang đọc lại các slide vào đêm trước kỳ thi, anh ấy đã biết chính xác nơi mình sẽ thất bại.
Sau đó, anh ấy đã khắc phục nó.
Anh ấy không học chăm chỉ hơn.
Anh ấy chỉ không bao giờ để mình cảm thấy thoải mái.

13
🚨 NVIDIA vừa công bố một bản kế hoạch cho việc đào tạo các mô hình AI với một triệu tham số.
Và nó một cách âm thầm giải thích cách thế hệ mô hình tiếp theo sẽ mở rộng vượt xa các LLM hiện tại.
Bài báo giới thiệu một hệ thống để đào tạo các mô hình Mixture-of-Experts (MoE) sử dụng Megatron Core, cùng một gia đình hạ tầng được sử dụng để đào tạo một số mô hình lớn nhất thế giới.
Ý tưởng chính đằng sau MoE rất đơn giản nhưng mạnh mẽ:
Thay vì kích hoạt toàn bộ mô hình cho mỗi token, hệ thống sẽ định tuyến mỗi token đến chỉ một vài "chuyên gia" chuyên biệt.
Điều đó có nghĩa là bạn có thể mở rộng tổng số tham số một cách khổng lồ mà không cần tăng cường tính toán cho mỗi token.
Về lý thuyết, điều này mang lại cho bạn:
• Khả năng một triệu tham số
• Tính toán mức độ mô hình dày đặc cho mỗi token
• Lợi ích hiệu suất khổng lồ
Nhưng trên thực tế, nó phá vỡ mọi thứ.
Việc đào tạo các mô hình MoE tạo ra một cơn ác mộng trên ba lớp hệ thống:
Bộ nhớ. Giao tiếp. Tính toán.
Tối ưu một cái và bạn sẽ làm tắc nghẽn cái khác.
Giải pháp của NVIDIA về cơ bản là thiết kế đồng bộ toàn bộ quy trình đào tạo.
Họ đã giới thiệu nhiều tối ưu hóa cấp hệ thống:
• Tính toán lại chi tiết & chuyển bộ nhớ để kiểm soát áp lực bộ nhớ GPU
• Tối ưu hóa bộ định tuyến token để các token có thể được định tuyến giữa các chuyên gia một cách hiệu quả
• Nhóm GEMM + CUDA Graphs để tối đa hóa việc sử dụng tính toán GPU
• Gấp đôi song song, cho phép tính toán song song đa chiều linh hoạt trên các GPU
• Đào tạo độ chính xác thấp (FP8 / NVFP4) để giảm đáng kể chi phí tính toán
Tất cả những điều này chạy bên trong Megatron Core, bộ công cụ đào tạo mô hình lớn mã nguồn mở của NVIDIA.
Các số liệu hiệu suất thật là phi lý.
Trên các hệ thống GPU mới nhất của NVIDIA:
• 1,233 TFLOPS mỗi GPU khi đào tạo DeepSeek-V3-685B
• 974 TFLOPS mỗi GPU khi đào tạo Qwen3-235B
Và khung đã có khả năng mở rộng trên hàng ngàn GPU trong các cụm sản xuất.
Câu chuyện lớn hơn ở đây không chỉ là đào tạo nhanh hơn.
Đó là hướng đi của kiến trúc AI.
Các mô hình dày đặc mở rộng tuyến tính với tính toán.
Các mô hình MoE mở rộng gần như theo cấp số nhân với các tham số trong khi giữ cho tính toán có thể quản lý được.
Đó là cách bạn có được:
100B → 1T → 10T mô hình tham số.
Cùng ngân sách tính toán.
Chỉ cần định tuyến thông minh hơn.
Nếu làn sóng mô hình tiên tiến tiếp theo lại bùng nổ về kích thước, bài báo này giải thích chính xác cách chúng sẽ được đào tạo.
Bài báo: Đào tạo có thể mở rộng các mô hình Mixture-of-Experts với Megatron Core

12
Hàng đầu
Thứ hạng
Yêu thích

