Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Ihtesham

Nhà đầu tư, nhà văn, nhà giáo dục và một người hâm mộ 🐉 Dragon Ball

🚨 NVIDIA vừa công bố một bản kế hoạch cho việc đào tạo các mô hình AI với một triệu tham số. Và nó một cách âm thầm giải thích cách thế hệ mô hình tiếp theo sẽ mở rộng vượt xa các LLM hiện tại. Bài báo giới thiệu một hệ thống để đào tạo các mô hình Mixture-of-Experts (MoE) sử dụng Megatron Core, cùng một gia đình hạ tầng được sử dụng để đào tạo một số mô hình lớn nhất thế giới. Ý tưởng chính đằng sau MoE rất đơn giản nhưng mạnh mẽ: Thay vì kích hoạt toàn bộ mô hình cho mỗi token, hệ thống sẽ định tuyến mỗi token đến chỉ một vài "chuyên gia" chuyên biệt. Điều đó có nghĩa là bạn có thể mở rộng tổng số tham số một cách khổng lồ mà không cần tăng cường tính toán cho mỗi token. Về lý thuyết, điều này mang lại cho bạn: • Khả năng một triệu tham số • Tính toán mức độ mô hình dày đặc cho mỗi token • Lợi ích hiệu suất khổng lồ Nhưng trên thực tế, nó phá vỡ mọi thứ. Việc đào tạo các mô hình MoE tạo ra một cơn ác mộng trên ba lớp hệ thống: Bộ nhớ. Giao tiếp. Tính toán. Tối ưu một cái và bạn sẽ làm tắc nghẽn cái khác. Giải pháp của NVIDIA về cơ bản là thiết kế đồng bộ toàn bộ quy trình đào tạo. Họ đã giới thiệu nhiều tối ưu hóa cấp hệ thống: • Tính toán lại chi tiết & chuyển bộ nhớ để kiểm soát áp lực bộ nhớ GPU • Tối ưu hóa bộ định tuyến token để các token có thể được định tuyến giữa các chuyên gia một cách hiệu quả • Nhóm GEMM + CUDA Graphs để tối đa hóa việc sử dụng tính toán GPU • Gấp đôi song song, cho phép tính toán song song đa chiều linh hoạt trên các GPU • Đào tạo độ chính xác thấp (FP8 / NVFP4) để giảm đáng kể chi phí tính toán Tất cả những điều này chạy bên trong Megatron Core, bộ công cụ đào tạo mô hình lớn mã nguồn mở của NVIDIA. Các số liệu hiệu suất thật là phi lý. Trên các hệ thống GPU mới nhất của NVIDIA: • 1,233 TFLOPS mỗi GPU khi đào tạo DeepSeek-V3-685B • 974 TFLOPS mỗi GPU khi đào tạo Qwen3-235B Và khung đã có khả năng mở rộng trên hàng ngàn GPU trong các cụm sản xuất. Câu chuyện lớn hơn ở đây không chỉ là đào tạo nhanh hơn. Đó là hướng đi của kiến trúc AI. Các mô hình dày đặc mở rộng tuyến tính với tính toán. Các mô hình MoE mở rộng gần như theo cấp số nhân với các tham số trong khi giữ cho tính toán có thể quản lý được. Đó là cách bạn có được: 100B → 1T → 10T mô hình tham số. Cùng ngân sách tính toán. Chỉ cần định tuyến thông minh hơn. Nếu làn sóng mô hình tiên tiến tiếp theo lại bùng nổ về kích thước, bài báo này giải thích chính xác cách chúng sẽ được đào tạo. Bài báo: Đào tạo có thể mở rộng các mô hình Mixture-of-Experts với Megatron Core

Hàng đầu

Thứ hạng

Yêu thích