🚨 NVIDIA vừa công bố một bản kế hoạch cho việc đào tạo các mô hình AI với một triệu tham số. Và nó một cách âm thầm giải thích cách thế hệ mô hình tiếp theo sẽ mở rộng vượt xa các LLM hiện tại. Bài báo giới thiệu một hệ thống để đào tạo các mô hình Mixture-of-Experts (MoE) sử dụng Megatron Core, cùng một gia đình hạ tầng được sử dụng để đào tạo một số mô hình lớn nhất thế giới. Ý tưởng chính đằng sau MoE rất đơn giản nhưng mạnh mẽ: Thay vì kích hoạt toàn bộ mô hình cho mỗi token, hệ thống sẽ định tuyến mỗi token đến chỉ một vài "chuyên gia" chuyên biệt. Điều đó có nghĩa là bạn có thể mở rộng tổng số tham số một cách khổng lồ mà không cần tăng cường tính toán cho mỗi token. Về lý thuyết, điều này mang lại cho bạn: • Khả năng một triệu tham số • Tính toán mức độ mô hình dày đặc cho mỗi token • Lợi ích hiệu suất khổng lồ Nhưng trên thực tế, nó phá vỡ mọi thứ. Việc đào tạo các mô hình MoE tạo ra một cơn ác mộng trên ba lớp hệ thống: Bộ nhớ. Giao tiếp. Tính toán. Tối ưu một cái và bạn sẽ làm tắc nghẽn cái khác. Giải pháp của NVIDIA về cơ bản là thiết kế đồng bộ toàn bộ quy trình đào tạo. Họ đã giới thiệu nhiều tối ưu hóa cấp hệ thống: ...