DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Ihtesham

Yatırımcı, yazar, eğitimci ve bir Dragon Ball hayranı 🐉

🚨 NVIDIA, trilyon parametreli yapay zeka modellerini eğitmek için bir plan çıkardı. Ve sessizce bir sonraki nesil modellerin bugünün LLM'lerinin çok ötesine ölçekleneceğini açıklıyor. Makale, dünyanın en büyük modellerinden bazılarını eğitmek için kullanılan aynı altyapı ailesi olan Megatron Core kullanılarak Uzmanlar Karışıklığı (MoE) modellerini eğitmek için bir sistem tanıtmaktadır. MoE'nin temel fikri basit ama güçlüdür: Her token için tüm modeli etkinleştirmek yerine, sistem her tokenı sadece birkaç uzman "uzmana" yönlendirir. Bu, her token için hesaplamayı artırmadan toplam parametreleri büyük ölçeklendirme yapabileceğiniz anlamına gelir. Teoride bu size şunları verir: • Trilyon parametre kapasite • Jeton başına yoğun model seviyesinde hesaplama • Büyük verimlilik artışları Ama pratikte her şeyi bozar. MoE modellerinin eğitilmesi, üç sistem katmanında bir kabus yaratır: Hafıza. İletişim. Hesaplama. Birini optimize ederseniz, diğerlerini darboğaz gibi engellersiniz. NVIDIA'nın çözümü esasen tüm eğitim boru hattının tam yığın ortak tasarımıdır. Birden fazla sistem düzeyinde optimizasyon sundular: • GPU bellek baskısını kontrol etmek için ince taneli yeniden hesaplama ve bellek boşaltma • Tokenların uzmanlar arasında verimli şekilde yönlendirilebilmesi için optimize edilmiş token dağıtıcıları • GPU hesaplama kullanımını maksimize etmek için GEMM + CUDA Grafikleri gruplanmış • Paralel Katlama, GPU'lar arasında esnek çok boyutlu paralellik sağlar • Düşük hassasiyetli eğitim (FP8 / NVFP4) hesaplama maliyetini önemli ölçüde azaltmak için Tüm bunlar NVIDIA'nın açık kaynaklı büyük model eğitim yığını içinde çalışıyor. Performans rakamları absürt. NVIDIA'nın en yeni GPU sistemleri hakkında: • GPU başına 1.233 TFLOPS DeepSeek-V3-685B eğitimi • Qwen3-235B GPU eğitimi başına 974 TFLOPS Ve çerçeve, üretim kümelerindeki binlerce GPU üzerinde ölçekleniyor. Buradaki büyük hikaye sadece daha hızlı antrenman değil. Bu, yapay zeka mimarisinin yönüdür. Yoğun modeller hesaplama ile doğrusal ölçeklenir. MoE modelleri, parametrelerle neredeyse üstel olarak ölçeklenirken, hesaplamayı yönetilebilir tutar. İşte böyle olur: 100B → 1T → 10T parametre modelleri. Aynı hesaplama bütçesi. Sadece daha akıllı yönlendirme. Eğer bir sonraki sınır modelleri dalgası tekrar büyük boyut olarak patlarsa, bu makale onların nasıl eğitileceğini tam olarak açıklıyor. Makale: Megatron Çekirdekli Uzman Karışımı Modellerinin Ölçeklenebilir Eğitimi

En İyiler

Sıralama

Takip Listesi