Offene Gewichte sind kein offenes Training. @AddieF38654 aus unserem Team hat ihre Erfahrungen dokumentiert, wie sie versucht hat, ein 1T-Parameter-MoE-Modell mit der bestehenden Open-Source-Infrastruktur nachzutrainieren. Lass uns herausfinden, wie viele Monkey-Patches es braucht, um ein Modell mit offenen Gewichten nachzutrainieren. Ein Thread🧵