Примерно год назад я присоединился к HF, чтобы работать над ускорением с @TheZachMueller. Я знал, как работает распределенное обучение в теории, но имел почти 0 опыта. Я был в восторге от того, что у меня есть несколько H100 для проведения экспериментов. Я присоединился к prime несколько месяцев назад, одним из моих первых проектов было убедиться, что большой запуск trinity с Arcee работает нормально и быстро. Теперь я работаю над тем, чтобы модель на 800B работала плавно на сотнях GPU, и я постоянно использую большую часть нашего исследовательского кластера. Немного саморекламы, но это довольно безумно, что ты можешь просто делать вещи?