Introducendo RadixMLP: deduplicazione dei prefissi intra-batch per un prefill da 1,4 a 5 volte più veloce.
I token con prefissi identici (come i prompt di sistema o le query condivise) producono attivazioni identiche. @feilsystem ha sviluppato RadixMLP per eliminare questa ridondanza, poi l'ha reso open source e l'ha aggiunto a TEI e BEI.
Le aziende di AI generazionale sono alimentate da Baseten.
Perché? Ci ossessionano i millisecondi, così possono spedire il futuro.
Concentrati su ciò che ti differenzia realmente. Lascia a noi l'inferenza.