Einführung von RadixMLP: Intra-Batch-Präfix-Deduplizierung für 1,4–5x schnelleren Prefill.
Tokens mit identischen Präfixen (wie Systemaufforderungen oder gemeinsamen Abfragen) erzeugen identische Aktivierungen. @feilsystem hat RadixMLP entwickelt, um diese Redundanz zu beseitigen, es dann als Open Source veröffentlicht und zu TEI und BEI hinzugefügt.
Generative KI-Unternehmen werden von Baseten unterstützt.
Warum? Wir sind besessen von den Millisekunden, damit sie die Zukunft gestalten können.
Konzentrieren Sie sich auf das, was Sie tatsächlich unterscheidet. Überlassen Sie uns die Inferenz.
Nur weil es ein bundesweiter Feiertag ist, heißt das nicht, dass wir nachlassen.
MiniMax M2.5 ist jetzt auf unseren Model APIs verfügbar.
Probier es hier aus: