介绍 RadixMLP:批内前缀去重,实现 1.4–5 倍更快的预填充。 具有相同前缀的令牌(如系统提示或共享查询)会产生相同的激活。@feilsystem 开发了 RadixMLP 来消除这种冗余,然后将其开源并添加到 TEI 和 BEI。