AI导读:

豆包大模型团队发布全新稀疏模型架构UltraMem,有效解决MoE推理时高额访存问题,推理速度提升2~6倍,成本最高降83%,性能超越MoE,该研究还揭示了新架构的Scaling Law。

每经北京2月11日电(记者杨昕怡)豆包大模型团队今日宣布,提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE(混合专家模型)推理时高额的访存问题,推理速度较MoE架构提升2~6倍,推理成本最高可降低83%。示意图该研究还揭示了新架构的Scaling Law(规模定律),证明其不仅具备优异的Scaling特性,更在性能上超越了MoE。

(文章来源:每日经济新闻)