字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

DmXNOqyd3 · 昨天 19:53

感谢IT之家网友 HH_KK、某咸鱼的小号的线索投递！
IT之家 3 月 10 日消息，字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。
IT之家注意到，早前豆包团队发布了新一代稀疏架构 UltraMem，将模型推理成本砍掉 83%，此次，又开源了 COMET，向模型训练成本出手。
目前，COMET 核心代码已开源，并计划兼容 Triton 等编译生态。
论文链接：https://arxiv.org/pdf/2502.19811
开源地址：https://github.com/bytedance/flux
此文章来自:IT之家如有涉及侵权请通过邮箱联系:fnhjeqj@163.com删除。