English 简体中文 繁體中文 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french
查看: 1|回复: 0

字节跳动豆包大模型团队开源MoE架构优化技术,训练成本节省40%

[复制链接]
查看: 1|回复: 0

字节跳动豆包大模型团队开源MoE架构优化技术,训练成本节省40%

[复制链接]
查看: 1|回复: 0

227

主题

0

回帖

691

积分

高级会员

积分
691
DmXNOqyd3

227

主题

0

回帖

691

积分

高级会员

积分
691
昨天 19:53 | 显示全部楼层 |阅读模式
感谢IT之家网友 HH_KK、某咸鱼的小号 的线索投递!
            IT之家 3 月 10 日消息,字节跳动豆包大模型团队官宣开源一项针对 MoE(混合专家模型)架构的关键优化技术,可将大模型训练效率提升 1.7 倍,成本节省 40%。据悉,该技术叫做 COMET,已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
IT之家注意到,早前豆包团队发布了新一代稀疏架构 UltraMem,将模型推理成本砍掉 83%,此次,又开源了 COMET,向模型训练成本出手。
目前,COMET 核心代码已开源,并计划兼容 Triton 等编译生态。
论文链接:https://arxiv.org/pdf/2502.19811
开源地址:https://github.com/bytedance/flux
此文章来自:IT之家如有涉及侵权请通过邮箱联系:fnhjeqj@163.com删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

227

主题

0

回帖

691

积分

高级会员

积分
691

QQ|智能设备 | 粤ICP备2024353841号-1

GMT+8, 2025-3-11 03:36 , Processed in 1.742884 second(s), 27 queries .

Powered by 智能设备

©2025

|网站地图