English 简体中文 繁體中文 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french
查看: 1|回复: 0

DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

[复制链接]
查看: 1|回复: 0

DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

[复制链接]
查看: 1|回复: 0

233

主题

0

回帖

709

积分

高级会员

积分
709
28kchLO

233

主题

0

回帖

709

积分

高级会员

积分
709
2025-2-19 15:57:57 | 显示全部楼层 |阅读模式
感谢IT之家网友 软媒新友1933769 的线索投递!
            IT之家 2 月 18 日消息,DeepSeek 今日官宣推出 NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理。

NSA 的核心组件包括:

  • 动态分层稀疏策略
  • 粗粒度 token 压缩
  • 细粒度 token 选择
DeepSeek 官方表示,该机制可优化现代硬件设计,加速推理同时降低预训练成本,并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上,其表现与全注意力模型相当或更加优秀。
</p>IT之家附论文链接:</p>https://arxiv.org/abs/2502.11089</p>此文章来自:IT之家如有涉及侵权请通过邮箱联系:fnhjeqj@163.com删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

233

主题

0

回帖

709

积分

高级会员

积分
709

QQ|智能设备 | 粤ICP备2024353841号-1

GMT+8, 2025-3-12 14:35 , Processed in 0.769861 second(s), 29 queries .

Powered by 智能设备

©2025

|网站地图