公众号
关注微信公众号
移动端
创头条企服版APP

寒武纪、华为昇腾0 day适配 DeepSeek-V3.2

355
2025-10-28 10:08 抢发第一评

9 月 29 日,深度求索再一次“没有违背祖训”,在双节前发布版本更新。

相关阅读:DeepSeek又过节搞事!新模型 V3.2-Exp 长文本效率更高,API 降价50%+

而在其发布 DeepSeek-V3.2-Exp 的同一时间,寒武纪即宣布已完成对该模型的“Day 0”适配,并同步开源 vLLM-MLU 推理引擎。

640 (1).png

据此,开发者可立即在寒武纪软硬件平台跑通 671 GB 的新模型。

显然,这并不是一次临时突击。

公告称,针对本次的DeepSeek-V3.2-Exp新模型架构,寒武纪通过Triton算子开发实现了快速适配,利用BangC融合算子开发实现了极致性能优化,并基于计算与通信的并行策略,再次达成了业界领先的计算效率水平。

寒武纪与 DeepSeek的协同并非孤例。

公开报道显示,寒武纪对 DeepSeek 全系列模型都做过系统性优化。

比如,2024 年推出的 V3.1-Terminus 就已在寒武纪云端和边缘卡上,跑出“业界领先的算力利用率”。

无独有偶。

同日,据“华为计算”微信公众号消息,昇腾已快速基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现。

公告称,昇腾不仅提供了DeepSeek-V3.2-Exp的官方参考实践,也同步支持vLLM和SGLang等业界主流大模型推理框架部署,提供完整功能,能够让广泛的开发者在社区直接下载相关代码体验DeepSeek-V3.2-Exp模型,可以在昇腾实现融合算子、稀疏访存、多核并行计算等深度优化能力,并持续优化DeepSeek-V3.2-Exp在主流社区的推理性能。

公众号“华为云和他的朋友们”也公告称,华为云MaaS平台同日适配并上线,欢迎体验。

640.jpg

看起来,国内 AI 芯片公司与大模型公司的“双向奔赴”已有默契。

2023 年 11 月,百度飞桨与华为昇腾联合宣布,基于昇腾 910B 的 Paddle 套件在 1750 亿参数文心大模型上实现 2.3 倍吞吐提升。

同月,燧原科技在进博会展示对智谱 AI GLM-130B 的完整适配,通过自研 TopsRider 软件栈把首 token 延迟压到 350 ms 以内。

2024 年 4 月,壁仞科技 BR100 系列与阿里达摩院 540 亿参数“通义千问”完成对接,官方数据称在 2048 token 长文本场景下,单卡推理吞吐量较 A100 提升 1.8 倍。

2024 年 10 月,天数智芯与月之暗面签署合作备忘录,针对 128k 长上下文场景对 Moonshot 模型做算子级融合,双方联合发布的测试报告显示在 7B 参数规模下端到端延迟下降 42%。

今年 8 月 22 日,DeepSeek 在其微信公众号推送一句留言称,UE8M0 FP8 是针对即将发布的下一代国产芯片设计,主动适配国产芯片支持的精度格式。

此言一出,让寒武纪、海光信息两家 GPU/AI 芯片龙头的市值暴增合计 1700 亿元。

相关阅读:国产GPU芯片 DeepSeek 时刻:单日1.7 万亿市值狂飙背后

可以看到,无论是华为、寒武纪、燧原、壁仞等 AI  芯公司,还是 DeepSeek 等大模型公司, 都已把“模型首发即适配”当成核心指标之一。

背后的共同逻辑是,在大模型参数和上下文长度持续膨胀的背景下,唯有芯片端提前介入网络结构、注意力机制,甚至量化方案的设计,才能把峰值算力真正转化为用户可感知的吞吐和成本优势。

DeepSeek 此次把实验性版本直接放到寒武纪、华为两条硬件跑道同步“压测”,正是这种协作模式走向常态化的最新注脚。

随着国产大模型迭代周期的不断加快,可以预期,“发布即适配”将成国产算力与国产模型共生的日常节奏。

-END-

声明:该文章版权归原作者所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系。
您阅读这篇文章花了0
转发这篇文章只需要1秒钟
喜欢这篇 0
评论一下 0
凯派尔知识产权全新业务全面上线
相关文章
评论
试试以这些内容开始评论吧
登录后发表评论
凯派尔知识产权全新业务全面上线
宁波城市站
金华城市站
×
#热门搜索#
精选双创服务
历史搜索 清空

Tel:18514777506

关注微信公众号

创头条企服版APP