
智东西
算力,已成为推动AI产业捏续演进的中枢引擎。跟着国产大模子体系的快速崛起,构建自主、可控、可捏续的国产算力生态闭环,让国产算力平台与国产AI生态深度适配,已成为产业界的共鸣与要津方针。
令东谈主可喜的是,本年以来,国产算力平台与国产AI生态的“Day 0”适配、勾搭窜改等音书链接传出。动作国产算力的代表企业,在生态层面,寒武纪以愈加绽开的姿态积极拥抱国产AI生态,与主流AI社区和当先企业保捏深度协同。
寒武纪本年在阿里Qwen 3系列模子、DeepSeek-V3.2-Exp模子发布当日,就秘书完成适配,这意味着两边在模子发布之前,就已张开深度和洽。除此除外,寒武纪还与商汤、智谱、阶跃星辰官宣了和洽,股东国产算力与国产大模子的深度适配。
这些和洽,闪开发者在寒武纪平台上大约低资本完成迁徙与部署,显赫裁汰算力替代与生态和会的门槛。
寒武纪树立的初志是为“东谈主工智能的大爆发”提供底层算力支捏,不仅要硬件算力弘大,更要软件通用、易用。寒武纪一直以来遴荐了西席推理和会、调处的基础软件平台研发战术,构建了从自研芯片架构到高性能软件平台的无缺体系,罢了了策划架构、编译优化与算法诊治的深度和会:硬件为算法提供极致的并行性能与能效比,软件则通过智能编译、诊治与适配,让每一份算力最大化开释。
寒武纪打造的基础软件平台Cambricon NeuWare,让用户与开发者大约超过不同的寒武纪硬件和应用场景,裁汰上手难度,普及开发效力,快速迁徙与部署AI应用。
经过多年插足与积蓄,Cambricon NeuWare照旧日趋闇练,全面兼容社区最新PyTorch版块和Triton算子开发言语,支捏用户模子和自界说算子快速迁徙,其在多格式的上都已达到业界当先水平。
针对现时业界极具挑战的大界限集群运维实践,Cambricon NeuWare进一步丰富和完善了多项集群器具,为大界限西席推理业务在集群环境中的部署运维调试和调优提供了坚实的底座。
繁密国产AI厂商对寒武纪算力的相信,充分考证寒武纪基础软件平台Cambricon NeuWare的褂讪性和竞争力,照旧知足了实在寰球的商用要求。
一、从大模子到搜广推训推惩处决议,寒武纪完成大界限时代和产物考证大模子时代正成为智能经济的中枢驱能源,久了重塑东谈主机交互的方式。“搜广推”场景——即搜索、告白与推选系统——成为大模子时代落地最具价值的前沿阵脚之一。大模子赋能的搜广推系统,不仅带来用户体验的显赫普及,更重塑了流量分发的逻辑:让“找信息”、“看实质”、“买东西”从被迫推选走向主动相识,从要津词匹配迈向意图细察。
大模子与“搜广推”的和会,不仅是一场时代阅兵,更是交易模式的再造。寒武纪在大模子与搜广推的西席推理上,都已完成了大界限的时代和产物考证。
在搜广推西席方针,寒武纪稳步股东时代和产物考证。考证扫尾标明,惩处决议可撑捏多场景下的流式西席任务,可捏续超数月褂讪运行,精度与褂讪性均知足要求。捏续性能优化方面,完成Layernorm/RMSNorm/L2Norm等多种图匹配和会,显赫普及性能。在图和会基础上进一步优化XLA支捏,并取得更显赫的加快比扫尾。
在大模子西席方针,寒武纪要点支捏DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE类模子西席,同期膨胀了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模子的西席支捏。基于原生FP8的策划智商,新增Qwen/DeepSeek等系列汇集FP8的西席支捏,精度合适预期。
在大模子推理方针,寒武纪琢磨并实践W4A4以及MX-FP8/MX-FP4等新式数据类型,探索并支捏多种高效端庄力机制,包括Sparse Attention与Linear Attention。
寒武纪紧跟先进模子的演进,支捏Qwen-Omni等多模态和会模子、Hunyuan3D等3D生成模子、CosyVoice等语音生成模子,以及DLM和VLM等新兴架构,确保时代栈的先进性与完备性。
值得一提的是,通过深度的生态和洽,针对DeepSeek V3.2-Exp模子,寒武纪罢了发布即适配的支捏,并与和洽伙伴同步开源适配代码。
与此同期,捏续优化vLLM推理引擎,完善羼杂精度低比特量化推理机制,支捏通算并行优化,支捏PD分离部署,支捏基于类IBGDA的极致低时延大界限大师并行,支捏Torch.compile本性优化主机侧瓶颈,罢了了大模子应用的全场所加快。
寒武纪捏续开展对DeepSeek、Qwen、Wan、Hunyuan等系列最新开源模子的极致性能优化,并专项攻坚长序列与超低解码延时等场景的性能优化,捏续保捏性能当先上风。
寒武纪大约在大模子与“搜广推”训推方面取得快速冲破,完成大界限时代和产物考证,源于寒武纪长久的时代深耕与软硬协同智商。恰是这种软硬一体、兼具性能当先与部署高效的中枢竞争力,让寒武纪大约快速取得商场信任和认同。

▲ 寒武纪基础软件平台Cambricon NeuWare,图中仅列举部分组件,关系缩写词精粹请见文末。
二、高褂讪驱动和运行时库,让AI企业无忧膨胀底层驱动的高褂讪性是业务部署的攻击前置条目,寒武纪的驱动能撑捏企业业务运行数月不断机。同期,寒武纪的驱动在业务优化迭代中,大幅普及了浑沌智商,在极具挑战的搜广推和大模子推理场景中,最大适度地根除了主机侧瓶颈,为端到端达成当先的策划效力打下了坚实的基础。
寒武纪通过细粒度的并行时代,解耦数据依赖和诊治依赖,极限压榨Kernel函数的浑沌智商,重叠多路DSA异方程序和协同优化,Kernel函数诊治浑沌可达每秒几十万个任务,罢了业界当先的Kernel浑沌智商。
全面支捏Kernel graph的批量下发功能,可运行时汇注多个算子单次下发,支捏在开发侧驻留和下发,罢了极低蔓延的多Kernel下发,延时水平与海外竞品格外。
增多类IBGDA接口,为通讯库进行极低时延的大师并行通讯提供系统保险。
寒武纪的驱动和运行时库支捏丰富的开发切分使用场景:
(1)visible cluster:运行时可编程的弹性拆分,可用于快速部署;
(2)sMLU:基于时候复用时代,可用于docker快速部署;
(3)MIM:物理辨认,全靠近标海外竞品MIG时代。
三、编译器和调试调优器具捏续迭代,达到业内当先效力BANG C言语是寒武纪BANG异构并行编程模子的编程言语,在C/C++言语基础上针对MLU架构特色进行膨胀,不错高效编写在MLU上运行的并行法子,充分哄骗MLU大界限并行架构来加快策划任务。
BANG C支捏丰富的编译优化时代,包括链接时优化(LTO)、基于Profiling响应优化(PGO)、基于函数调用关系的函数级片上空间复用、Device侧动态链接机制、编译器静态推导访存教导地址空间、任务内并行教导流自动同步算法、优化内存依赖分析、教导级并行的局部教导诊治、全局教导诊治以及合适MLU架构的高性能教导布局优化。
通过这一系列时代,最大适度的进展芯片的一皆后劲,如矩阵乘法等算子可达业界当先的效力。
捏续快速迭代Triton算子开发言语,支捏Triton 3.4通盘本性,包括FP8/FP4的数据类型。 引入fast libentry,优化Triton Kernel的主机端支出,在小Workload场景性能普及显赫。Triton编译器后端罢了多种优化:
(1)优化软件活水的片上ram占用,优化软件活水的并发度,罢了均衡软件活水性能和单教导性能的自动软件活水决议;
(2)罢了教导并行、片上ram占用、教导蔓延隐藏等多方针的教导诊治优化;
(3)罢了任务并行的自动调优和自动诊治;
(4)罢了自动轮回归拢;
(5)罢了基于算子语义的访存和策划优化,如transpose穿透和归拢、slice、broadcast穿透等;
(6)优化教导和会和教导取舍的性能建模。
通过上述优化,普及了Triton Kernel性能泛化性,其中Matmul、FlashAttention类和HSTU类算子性能普及显明,部分热门算子照旧与手写算子性能格外。
进一步完善系统和算子的调试调优器具:支捏算子core dump,罢了很是现场的中枢转存,提供精确现场和调试信息对应关系,提供core dump文献贯通器具,可快速分析定位算子出现很是的根因。
在主机侧与开发侧并行度调优方面,CNPerf可在极低追踪支出的情况下罢了全维度性能数据麇集,可精确拿获主机侧与开发侧实践流、PMU性能目的、函数调用栈等要津信息,支捏Kernel策划、内存拷贝、通讯任务等多类型任务追踪,覆盖从底层硬件到表层应用的全栈性能数据。
CNPerf-GUI智能调优智商凸起,内置大师提议系统可自动检测开发空泡、哄骗率不及、荟萃通讯恭候等问题,精确定位热门算子与性能瓶颈。此外CNPerf-GUI针对多机多卡场景,稀奇提供多日记自动对时与集群迭代分析等功能,进一步简化用户在复杂场景下的调优复杂度。
在单算子调优方面,CNPerf可支捏GHz采样频率的硬件责任景象采样,精确记载MLU前后端责任景象。用户可基于该功能分析流间/核间同步、算子软件活水排布等问题,最大化哄骗硬件后端资源。
CNPerf-GUI适配Linux、macOS、Windows多平台,支捏CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit等日记体式,且支捏超大日记文献(上亿函数记载)的快速加载及通达操作。
新增法子正确性分析器具CNSantizer,使用运行时插桩时代自动完成多核间竞争观望检测、单核内多教导流竞争观望检测、Device侧内存越界观望检测、未界说法子步履检测、使用未运行化内存检测等。
新增法子性能分析和调优提议器具CNAdvisor,使用运行时插桩麇集以及硬件性能计数器麇集方式获取法子运行时景象,并左证性能调优教授库,自动分析法子性能问题并绚烂出对应源代码位置,进一步给出优化提议。
四、捏续打磨中枢基础算子,打造可靠维测平台寒武纪策划库积极拥抱开源社区的时代演进,捏续迭代打磨中枢基础算子的功能、性能和褂讪性,更快更好地支捏在寒武纪智能芯片上高效、褂讪地运行开源和独到模子。策划库针对搜广推、大言语模子、文生图和文生视频等热门场景作念了深入的功能膨胀和性能优化:
大界限Embedding Table寥落访存和策划极致优化,性能与GPU竞品格外;
GEMM/BatchGEMM/GroupGEMM等矩阵乘类算子性能泛化得到显赫增强,大界限矩阵乘HFU达到行业当先水平;
矩阵乘类算子支捏多种社区公开/独到定制的低精度量化功能;
支捏类CUTLASS GEMM模板库的膨胀开发和AutoTuning;
Attention类算子在低精度加快等方针的探索和研发后果已生效完成考证,取得精采的加快效果;
支捏大言语模子使用的MTP时代,开发了用于优化MTP性能的Top-k和Top-p采样、立时采样等和会算子。
为支捏策划库的捏续快速迭代,保险策划库软件质料的同期作念到精度性能不回退,寒武纪策划库团队还打造了可靠的维测平台,提供了丰富的维测器具,开发了高覆盖度的功能性能测例,并制定了科学的验收圭臬。
五、通讯库膨胀性并排海外主流竞品,集群器具赋能万卡场景通讯库针对大界限场景进行专项优化:新增HDR/DBT等Allreduce通讯算法,优先普及大界限条目下的通讯带宽,对Alltoall操作进行深度优化,使其大界限膨胀性达到与海外主流竞品格外的水平。
通讯库同步加强可维可测关系的功能,支捏在线打点、模块化日记、高可靠干事模块等,匡助用户大约快速分析通讯下发诞妄,很是卡死等问题,提高集群通讯可用性。通讯库通过在Kernel支捏RoCE网卡的RDMA操作(类IBGDA)显赫优化大界限大师并行场景下的ALL2ALL通讯蔓延,普及了MoE类模子推理任务的端到端浑沌。
CntrainKit-Accu(大界限集群精度定位器具):为万卡溜达式西席场景提供端到端精度定位,提供精度目的在线监控,并针对精度问题进行自动化分级、麇集信息、智能分析并提供对应惩处决议。CntrainKit-Accu器具还全面支捏NaN/Inf很是检测与快速定位,罢了很是点级别的秒级溯源,大大普及大模子和搜广推等场景的大界限西席精度问题排查效力,让每一次精度问题都能被精确拿获。
CntrainKit-Monitor(大界限集群监控调优器具):罢了对万卡级集群西席任务的及时通讯与算子性能画像,具备毫秒级任务健康可视化智商,支捏算子粒度的性能主见,识别AI功课中的性能瓶颈。具备万卡界限西席任务的“可不雅、可查、可优”智商,实在罢了大界限集群的“问题自感知”。
CNCE(集群监管平台):构建覆盖策划、汇集、存储的数据中心全景监控体系,罢了对十万卡级算力集群的秒级景象麇集与拓扑可视化。平台具备自动发现、智能会诊、自动处理的闭环故障管聪慧商,支捏万卡级任务的多维很是会诊与根因定位,让用户专注于算法窜改与模子西席,无需再为底层硬件波动分神。CNCE的上线使集群运维从“东谈主工巡检”迈向“智能自治”,显赫普及大界限 AI 西席的可用性与褂讪性。
CNAnalyzeInsight(故障分析器具):CNAnalyzeInsight是智能日记分析与根因会诊引擎,支捏对 GB 级日记的秒级检索与多维团员分析。具备在线及时会诊告警与离线快速分析双模式,大约罢了“很是发现、问题定位、原因归纳、开发提议生成”的故障会诊闭环,显赫普及西席任务的褂讪性与问题处理效力。
六、拥抱开源大趋势,提供GPU零资本迁徙器具寒武纪快速跟进社区PyTorch的进展,支捏 PyTorch 2.1到PyTorch 2.8的一皆社区版块,适配了包括DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor以及Inductor cppwrapper等一系列要津功能。
Torch compile性能举座上追平GPU compile加快比,高效撑捏了产物在多个西席和推理场景下的生效考证。
寒武纪还提供GPU Migration一键迁徙器具,匡助用户近乎零资本将模子从GPU迁徙到MLU。同期配备TorchDump精度调试器具和Torch Profiler性能调试器具,助力用户高效定位和惩处精度和性能问题。
此外,寒武纪还支捏PyTorch Lightning、TorchTitan、TorchRec等社区生态,并建立快速跟进社区版块的长效机制,可在社区版块发布后2周内罢了MLU适配版块的发布。
七、近十年捏续打磨迭代,寒武纪助AI走进千行百业通过近十年的捏续打磨迭代,寒武纪已构建出一套高效、易用、褂讪、闇练且具备高可膨胀性的软硬一体化产物体系。凭借当先的芯片时代与完善的基础软件平台,寒武纪产物照旧在大模子、搜广推、图片与视频生成和各样多模态的西席与推理场景中生效完成考证,赢得往日认同。
在此流程中,寒武纪产物不竭袭取更多大界限场景高强度检修,推动软件平台与芯片体系捏续进化,变成了“应用促进优化、优化推动更强应用”的良性轮回。
通过为用户提供更高效、更褂讪、更广覆盖的支捏,寒武纪加快赋能产业智能化转型,推动AI智商实在走进千行百业。 “让机器更好地相识和干事东谈主类”,寒武纪的愿景正在一步一步成为践诺。
附录:寒武纪基础软件平台Cambricon NeuWare图中标注的缩写词全称
1. Cambricon HLO:机器学习模子高等操作集(HLO)的寒武纪后端;
2. CNNL:Cambricon Network Library,寒武纪东谈主工智能策划库;
3. CNNL-Extra:Cambricon CNNL Extra,寒武纪东谈主工智能策划库的膨胀库;
4. CNCV:Cambricon Computer Vision Library,寒武纪策划机视觉库;
5. CNCL:Cambricon Communications Library,寒武纪高性能通讯库;
6. CNFFmpeg:Cambricon FFmpeg,基于开源FFmpeg开发的硬件加快库;
7. CNCC:Cambricon Compiler Collection,寒武纪BANG C言语编译器;
8. CNAS:Cambricon Assembler,寒武纪汇编器组件;
9. CNGDB:Cambricon GNU Debugger,寒武纪BANG C言语调试器具;
10. CNSanitizer:Cambricon Sanitizer,寒武纪代码检测器具;
11. CNPAPI:Cambricon Profiling API,寒武纪性能分析接口库;
12. CNPerf:Cambricon Performance,寒武纪性能分析器具;
13. CNPerf-GUI:Cambricon Performance Graphical User Interface,寒武纪性能主见图形化器具;
14. CNMon:Cambricon Monitor,寒武纪开发监控与管制号令行器具;
15. CNVS:Cambricon Validation Suite,寒武纪开发考证器具集;
16. CNFieldiag:Cambricon Field Diagnostic,寒武纪现场会诊器具;
17. CNAnalyzeInsight:寒武纪故障分析器具;
18. CNCL-benchmark:Cambricon Communications Library Benchmark,寒武纪通讯库性能基准测试器具;
19. Cambricon Device Plugin:寒武纪开发插件;
20. CCOMP:Cambricon Cluster Operation Management Platform,寒武纪智算运管平台。
寒武纪在“寒武纪开发者”微信公众号上打造了开发者疏通平台,开发者不错在这里第一时代获取寒武纪开发关系的新产物发布,以及线上线下行径有计划等甲级职业联赛,推选柔顺~
