2026-05-03 19:21:56

通宝TB222-手机版官网- DeepSeek V4首发适配背后:昇腾为什么坚持不做CUDA兼容层?

分享

  导语:抛却兼容CUDA捷径,昇腾用自立生态改写竞争逻辑。

AI行业的节拍正于变患上愈来愈快。

从去年的年夜模子,到本年Agent的集中发作,技能热门于连续切换。但于表层变化之下,有一个趋向险些没有发生转变:模子范围与利用强度的晋升,正于连续推高对于算力的需求。

当模子范围、挪用频率与运用繁杂度同时增加,纯真依靠算力重叠已经经难以为继。

于这类场合排场下,开发者自然但愿找到一套已经经颠末验证、能笼罩全链路的成熟系统。这恰是CUDA生态于已往十几年成立起来的护城河:它不仅提供了算力,更界说了从编程到部署的一整套尺度。

也恰是于如许的配景下,一个更实际的问题最先浮出水面:当CUDA生态已经经形成不变闭环,厥后者的路径究竟是甚么?是尽可能兼容,以降低迁徙成本;还有是从底层出发,成立一套不凭借既有系统的新布局?

华为张良给出了他的谜底,他于分享会上重复夸大:假如底层布局不转变,上层生态就很难真正成立。

这象征着,当前这场竞争,已经经不只是算力机能的比力,而是一次缭绕“系统”的重构。

DeepSeek V4首发适配背后:昇腾为什么坚持不做CUDA兼容层?

为何“继承优化”已经经不敷了?

于AI基础举措措施成长的初期阶段,“能不克不及跑起来”曾经经是最焦点的判定尺度。

但跟着年夜模子进入工程化与范围化阶段,这一尺度迅速变患上再也不充实。体系的瓶颈,最先从“单点能力不足”,转向“总体链路是否匹配真实负载”。

张良于回首昇腾初期成长时,并无逃避这一点。他提到,“2018年CANN刚发布时,咱们知道CANN及硬件都是不完善的”。

那一阶段属在典型的“可运行但未成熟”状况,行业的存眷点更多集中于框架对于比、机能指标等表层问题,而真正决议持久能力的底层布局,并无被充实睁开。

面临年夜模子时代的新负载——长序列带来的访存压力、低精度练习成为主流,以和MoE等繁杂模子架构的涌现,昇腾急需解决编程模子不敷矫捷、访存粒度没法适配、低精度撑持缺掉等问题。

这些问题没法经由过程软件优化或者算子补钉完全解决,只能于芯片及体系底层从头设计。

迁移转变发生于近两年。

根据张良的说法,从2025年最先,昇腾团队“痛下刻意”,再也不缭绕局部问题举行修补,而是回到一个更底子的判定:假如底层布局不转变,上层生态就不成能真正成立。

于最新一代昇腾950芯片中,这类调解表现于多个方面:编程模子更靠近主流并行计较范式,降低开发迁徙成本;数据拜候引入更细粒度访存机制,以削减年夜模子场景下的无效带宽耗损;同时提早撑持FP8等低精度计较,以晋升吞吐并支撑更年夜模子范围。

张良提到:“有客户于测试不到一周后,就直接做出了下单决议计划。”

与此同时,昇腾于架构路径上也做出了一个要害选择。于专用加快芯片逐渐鼓起的配景下,针对于特定场景举行深度优化,往往可以得到更高的短时间效率。

但张良明确暗示,团队并无沿着这一起径继承推进,而是对峙通用架构标的目的。缘故原由于在,假如体系能力被限制于特定场景中,就很难形成外溢,也没法支撑多样化运用的连续增加。

这一选择象征着,昇腾其实不只是试图把模子“跑患上更快”,而是于解决一个更持久的问题:当模子不停变化、负载连续增加、开发范式不停演进时,这套体系是否仍旧可以或许承载这些变化。

DeepSeek V4首发适配背后:昇腾为什么坚持不做CUDA兼容层?

为何不克不及“做一个CUDA兼容层”?

假如说底层布局决议了一套体系“能做到甚么”,那末生态则决议了“有无人愿意于上面继承做”。

于当前AI基础举措措施格式中,CUDA已经经不仅是一套技能方案,而是一整套高度不变的开发系统。从编程模子、东西链到社区与人材布局,它所形成的,不只是功效层面的能力,更是一种“默许可用”的情况。

对于在厥后者而言,最直接的路径,是尽可能向这一系统挨近——经由过程接口兼容与生态复用,降低开发者的迁徙门坎。

这是一条实际且常见的路径,但昇腾并无选择沿着它走下去。

张良给出的判定很是直接:“假如基在CUDA来做,那咱们做的一切生态成长,都没法完全自立。”

这句话所指向的,其实不只是技能线路之争,而是一个更底层的问题:假如焦点系统成立于别人的尺度之上,那末不管投入几多工程资源,终极强化的仍旧是原有体系,而不是自身能力。

进一步看,这类凭借瓜葛还有象征着技能演进自动权的缺掉。张良提到,“一旦呈现危机的时刻,这一套系统做不到,你的特征于内里就没了。”

这里的“特征”,不仅是详细功效,也包括系统可以或许连续演进的空间。假如要害能力受限在既有框架,那末新的特征就很难真正落地,更难形发展期堆集。

于这一判定之下,昇腾选择了一条更繁杂但更具自力性的路径:于底层系统上对峙自研,于上层生态上尽可能对于齐主流。

这象征着,于虚拟指令集、编译器以和运行时等要害环节,昇腾不依靠既有尺度,而是构建本身的实现;而于开发接口与利用方式上,则自动适配主流框架,使开发者可以于认识的情况中利用这套体系。

这类“分层处置惩罚”的方式,素质上是于节制权与利用门坎之间寻觅均衡:既不彻底凭借,也不闪开发者从零最先。

但这条路径的难度,很快表现于现实推进历程中。

于主流开源框架中,新硬件往往只能以插件情势接入,难以进入骨干系统。

张良提到,昇腾最初面临的恰是如许的环境——对于方其实不直接接纳,而是建议“你们可以本身做插件”。这象征着,生态上的“可用”与“被承认”之间,仍旧存于较着间隔。

昇腾的做法,是连续介入开源社区:提交接码、对于齐规范,并经由过程工程实践验证自身实现的不变性。于这个历程中,瓜葛逐渐发生变化,从最初的外部适配,转向更深层的协同。

例如于Triton中实现后端撑持,于PyTorch Foundation系统中成立起连续集成流程,使平台可以或许追随主版本演进连结同步。这些变化的意义,于在昇腾再也不只是“接入生态”,而是最先介入生态自己的构建。

与此同时,生态设置装备摆设也被进一步转化为可量化的工程问题。

张良提到,昇腾对于开源软件的撑持能力、以和开源软件对于昇腾特征的撑持水平,被细化为特征撑持率、模子适配率、CI笼罩率等一系列指标,“要求必需维持于95%以上”。

于模子侧,昇腾也于推进近似的笼罩能力。

昇腾已经于DeepSeek V4发布当天实现全系列适配,950超节点推理时延低至10~20ms,并经由过程PyPTO编程范式将算子开发周期缩短至天级。

不外,这一起径并不是没有不确定性。

于一个已经经高度收敛的生态系统中,新的平台不仅要补齐能力,还有需要于时间上追逐。这不仅是技能问题,更是节拍问题:当主流框架连续快速迭代时,新系统是否可以或许持久连结同步,并慢慢成立自身影响力,仍旧取决在连续的工程投入与社区协同。

也恰是于这一意义上,“做一个CUDA兼容层”之以是没有当选择,是由于它没法回覆一个更要害的问题——当生态演进发生变化时,这套系统是否仍旧拥有本身的位置与空间。

Agent是新范式,还有是“生态未成熟的补钉”?

于传统AI工程系统中,开发历程高度依靠人工经验。

从算籽实现到机能调优,每一个环节都需要工程师深切理解硬件、重复调试。这类模式于初期繁杂度较低时尚可应答,但跟着模子范围扩展、体系链路拉长,人的处置惩罚能力最先成为效率瓶颈。

昇腾的应答方式,不是继承于东西层面做优化,而是引入新的履行主体——Agent。

最直接的变化呈现于算子开发环节:已往手写算子需要深切硬件、重复调试,此刻开发者只需描写设计用意,Agent就能够主动完成情况配置并天生代码。开倡议点从“怎样实现”转向“要实现甚么”。

缭绕这一思绪,昇腾将Agent扩大到更完备的流程——从模子检索、适配、量化,到迁徙、优化与部署,原天职散的步调被整合为一条持续路径。

张良给出的方针是:“一分钟找到模子,一小时验证,一天完成部署。”压缩的不只是时间,更是试错成本与迭代周期。

支撑这一系统的,是“Skill”——一种尺度化的能力单位,它将专家经验、调优要领以和工程流程以模块化方式沉淀下来,供Agent直接挪用组合。

这象征着,原本凭借在个别经验的能力,最先被转化为体系的一部门。开发者再也不需要从零构建流程,而是经由过程界说方针与约束,让体系完成年夜部门履行事情。

于尺度化水平较高、路径清楚的使命中,Agent可以显著晋升效率。但张良坦言,于“最深条理的繁杂问题”上,当前Agent的能力“还有不是那末强”,仍旧离不动工程师的深度介入。

这使患上Agent出现出一种过渡性特性:一方面,它确凿于转变开发节拍,使原本以天甚至周为单元的流程被压缩到小时级;另外一方面,它也于负担一层“缓冲”的脚色——于生态还没有彻底成熟、底层差异仍旧存于的环境下,经由过程主动化能力降低利用门坎。

这也引出一个更深远的问题:Agent所带来的,是一种持久不变的新范式,还有是于系统还没有完美时的过渡机制?谜底也许取决在Skill的沉淀速率及底层差异的收敛水平。但不管怎样,它于当下已经经实其实于地转变了开发节拍。

回到最初的问题:当CUDA已经经成为事实尺度,厥后者是否还有有空间?

从昇腾这一起径来看,它给出的谜底,其实不是正面替换,也不是简朴兼容,而是试图于既有系统以外,构建一套可以自力运转的布局,让这套体系于不依靠既有生态的环境下,仍旧具有自洽能力。

固然,这一选择仍旧处于举行时之中。生态可否连续堆集、与主流框架的协同可否持久不变、开发方式的变化可否真正沉淀为工程能力,这些都需要时间来验证。

雷峰网(公家号:雷峰网)雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-通宝TB222-手机版官网