2026-05-03 19:21:56

通宝TB222-手机版官网- DeepSeek V4首发适配背后：昇腾为什么坚持不做CUDA兼容层？

导语：抛却兼容CUDA捷径，昇腾用自立生态改写竞争逻辑。

AI行业的节拍正于变患上愈来愈快。

从去年的年夜模子，到本年Agent的集中发作，技能热门于连续切换。但于表层变化之下，有一个趋向险些没有发生转变：模子范围与利用强度的晋升，正于连续推高对于算力的需求。

当模子范围、挪用频率与运用繁杂度同时增加，纯真依靠算力重叠已经经难以为继。

于这类场合排场下，开发者自然但愿找到一套已经经颠末验证、能笼罩全链路的成熟系统。这恰是CUDA生态于已往十几年成立起来的护城河：它不仅提供了算力，更界说了从编程到部署的一整套尺度。

也恰是于如许的配景下，一个更实际的问题最先浮出水面：当CUDA生态已经经形成不变闭环，厥后者的路径究竟是甚么？是尽可能兼容，以降低迁徙成本；还有是从底层出发，成立一套不凭借既有系统的新布局？

华为张良给出了他的谜底，他于分享会上重复夸大：假如底层布局不转变，上层生态就很难真正成立。

这象征着，当前这场竞争，已经经不只是算力机能的比力，而是一次缭绕“系统”的重构。

DeepSeek V4首发适配背后：昇腾为什么坚持不做CUDA兼容层？

为何“继承优化”已经经不敷了？

于AI基础举措措施成长的初期阶段，“能不克不及跑起来”曾经经是最焦点的判定尺度。

但跟着年夜模子进入工程化与范围化阶段，这一尺度迅速变患上再也不充实。体系的瓶颈，最先从“单点能力不足”，转向“总体链路是否匹配真实负载”。

张良于回首昇腾初期成长时，并无逃避这一点。他提到，“2018年CANN刚发布时，咱们知道CANN及硬件都是不完善的”。

那一阶段属在典型的“可运行但未成熟”状况，行业的存眷点更多集中于框架对于比、机能指标等表层问题，而真正决议持久能力的底层布局，并无被充实睁开。

面临年夜模子时代的新负载——长序列带来的访存压力、低精度练习成为主流，以和MoE等繁杂模子架构的涌现，昇腾急需解决编程模子不敷矫捷、访存粒度没法适配、低精度撑持缺掉等问题。

这些问题没法经由过程软件优化或者算子补钉完全解决，只能于芯片及体系底层从头设计。

迁移转变发生于近两年。

根据张良的说法，从2025年最先，昇腾团队“痛下刻意”，再也不缭绕局部问题举行修补，而是回到一个更底子的判定：假如底层布局不转变，上层生态就不成能真正成立。

于最新一代昇腾950芯片中，这类调解表现于多个方面：编程模子更靠近主流并行计较范式，降低开发迁徙成本；数据拜候引入更细粒度访存机制，以削减年夜模子场景下的无效带宽耗损；同时提早撑持FP8等低精度计较，以晋升吞吐并支撑更年夜模子范围。

张良提到：“有客户于测试不到一周后，就直接做出了下单决议计划。”

与此同时，昇腾于架构路径上也做出了一个要害选择。于专用加快芯片逐渐鼓起的配景下，针对于特定场景举行深度优化，往往可以得到更高的短时间效率。

但张良明确暗示，团队并无沿着这一起径继承推进，而是对峙通用架构标的目的。缘故原由于在，假如体系能力被限制于特定场景中，就很难形成外溢，也没法支撑多样化运用的连续增加。

这一选择象征着，昇腾其实不只是试图把模子“跑患上更快”，而是于解决一个更持久的问题：当模子不停变化、负载连续增加、开发范式不停演进时，这套体系是否仍旧可以或许承载这些变化。

DeepSeek V4首发适配背后：昇腾为什么坚持不做CUDA兼容层？

为何不克不及“做一个CUDA兼容层”？

假如说底层布局决议了一套体系“能做到甚么”，那末生态则决议了“有无人愿意于上面继承做”。

于当前AI基础举措措施格式中，CUDA已经经不仅是一套技能方案，而是一整套高度不变的开发系统。从编程模子、东西链到社区与人材布局，它所形成的，不只是功效层面的能力，更是一种“默许可用”的情况。

对于在厥后者而言，最直接的路径，是尽可能向这一系统挨近——经由过程接口兼容与生态复用，降低开发者的迁徙门坎。

这是一条实际且常见的路径，但昇腾并无选择沿着它走下去。

张良给出的判定很是直接：“假如基在CUDA来做，那咱们做的一切生态成长，都没法完全自立。”

这句话所指向的，其实不只是技能线路之争，而是一个更底层的问题：假如焦点系统成立于别人的尺度之上，那末不管投入几多工程资源，终极强化的仍旧是原有体系，而不是自身能力。

进一步看，这类凭借瓜葛还有象征着技能演进自动权的缺掉。张良提到，“一旦呈现危机的时刻，这一套系统做不到，你的特征于内里就没了。”

这里的“特征”，不仅是详细功效，也包括系统可以或许连续演进的空间。假如要害能力受限在既有框架，那末新的特征就很难真正落地，更难形发展期堆集。

于这一判定之下，昇腾选择了一条更繁杂但更具自力性的路径：于底层系统上对峙自研，于上层生态上尽可能对于齐主流。

这象征着，于虚拟指令集、编译器以和运行时等要害环节，昇腾不依靠既有尺度，而是构建本身的实现；而于开发接口与利用方式上，则自动适配主流框架，使开发者可以于认识的情况中利用这套体系。

这类“分层处置惩罚”的方式，素质上是于节制权与利用门坎之间寻觅均衡：既不彻底凭借，也不闪开发者从零最先。

但这条路径的难度，很快表现于现实推进历程中。

于主流开源框架中，新硬件往往只能以插件情势接入，难以进入骨干系统。

张良提到，昇腾最初面临的恰是如许的环境——对于方其实不直接接纳，而是建议“你们可以本身做插件”。这象征着，生态上的“可用”与“被承认”之间，仍旧存于较着间隔。

昇腾的做法，是连续介入开源社区：提交接码、对于齐规范，并经由过程工程实践验证自身实现的不变性。于这个历程中，瓜葛逐渐发生变化，从最初的外部适配，转向更深层的协同。

例如于Triton中实现后端撑持，于PyTorch Foundation系统中成立起连续集成流程，使平台可以或许追随主版本演进连结同步。这些变化的意义，于在昇腾再也不只是“接入生态”，而是最先介入生态自己的构建。

与此同时，生态设置装备摆设也被进一步转化为可量化的工程问题。

张良提到，昇腾对于开源软件的撑持能力、以和开源软件对于昇腾特征的撑持水平，被细化为特征撑持率、模子适配率、CI笼罩率等一系列指标，“要求必需维持于95%以上”。

于模子侧，昇腾也于推进近似的笼罩能力。

昇腾已经于DeepSeek V4发布当天实现全系列适配，950超节点推理时延低至10~20ms，并经由过程PyPTO编程范式将算子开发周期缩短至天级。

不外，这一起径并不是没有不确定性。

于一个已经经高度收敛的生态系统中，新的平台不仅要补齐能力，还有需要于时间上追逐。这不仅是技能问题，更是节拍问题：当主流框架连续快速迭代时，新系统是否可以或许持久连结同步，并慢慢成立自身影响力，仍旧取决在连续的工程投入与社区协同。

也恰是于这一意义上，“做一个CUDA兼容层”之以是没有当选择，是由于它没法回覆一个更要害的问题——当生态演进发生变化时，这套系统是否仍旧拥有本身的位置与空间。

Agent是新范式，还有是“生态未成熟的补钉”？

于传统AI工程系统中，开发历程高度依靠人工经验。

从算籽实现到机能调优，每一个环节都需要工程师深切理解硬件、重复调试。这类模式于初期繁杂度较低时尚可应答，但跟着模子范围扩展、体系链路拉长，人的处置惩罚能力最先成为效率瓶颈。

昇腾的应答方式，不是继承于东西层面做优化，而是引入新的履行主体——Agent。

最直接的变化呈现于算子开发环节：已往手写算子需要深切硬件、重复调试，此刻开发者只需描写设计用意，Agent就能够主动完成情况配置并天生代码。开倡议点从“怎样实现”转向“要实现甚么”。

缭绕这一思绪，昇腾将Agent扩大到更完备的流程——从模子检索、适配、量化，到迁徙、优化与部署，原天职散的步调被整合为一条持续路径。

张良给出的方针是：“一分钟找到模子，一小时验证，一天完成部署。”压缩的不只是时间，更是试错成本与迭代周期。

支撑这一系统的，是“Skill”——一种尺度化的能力单位，它将专家经验、调优要领以和工程流程以模块化方式沉淀下来，供Agent直接挪用组合。

这象征着，原本凭借在个别经验的能力，最先被转化为体系的一部门。开发者再也不需要从零构建流程，而是经由过程界说方针与约束，让体系完成年夜部门履行事情。

于尺度化水平较高、路径清楚的使命中，Agent可以显著晋升效率。但张良坦言，于“最深条理的繁杂问题”上，当前Agent的能力“还有不是那末强”，仍旧离不动工程师的深度介入。

这使患上Agent出现出一种过渡性特性：一方面，它确凿于转变开发节拍，使原本以天甚至周为单元的流程被压缩到小时级；另外一方面，它也于负担一层“缓冲”的脚色——于生态还没有彻底成熟、底层差异仍旧存于的环境下，经由过程主动化能力降低利用门坎。

这也引出一个更深远的问题：Agent所带来的，是一种持久不变的新范式，还有是于系统还没有完美时的过渡机制？谜底也许取决在Skill的沉淀速率及底层差异的收敛水平。但不管怎样，它于当下已经经实其实于地转变了开发节拍。

回到最初的问题：当CUDA已经经成为事实尺度，厥后者是否还有有空间？

从昇腾这一起径来看，它给出的谜底，其实不是正面替换，也不是简朴兼容，而是试图于既有系统以外，构建一套可以自力运转的布局，让这套体系于不依靠既有生态的环境下，仍旧具有自洽能力。

固然，这一选择仍旧处于举行时之中。生态可否连续堆集、与主流框架的协同可否持久不变、开发方式的变化可否真正沉淀为工程能力，这些都需要时间来验证。

雷峰网(公家号：雷峰网)雷峰网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-通宝TB222-手机版官网

通宝TB222-手机版官网- DeepSeek V4首发适配背后：昇腾为什么坚持不做CUDA兼容层？

推荐资讯