通宝TB222-手机版官网- 磐脉920亮相,平头哥算存网版图闭环
分享
导语:算力、网力及存力的全结构,让平头哥于海内AI基建竞赛中盘踞要害一席。
“于收集布局未充实优化的环境下,年夜范围AI集群的GPU使用率凡是仅维持于30%—40%区间。”平头哥产物总监李旭慧暗示。
算力集群素质上是一个强同步体系:上千张GPU需要于统一时间完成计较并互换数据。一旦某个节点通讯呈现延迟,整个集群的计较进程就会被迫等候,体系效率终极由最慢路径决议。
当集群范围进一步扩大,收集瓶颈被进一步放年夜:突发推理流量带来的数据洪峰、繁杂拓扑致使的链路堵塞,以和依靠体系级PCIe总线所形成的长数据路径,都于不停侵蚀算力效率。
于这一配景下,行业正于形成一个新的共鸣:决议AI体系效率的要害,正于从单点算力机能,转向整个算力收集体系的协同能力。
4月28日,于2026数字中国设置装备摆设峰会上,平头哥正式发布旗下首款智能网卡“磐脉920”。
磐脉920被界说为AI原生智能网卡,其搭载自立设计的智能网卡芯片,采用PCIe 5.0与112G PAM4以太网技能,最年夜撑持400Gbps吞吐带宽,收发包率到达400Mpps。
据雷峰网相识,磐脉920已经进入量产阶段,首批产物已经在本月上线,相干定单正于加快交付。
跟着磐脉920的发布,平头哥已经完成数据中央四年夜焦点芯片的结构:真武系列AI芯片、倚天系列CPU、磐脉系列智能网卡,以和镇岳系列存储主控芯片,笼罩算力、收集与存力三年夜要害环节。
当Agent驱动的流量布局变患上越发碎片化与不成猜测,算力、收集与存储之间的协同界限被连续放年夜,智能网卡还有能于多年夜水平上继承开释体系效率?
AI算力越强越华侈?通讯路径让GPU使用率「卡」于30%
“从行业趋向来看,AI算力增加很快,收集已经经成为较着的短板。”李旭慧说到。
这一问题于练习与推理分解中被进一步放年夜。
跟着智能体最先进入范围化运用,AI体系的负载布局正于发生转移:推理与练习的占比慢慢从1:1向4:1演进。
于这一变化下,收集再也不只是练习阶段的支撑体系,而是同时承载高频、突发、混淆型的推理流量,总体负载从相对于可猜测的同步通讯,转向高度动态的不确定性布局,对于带宽与时延能力提出连续性挑战。
但现有收集系统仍存于较着代际差异。
传统TCP网卡依靠内核与软件栈完成数据搬移,素质上仍是“CPU介入型”的通讯路径;RDMA虽然经由过程绕过内核、削减拷贝开消来降低时延,但于年夜范围AI集群中,仍会遭到多层互换拓扑、跨节点同步机制以和全局一致性调理等因素的制约。
DPU与AI专用网卡的路径也最先分解。
DPU凡是集成CPU核并撑持可编程能力,同时需要挂载内存,总体更倾向通用计较场景下的资源虚拟化与云资源治理。而于AI练习与推理场景中,焦点需求其实不是计较扩大,而是年夜范围、低时延、对于称通讯能力,是以更轻量的专用网卡架构被认为更具针对于性。
从现实效果来看,这种通讯瓶颈会直接影响集群效率。
于年夜范围练习体系中,假如收集不匹配,GPU使用率往往只能维持于30%摆布,即便优化较好也很难跨越60%。其泉源其实不只于单点带宽,而于在整个体系的拓扑布局与通讯路径难以彻底对于称。CPU、GPU、网卡与多级互换机配合组成繁杂路径,一旦链路时延不均,就会被同步机制放年夜为总体机能损耗。
是以,收集优化的要害不只于在带宽晋升,更于在对于通讯路径的调理与平衡能力。例如于相近时延前提下举行路径探测与流量分发,使体系尽可能防止“快慢不均”的资源华侈,从而晋升总体算力使用效率。
带宽使用率晋升至90%、体系成本降落30%,磐脉920「重构」集群通讯效率界限
“磐脉920搭载平头哥自研芯片架构,每一秒可处置惩罚4亿个收集数据包,提供400G收集带宽,单秒传输能力相称在100部高清视频数据量。”李旭慧告诉雷峰网(公家号:雷峰网)。
磐脉920以AI集群通讯瓶颈为焦点起点,从“路径、调理与架构”三个层面重构数据流转方式。
于传输层面,磐脉920经由过程多路径RDMA机制,打破传统RDMA依靠单一起径的限定,使数据流量可以或许于多链路之间并行调理,从而降低热门堵塞几率并晋升总体带宽使用率,显著缩短练习场景中的使命完成时间。
于调理层面,其集成细粒度收集感知能力与可编程堵塞节制算法,可以或许对于链路状况与流量变化举行及时监测,并于突发流量或者堵塞发生先后动态调解传输计谋,实现对于差别营业流的差异化调理与优先级保障,从而降低收集抖动对于要害使命的影响。
同时,经由过程选择性重传与堵塞状况及时监控机制,进一步降低跨域长尾时延,使链路带宽使用率由约60%晋升至靠近90%。
这一调理能力的基础,来自其更底层的智能感知算力收集设计。磐脉920具有55种收集感知手腕与至多32种堵塞节制算法组合能力,可以或许对于链路举行细粒度检测与收发包级节制,使堵塞感知时间较传统软件方案晋升约10倍,并可实现7级营业优先级保障。
更要害的变化发生于体系架构层面。
磐脉920于网卡内部引入PCIe Switch,实现直连GPU、SSD,削减对于外部互换芯片与冗余数据路径的依靠,从而构建更短的数据传输链路,降低体系繁杂度与通讯开消。
这类“内生式收集布局”重构了数据流转路径,也直接带来总体体系成本约30%的降落。
缭绕这一架构,磐脉920进一步集成可编程收集能力与硬件加快引擎,撑持对于数据面、节制面和收集事务的矫捷编排,并具有多种收集感知手腕与堵塞节制算法组合能力,使体系可以或许按照差别AI负载动态调解通讯计谋。
于现实部署中,这一设计不仅晋升了收集使用效率,也显著降低了集群部署与运维繁杂度,使AI体系从数小时级部署收敛至分钟级相应。
磐脉920面向开放市场测试
据悉,磐脉920项目早于三年前便已经启动立项,平头哥团队于连续三年的工程化迭代中,慢慢将其机能打磨至当前市场第一梯队程度。
于数据中央基础举措措施这一长周期赛道中,技能能力只是出发点,真正决议产物价值的,是可否完成从“可用”到“可范围化商用”的超过。
基在这一判定,磐脉920的设计并未局限在单一场景,而是缭绕多类算力基础举措措施需求睁开体系性结构,并于差别层级的数据畅通与计较场景中形成适配能力:
于智算集群中,磐脉920重要支撑年夜范围AI练习的高机能互联,保障万卡级集群的低时延、高不变通讯;于通算集群中,经由过程收集卸载与容器化能力,降低收集开消,晋升总体算力使用效率;于存储场景中,为漫衍式存储提供低时延、高带宽与不变流量支撑,保障海量数据的连续读写;于数据库与年夜数据阐发场景中,则经由过程优化数据传输路径,晋升总体数据处置惩罚与阐发效率。
“磐脉920并不是定制开发的专用网卡,而是一款面向开放市场的通用型产物。”李旭慧暗示。
于这一产物计谋下,磐脉920的开放属性也最先进一步外溢。
磐脉将起首于阿里云数据中央实现部署。阿里云所提供的高繁杂度云计较场景,作为焦点练习情况,经由过程“标杆级负载”连续拉动产物能力上限。
于此基础上,磐脉920依托通用网卡的产物定位,已经进一步向外部办事器厂商、部件厂商和多类云厂商开放测试。
从产物结构来看,磐脉920的发布,并不是一次单点技能冲破,而是平头哥数据中央芯片系统的一次要害补位。
至此,真武AI芯片、倚天CPU、镇岳存储主控与磐脉智能网卡别离笼罩智能计较、通用场理、数据存储及收集互联,算力、存力与网力三类焦点能力于芯片层完成闭环。这象征着,平头哥已经经具有从“提供单一算力器件”走向“构建完备算力基础举措措施能力”的底层前提。
当算力集群效率愈来愈取决在通讯与协同能力,收集再也不是从属组件,而成为决议体系上限的焦点变量。
于这一逻辑下,同时把握算、存、网三类焦点芯片能力的厂商,将再也不只是介入某一环节的竞争者,而是有时机从头界说AI基础举措措施的机能界限与成本布局。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
-通宝TB222-手机版官网