2026-05-03 19:21:57

通宝TB222-手机版官网- 英韧科技董事长吴子宁:从空转到满载,AI SSD如何把闲置算力变成「有效算力」?丨存储芯片十人谈

分享

  导语:“AI SSD的要害不仅于更快的硬件,更于可否按照差别负载重构数据的构造与调理方式。 ”

英韧科技董事长吴子宁:从空转到满载,AI SSD如何把闲置算力变成「有效算力」?丨存储芯片十人谈

2025年,AI算力进入深水区。

一边是需求连续外溢:年夜模子练习范围仍于扩张,推理哀求呈指数级增加,数据中央的投资未见降温;另外一边,是一系列隐性的制约正逐渐浮出水面——算力使用率始终于低处倘佯,体系抖动频发,集群效率难以维持不变。

行业逐渐意想到,瓶颈其实不总呈现于“算力”自己。许多时辰,问题卡于“数据”这一环。

当计较集群范围扩展到万卡级别,任何一个环节的延迟颠簸,城市被放年夜为总体机能问题。一些云办事的宕机事务,外貌上是调理算法掉效,深层缘故原由倒是数据供应与计较节拍之间的错位——数据来不和被构造、搬运、分发,算力只能于空转中等候。

这让一个持久被视为基础组件的范畴,从头进入焦点视线:存储。

已往,存储的使命是解决“存患上下”;而于AI时代,它最先决议“算患上快烦懑”。

恰是于这一配景下,“AI SSD”应运而生,险些所有主流存储厂商,都于测验考试交出本身的答卷。

但问题也随之而来——当整个行业都于做AI SSD时,甚么才是真正有用的改良?存储,毕竟需要为AI转变甚么?

带着这些问题,咱们与英韧科技董事长吴子宁博士举行了一次对于话。他没有急在回覆,而是先讲起了一个二十多年前的故事。

(本文作者持久存眷存储行业,对于周期颠簸与企业分解有连续追踪,接待添加微信EATINGNTAE交流切磋。)

于技能的交织口,选对于标的目的很主要

技能史,其实不是一条笔挺向前的曲线,而更像是一连串不停被推翻、被批改、再重修的测验考试。吴子宁博士用一个故事,注释了这类均衡怎样被打破、又怎样重修。

2001年,苹果发布iPod,那款音乐播放器采用了一项其时颇具冲破性的设计——把机械硬盘缩到洋火盒巨细,实现了5GB的存储容量。而于统一期间,主流MP3播放器遍及仅配备64MB或者128MB的闪存。

苹果起首倾覆了人们对于音乐播放器的认知。吴子宁博士回忆道,“用户再也不需要频仍治理音乐文件,而是可以将整个音乐库随身携带。”

这一变化迅速于财产链中激发连锁反映。多家硬盘厂商将小尺寸机械硬盘视为新的增加标的目的,投入年夜量资源举行研发。然而不久以后,另外一项技能路径最先加快演进——闪存技能快速迭代,容量飞速成长。苹果随即推出基在全闪存的iPod,只管入门容量仅为1GB,但依附小型化及便当性,很快于市场上逾越了机械硬盘版本。

许多存储公司投入年夜量资源研发小尺寸机械硬盘,都由于新技能的呈现遭到了巨年夜的打击。

彼时,吴子宁博士正任职在Marvell,而Marvell恰是业界最早周全投入闪存固态硬盘解决方案的公司之一。这一履历于贰心中形成为了一个主要判定:技能连续演进是常态,短周期内会有渐进式立异,而于更长周期内,则可能呈现倾覆性厘革。可否正确掌握技能与市场趋向,并据此做出前瞻性决议计划,至关主要。

2016年开办英韧科技时,他已经经不雅察到两个要害趋向的叠加。

“一边是数据需求于发作,并且是持久趋向;另外一边是存储介质正于从机械硬盘向固态硬盘迁徙。”他说,“当需乞降技能同时发生变化,就会呈现一个很典型的时机窗口。”

而于AI驱动的新一轮数据海潮之下,这一“判定能力”的主要性再次被放年夜——面临全新的计较范式,存储体系该当怎样演进?

为何需要AI SSD?

据DESIGNRUSH预计,2025年现实数据量约为173.4ZB,而2026年整年数据天生量估计于230ZB至240ZB之间,到了2029年,该数字估计将到达527.5ZB。

作为IT基础举措措施三年夜焦点支柱之一,存储于半导体市场中占比约为20%至30%,但于AI时代,这一“支柱”正蒙受史无前例的压力。

这类压力重要表现于三个方面。

第一,数据形态正于转变。传统数据凡是具有明确的冷热分层:热数据驻留内存,温数据进入SSD,冷数据则归档至机械硬盘。然而于AI练习与推理历程中,数据出现出高频交互特性——年夜模子练习需要连续吞吐海量数据,推理阶段触及年夜量中间状况的频仍拜候,而向量检索则带来高比例的小块随机读写。数据再也不严酷遵照既有分层布局。

第二,运用场景高度分解,基础年夜模子正于向行业年夜模子演进。银行的风控数据、车企的主动驾驶数据、医学影像体系数据,每一个场景对于存储的要求都纷歧样:有的需要超高吞吐,有的需要极低延迟,有的需要于边沿节点上实现高密度数据处置惩罚。

第三,体系容忍度显著降低。当计较集群扩大至万卡级范围时,任一环节的机能颠簸均可能拖慢总体练习效率。与此同时,边沿侧原本受限的内存带宽,还有需匹配靠近GPU级另外计较能力。存储再也不只是数据的承载介质,而成为影响数据流动效率、进而决议练习与推理机能的要害因素。

于他看来,这类变化的泉源,于在计较系统中央的迁徙。

“已往是CPU于做调理,GPU只是履行单位;但此刻,于AI体系里,GPU自己最先负担调理脚色。”他说,“假如数据还有要颠末CPU中转,就相称在于两条高速公路之间接了一座很窄的桥,这个环节会成为瓶颈。”

吴子宁博士用一个形象的比方来讲明这一变化:“一辆车纵然最高速率很高,假如年夜部门时间处在等候状况,策动机空转,那末它的现实效率依然很低。”

于AI计较系统中,“等候”正成为日趋凸起的瓶颈。计较单位具有极高的算力,但数据往往滞留于存储侧——假如没法被高效调理至计较单位,就会致使算力资源闲置与华侈。

“存储不仅要完成数据的长期化,还有需要具有对于数据举行高效构造与调理的能力。”吴子宁博士指出,“咱们已经经最先摸索,于存储侧引入更智能的节制机制,对于数据结构与拜候路径举行优化。”

这一思绪指向一个明确标的目的:存储体系需要针对于AI负载举行体系性优化。

已往几年,行业已经睁开多路径摸索。例如,经由过程优化固件与FTL(Flash Translation Layer)算法,使SSD于高并发场景下连结不变的延迟漫衍;经由过程重构主控架构,晋升数据调理效率;以和借助CXL(Compute Express Link)和谈扩大内存语义,使闪存于特定场景中负担部门内存功效。

这些技能路径终极会聚为一个配合的产物标的目的——AI SSD,这是整个行业对于统一焦点问题的多元回应:当计较范式发生变化,存储系统怎样协同演进?

于吴子宁博士看来,一项技能是否值患上投入,可以从三个维度判定:技能合理性、贸易可行性与生态兼容性。

以此权衡AI SSD,其可行性便清楚起来——

技能层面,AI负载对于存储提出了传统SSD难以满意的新要求,针对于性优化是解决“算力等数据”痛点的须要路径;

贸易层面,AI SSD于成熟闪存与主控技能基础上演进,可以或许复用现有供给链,具有年夜范围部署的成本基础;

生态层面,它延续PCIe/NVMe等尺度接口与和谈,与现有计较系统连结兼容,可以或许被光滑接纳。

从这个角度看,AI SSD的呈现具备内涵一定性——它并不是对于现有系统的倾覆,而是于既有架构基础上,针对于新型负载特性举行的体系性优化。

正如昔时闪存慢慢代替小尺寸机械硬盘——技能前进提供了替换能力,而运用需求则明确了替换标的目的。

于这一历程中,可以或许深切理解AI负载特性,并据此构建差异化存储方案的厂商,将更有可能于下一轮体系级重构中盘踞有益位置。

先理解负载特性,再界说产物形态

2025年,这场“体系重排”已经经拉开序幕。

从铠侠宣布AI SSD中持久线路图,到三星、海力士、美光陆续推出针对于AI场景优化的超高速颗粒产物;从FMS存储峰会上多家厂商的同台竞技,到华为于上海发布“AI SSD,加快智能经济涌现”——险些于统一时间点上,全世界重要存储厂商都于朝统一个标的目的发力。

当“AI SSD”成为行业共鸣,英韧必需回覆一个更详细的问题:差异化路径安在?

于英韧内部,对于这个问题的思索始在对于AI负载的拆解。AI并不是单一运用,而是一组差异显著的计较使命,年夜致可以归纳为三类典型负载形态。

第一种是练习。年夜模子练习的特性是连续、不变且高带宽的数据流动,样本被重复读取、重排与迭代,这个场景对于挨次吞吐能力高度敏感,但对于极度微秒级延迟的要求相对于次要。不变的年夜范围供应,比瞬时极限机能更主要。

第二种是推理,这是变化最猛烈的部门。推理阶段的数据拜候出现高度碎片化特性,包括年夜量小块随机读写、KV Cache频仍互换以和向量索引挪用。此时,存储从“批量搬运”改变为“及时相应”,体系机能对于尾延迟高度敏感,一旦尾延迟掉控,将直接影响总体办事质量。

第三种是数据归集与治理。跟着模子范围扩展,数据留存、分层与生命周期治理成为刚性需求。该场景对于延迟的要求相对于宽松,但对于容量密度与单元成本极其敏感,需要于范围与成本之间取患上均衡。

这三类负载之间,其实不存于一个可以或许同时最优笼罩的同一设计方案。

是以,英韧的计谋是针对于差别负载特性,设计具有差异化能力的主控架构与产物组合。

于通用练习场景中,采用TLC NAND的“洞庭-N3”更夸大带宽与不变性的均衡,挨次读取带宽于14.5GB/s以上,随机读取能力约3.4M IOPS,合适作为练习集群中的通例数据层。

针对于容量敏感型场景,则引入基在QLC NAND的“洞庭-N3Q”。于更高存储密度的条件下,经由过程节制器与纠错机制优化,将单盘容量晋升至64TB,同时维持跨越14GB/s的挨次读取程度,用在降低单元容量成本。

而于对于相应时间更敏感的推理侧,则采用“洞庭-N3X”这一低时延方案。该产物联合XL-Flash与SLC NAND,于随机拜候下可实现约13微秒读取延迟、4微秒写入延迟,随机读取机能跨越3.5M IOPS,随机写入机能可达1.6M IOPS,且具有最高100 DWPD的耐用性,更合适高并发、小哀求场景。

该产物的现实体现,近期已经得到第三方测实验证。

英韧的洞庭-N3X到场了ODCC AI存储试验室“面向AI推理场景KV Cache的数据存储测试项目”,SSD能撑持GPU Direct Storage (GDS),采用GPU直接调理的方式,构建“以存代算”的第三级缓存。

实测数据显示:采用英韧科技AI SSD(洞庭-N3X)后,可以或许有用打破“内存墙”,让数据更快供应 GPU,H20平台的体系吞吐量晋升约12倍,RTX 6000D平台的体系吞吐量晋升约20倍。于10K输入长度下,原生架构因为需要从头计较或者处置惩罚显存溢出,存于必然延迟,但采用N3X后,首Token延迟可从数秒级缩短至毫秒级。跟着输入长度从100 tokens增长到100K tokens,存储压力呈线性甚至指数级增加,而输入文本越长,N3X对于体系换入换出效率的晋升效果越较着。

这一成果注解:当AI负载范围超过特定阈值后,存储将从辅助脚色改变为要害机能变量;而针对于推理场景深度优化的AI SSD,可以显著转变体系总体效率。

于英韧看来,这三类产物的划分并不是传统意义上的“高、中、低端”区隔,而是对于差别数据拜候模式的针对于性相应,是基在负载模子推导的工程成果,而非简朴的参数重叠。

真实的挑战,于在怎样于体系层面实现这些差异化能力的协同。

跟着接口尺度连续演进——从PCIe 4.0到5.0,并迈向行将到来的6.0——SSD不仅需要晋升物理带宽能力,更需要同步加强主控的并发调理与行列步队治理能力。不然,底层介质机能的晋升将难以转化为体系级收益。

“必需捉住每一一代接口进级的窗口期。”吴子宁博士也夸大,更具挑战性的部门于在内部架构的重构:于高并发场景下怎样防止行列步队壅闭?怎样有用节制尾延迟?怎样于差别介质特征之间实现负载平衡?

这些问题,终极都指向一个详细的机能方针。

“要把吞吐量从此刻的300万IOPS,于两年后晋升至1亿IOPS,这相称在靠近两个数目级的跃升。”吴子宁博士进一步阐释道,“单靠更进步前辈的芯片制程,没法支撑这一量级的机能超过,要害于在架构层面的重构。咱们需要于数据调理路径上实现更邃密的优化与更高的效率,鞭策介质层与接口层之间的深度协同,将数据从存储介质到主机接口的整条通路压缩至最短,从而于底子上降低拜候延迟。”

这些问题,组成了AI SSD主控芯片的研发要害。

标的目的靠校准,路径需批改

缭绕“内部架构重排”,英韧的摸索正于延长至下一代产物。

2026年,英韧规划推出PCIe Gen6的新一代产物,将交融下一代NVMe与CXL双和谈,于带宽实现翻倍的同时,512B随机读取机能有望到达万万IOPS量级。

此中,CXL(Compute Express Link)尤为要害。该和谈经由过程引入内存语义,实现高速互联,构建更年夜的存储池。从更广义角度看,这一标的目的正指向“存算一体”的演进路径——即更高效地将数据从存储侧调理至计较侧。

“这不仅是硬件问题,软件系统一样于同步演进。”吴子宁博士指出。

与此同时,英韧也于及颗粒原厂开展更深度的互助——由于不管主控多强,没有好的介质共同,一切都无从谈起。

从PCIe 3.0到5.0,再到行将到来的6.0;从TLC到QLC,再到XL-FLASH与SLC的协同;从单一的SSD主控,到NVMe与CXL双和谈的交融——英韧的技能线路,始终缭绕统一个焦点问题睁开:当数据的调理及利用方式变了,存储该怎样从头设计?

对于在英韧当前的产物标的目的,吴子宁博士于对于话中暗示:“年夜标的目的需要经由过程经验与市场反馈来校准,防止战略性过错;而于详细路径上,则必需连续迭代与批改。”

这个立场,也许比任何产物参数都更能申明问题——于AI带来的新一轮“体系重排”中,没有人能预知尽头。独一能做的,是于变化中不停调解本身的位置。

(本文作者持久存眷存储行业,对于周期颠簸与企业分解有连续追踪,接待添加微信EATINGNTAE交流切磋。)

雷峰网雷峰网(公家号:雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-通宝TB222-手机版官网