2026-05-03 19:21:57

通宝TB222-手机版官网- 英韧科技董事长吴子宁：从空转到满载，AI SSD如何把闲置算力变成「有效算力」？丨存储芯片十人谈

导语：“AI SSD的要害不仅于更快的硬件，更于可否按照差别负载重构数据的构造与调理方式。 ”

英韧科技董事长吴子宁：从空转到满载，AI SSD如何把闲置算力变成「有效算力」？丨存储芯片十人谈

2025年，AI算力进入深水区。

一边是需求连续外溢：年夜模子练习范围仍于扩张，推理哀求呈指数级增加，数据中央的投资未见降温；另外一边，是一系列隐性的制约正逐渐浮出水面——算力使用率始终于低处倘佯，体系抖动频发，集群效率难以维持不变。

行业逐渐意想到，瓶颈其实不总呈现于“算力”自己。许多时辰，问题卡于“数据”这一环。

当计较集群范围扩展到万卡级别，任何一个环节的延迟颠簸，城市被放年夜为总体机能问题。一些云办事的宕机事务，外貌上是调理算法掉效，深层缘故原由倒是数据供应与计较节拍之间的错位——数据来不和被构造、搬运、分发，算力只能于空转中等候。

这让一个持久被视为基础组件的范畴，从头进入焦点视线：存储。

已往，存储的使命是解决“存患上下”；而于AI时代，它最先决议“算患上快烦懑”。

恰是于这一配景下，“AI SSD”应运而生，险些所有主流存储厂商，都于测验考试交出本身的答卷。

但问题也随之而来——当整个行业都于做AI SSD时，甚么才是真正有用的改良？存储，毕竟需要为AI转变甚么？

带着这些问题，咱们与英韧科技董事长吴子宁博士举行了一次对于话。他没有急在回覆，而是先讲起了一个二十多年前的故事。

（本文作者持久存眷存储行业，对于周期颠簸与企业分解有连续追踪，接待添加微信EATINGNTAE交流切磋。）

于技能的交织口，选对于标的目的很主要

技能史，其实不是一条笔挺向前的曲线，而更像是一连串不停被推翻、被批改、再重修的测验考试。吴子宁博士用一个故事，注释了这类均衡怎样被打破、又怎样重修。

2001年，苹果发布iPod，那款音乐播放器采用了一项其时颇具冲破性的设计——把机械硬盘缩到洋火盒巨细，实现了5GB的存储容量。而于统一期间，主流MP3播放器遍及仅配备64MB或者128MB的闪存。

苹果起首倾覆了人们对于音乐播放器的认知。吴子宁博士回忆道，“用户再也不需要频仍治理音乐文件，而是可以将整个音乐库随身携带。”

这一变化迅速于财产链中激发连锁反映。多家硬盘厂商将小尺寸机械硬盘视为新的增加标的目的，投入年夜量资源举行研发。然而不久以后，另外一项技能路径最先加快演进——闪存技能快速迭代，容量飞速成长。苹果随即推出基在全闪存的iPod，只管入门容量仅为1GB，但依附小型化及便当性，很快于市场上逾越了机械硬盘版本。

许多存储公司投入年夜量资源研发小尺寸机械硬盘，都由于新技能的呈现遭到了巨年夜的打击。

彼时，吴子宁博士正任职在Marvell，而Marvell恰是业界最早周全投入闪存固态硬盘解决方案的公司之一。这一履历于贰心中形成为了一个主要判定：技能连续演进是常态，短周期内会有渐进式立异，而于更长周期内，则可能呈现倾覆性厘革。可否正确掌握技能与市场趋向，并据此做出前瞻性决议计划，至关主要。

2016年开办英韧科技时，他已经经不雅察到两个要害趋向的叠加。

“一边是数据需求于发作，并且是持久趋向；另外一边是存储介质正于从机械硬盘向固态硬盘迁徙。”他说，“当需乞降技能同时发生变化，就会呈现一个很典型的时机窗口。”

而于AI驱动的新一轮数据海潮之下，这一“判定能力”的主要性再次被放年夜——面临全新的计较范式，存储体系该当怎样演进？

为何需要AI SSD?

据DESIGNRUSH预计，2025年现实数据量约为173.4ZB，而2026年整年数据天生量估计于230ZB至240ZB之间，到了2029年，该数字估计将到达527.5ZB。

作为IT基础举措措施三年夜焦点支柱之一，存储于半导体市场中占比约为20%至30%，但于AI时代，这一“支柱”正蒙受史无前例的压力。

这类压力重要表现于三个方面。

第一，数据形态正于转变。传统数据凡是具有明确的冷热分层：热数据驻留内存，温数据进入SSD，冷数据则归档至机械硬盘。然而于AI练习与推理历程中，数据出现出高频交互特性——年夜模子练习需要连续吞吐海量数据，推理阶段触及年夜量中间状况的频仍拜候，而向量检索则带来高比例的小块随机读写。数据再也不严酷遵照既有分层布局。

第二，运用场景高度分解，基础年夜模子正于向行业年夜模子演进。银行的风控数据、车企的主动驾驶数据、医学影像体系数据，每一个场景对于存储的要求都纷歧样：有的需要超高吞吐，有的需要极低延迟，有的需要于边沿节点上实现高密度数据处置惩罚。

第三，体系容忍度显著降低。当计较集群扩大至万卡级范围时，任一环节的机能颠簸均可能拖慢总体练习效率。与此同时，边沿侧原本受限的内存带宽，还有需匹配靠近GPU级另外计较能力。存储再也不只是数据的承载介质，而成为影响数据流动效率、进而决议练习与推理机能的要害因素。

于他看来，这类变化的泉源，于在计较系统中央的迁徙。

“已往是CPU于做调理，GPU只是履行单位；但此刻，于AI体系里，GPU自己最先负担调理脚色。”他说，“假如数据还有要颠末CPU中转，就相称在于两条高速公路之间接了一座很窄的桥，这个环节会成为瓶颈。”

吴子宁博士用一个形象的比方来讲明这一变化：“一辆车纵然最高速率很高，假如年夜部门时间处在等候状况，策动机空转，那末它的现实效率依然很低。”

于AI计较系统中，“等候”正成为日趋凸起的瓶颈。计较单位具有极高的算力，但数据往往滞留于存储侧——假如没法被高效调理至计较单位，就会致使算力资源闲置与华侈。

“存储不仅要完成数据的长期化，还有需要具有对于数据举行高效构造与调理的能力。”吴子宁博士指出，“咱们已经经最先摸索，于存储侧引入更智能的节制机制，对于数据结构与拜候路径举行优化。”

这一思绪指向一个明确标的目的：存储体系需要针对于AI负载举行体系性优化。

已往几年，行业已经睁开多路径摸索。例如，经由过程优化固件与FTL（Flash Translation Layer）算法，使SSD于高并发场景下连结不变的延迟漫衍；经由过程重构主控架构，晋升数据调理效率；以和借助CXL（Compute Express Link）和谈扩大内存语义，使闪存于特定场景中负担部门内存功效。

这些技能路径终极会聚为一个配合的产物标的目的——AI SSD，这是整个行业对于统一焦点问题的多元回应：当计较范式发生变化，存储系统怎样协同演进？

于吴子宁博士看来，一项技能是否值患上投入，可以从三个维度判定：技能合理性、贸易可行性与生态兼容性。

以此权衡AI SSD，其可行性便清楚起来——

技能层面，AI负载对于存储提出了传统SSD难以满意的新要求，针对于性优化是解决“算力等数据”痛点的须要路径；

贸易层面，AI SSD于成熟闪存与主控技能基础上演进，可以或许复用现有供给链，具有年夜范围部署的成本基础；

生态层面，它延续PCIe/NVMe等尺度接口与和谈，与现有计较系统连结兼容，可以或许被光滑接纳。

从这个角度看，AI SSD的呈现具备内涵一定性——它并不是对于现有系统的倾覆，而是于既有架构基础上，针对于新型负载特性举行的体系性优化。

正如昔时闪存慢慢代替小尺寸机械硬盘——技能前进提供了替换能力，而运用需求则明确了替换标的目的。

于这一历程中，可以或许深切理解AI负载特性，并据此构建差异化存储方案的厂商，将更有可能于下一轮体系级重构中盘踞有益位置。

先理解负载特性，再界说产物形态

2025年，这场“体系重排”已经经拉开序幕。

从铠侠宣布AI SSD中持久线路图，到三星、海力士、美光陆续推出针对于AI场景优化的超高速颗粒产物；从FMS存储峰会上多家厂商的同台竞技，到华为于上海发布“AI SSD，加快智能经济涌现”——险些于统一时间点上，全世界重要存储厂商都于朝统一个标的目的发力。

当“AI SSD”成为行业共鸣，英韧必需回覆一个更详细的问题：差异化路径安在？

于英韧内部，对于这个问题的思索始在对于AI负载的拆解。AI并不是单一运用，而是一组差异显著的计较使命，年夜致可以归纳为三类典型负载形态。

第一种是练习。年夜模子练习的特性是连续、不变且高带宽的数据流动，样本被重复读取、重排与迭代，这个场景对于挨次吞吐能力高度敏感，但对于极度微秒级延迟的要求相对于次要。不变的年夜范围供应，比瞬时极限机能更主要。

第二种是推理，这是变化最猛烈的部门。推理阶段的数据拜候出现高度碎片化特性，包括年夜量小块随机读写、KV Cache频仍互换以和向量索引挪用。此时，存储从“批量搬运”改变为“及时相应”，体系机能对于尾延迟高度敏感，一旦尾延迟掉控，将直接影响总体办事质量。

第三种是数据归集与治理。跟着模子范围扩展，数据留存、分层与生命周期治理成为刚性需求。该场景对于延迟的要求相对于宽松，但对于容量密度与单元成本极其敏感，需要于范围与成本之间取患上均衡。

这三类负载之间，其实不存于一个可以或许同时最优笼罩的同一设计方案。

是以，英韧的计谋是针对于差别负载特性，设计具有差异化能力的主控架构与产物组合。

于通用练习场景中，采用TLC NAND的“洞庭-N3”更夸大带宽与不变性的均衡，挨次读取带宽于14.5GB/s以上，随机读取能力约3.4M IOPS，合适作为练习集群中的通例数据层。

针对于容量敏感型场景，则引入基在QLC NAND的“洞庭-N3Q”。于更高存储密度的条件下，经由过程节制器与纠错机制优化，将单盘容量晋升至64TB，同时维持跨越14GB/s的挨次读取程度，用在降低单元容量成本。

而于对于相应时间更敏感的推理侧，则采用“洞庭-N3X”这一低时延方案。该产物联合XL-Flash与SLC NAND，于随机拜候下可实现约13微秒读取延迟、4微秒写入延迟，随机读取机能跨越3.5M IOPS，随机写入机能可达1.6M IOPS，且具有最高100 DWPD的耐用性，更合适高并发、小哀求场景。

该产物的现实体现，近期已经得到第三方测实验证。

英韧的洞庭-N3X到场了ODCC AI存储试验室“面向AI推理场景KV Cache的数据存储测试项目”，SSD能撑持GPU Direct Storage (GDS)，采用GPU直接调理的方式，构建“以存代算”的第三级缓存。

实测数据显示：采用英韧科技AI SSD(洞庭-N3X)后，可以或许有用打破“内存墙”，让数据更快供应 GPU，H20平台的体系吞吐量晋升约12倍，RTX 6000D平台的体系吞吐量晋升约20倍。于10K输入长度下，原生架构因为需要从头计较或者处置惩罚显存溢出，存于必然延迟，但采用N3X后，首Token延迟可从数秒级缩短至毫秒级。跟着输入长度从100 tokens增长到100K tokens，存储压力呈线性甚至指数级增加，而输入文本越长，N3X对于体系换入换出效率的晋升效果越较着。

这一成果注解：当AI负载范围超过特定阈值后，存储将从辅助脚色改变为要害机能变量；而针对于推理场景深度优化的AI SSD，可以显著转变体系总体效率。

于英韧看来，这三类产物的划分并不是传统意义上的“高、中、低端”区隔，而是对于差别数据拜候模式的针对于性相应，是基在负载模子推导的工程成果，而非简朴的参数重叠。

真实的挑战，于在怎样于体系层面实现这些差异化能力的协同。

跟着接口尺度连续演进——从PCIe 4.0到5.0，并迈向行将到来的6.0——SSD不仅需要晋升物理带宽能力，更需要同步加强主控的并发调理与行列步队治理能力。不然，底层介质机能的晋升将难以转化为体系级收益。

“必需捉住每一一代接口进级的窗口期。”吴子宁博士也夸大，更具挑战性的部门于在内部架构的重构：于高并发场景下怎样防止行列步队壅闭？怎样有用节制尾延迟？怎样于差别介质特征之间实现负载平衡？

这些问题，终极都指向一个详细的机能方针。

“要把吞吐量从此刻的300万IOPS，于两年后晋升至1亿IOPS，这相称在靠近两个数目级的跃升。”吴子宁博士进一步阐释道，“单靠更进步前辈的芯片制程，没法支撑这一量级的机能超过，要害于在架构层面的重构。咱们需要于数据调理路径上实现更邃密的优化与更高的效率，鞭策介质层与接口层之间的深度协同，将数据从存储介质到主机接口的整条通路压缩至最短，从而于底子上降低拜候延迟。”

这些问题，组成了AI SSD主控芯片的研发要害。

标的目的靠校准，路径需批改

缭绕“内部架构重排”，英韧的摸索正于延长至下一代产物。

2026年，英韧规划推出PCIe Gen6的新一代产物，将交融下一代NVMe与CXL双和谈，于带宽实现翻倍的同时，512B随机读取机能有望到达万万IOPS量级。

此中，CXL（Compute Express Link）尤为要害。该和谈经由过程引入内存语义，实现高速互联，构建更年夜的存储池。从更广义角度看，这一标的目的正指向“存算一体”的演进路径——即更高效地将数据从存储侧调理至计较侧。

“这不仅是硬件问题，软件系统一样于同步演进。”吴子宁博士指出。

与此同时，英韧也于及颗粒原厂开展更深度的互助——由于不管主控多强，没有好的介质共同，一切都无从谈起。

从PCIe 3.0到5.0，再到行将到来的6.0；从TLC到QLC，再到XL-FLASH与SLC的协同；从单一的SSD主控，到NVMe与CXL双和谈的交融——英韧的技能线路，始终缭绕统一个焦点问题睁开：当数据的调理及利用方式变了，存储该怎样从头设计？

对于在英韧当前的产物标的目的，吴子宁博士于对于话中暗示：“年夜标的目的需要经由过程经验与市场反馈来校准，防止战略性过错；而于详细路径上，则必需连续迭代与批改。”

这个立场，也许比任何产物参数都更能申明问题——于AI带来的新一轮“体系重排”中，没有人能预知尽头。独一能做的，是于变化中不停调解本身的位置。

（本文作者持久存眷存储行业，对于周期颠簸与企业分解有连续追踪，接待添加微信EATINGNTAE交流切磋。）

雷峰网雷峰网(公家号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-通宝TB222-手机版官网

通宝TB222-手机版官网- 英韧科技董事长吴子宁：从空转到满载，AI SSD如何把闲置算力变成「有效算力」？丨存储芯片十人谈

推荐资讯