【导读】在AI大模型迈向万亿参数与规模化部署的新阶段,算力需求正从“堆规模”转向“提效率”。奕行智能以RISC-V架构为基底,融合类TPU设计、Tile编程范式与自研VISA虚拟指令集,走出一条“软硬协同+开源生态”的差异化路径。其首款量产芯片Epoch不仅在算力密度、能效比和互联扩展性上实现突破,更通过深度适配FP8、NVFP4等低位宽高精度计算格式,直击当前AI推理成本与效率的核心痛点。本文将系统剖析AI产业对算力的三大核心诉求,并揭示DSA(专用架构)+Tile范式如何成为下一代AI芯片的关键方向。
从行业需求角度,详细剖析AI产业现状及未来
AI算力的三个需求
奕行智能介绍,随着大模型参数量迭代至万亿级、应用场景需要考虑规模化部署,此时,AI行业对底层算力的需求已从单一性能比拼,升级为规模、效率、生态的全方位较量。
具体而言,针对规模诉求,AI模型参数量与训练计算量的激增速度,已远超硬件算力的提升幅度,算力供需矛盾日益突出。也正因此,算力部署形态发生根本性转变——从早期单卡GPU支撑小型模型,升级为万卡规模的数据中心承载大模型训练与推理,这对算力规模化提出了更高要求:需要兼顾算力密度、互联能力及系统稳定性等。
第二是效率诉求。2025年,以DeepSeek为代表的国内头部大模型厂商,通过算法与软硬件协同优化,将Token单位成本显著降低。DeepSeek现象也让AI推理有了新的玩法。从追求算力堆砌转变为效率与规模并重,更加关注模型算力实际利用率(MFU)、Token单位成本(Token/Dollar),以及影响用户体验的首个Token延迟(TTFT)和持续推理吞吐量(TPS)等效率指标。
第三个诉求是生态诉求。伴随着大模型的迭代速度以月甚至周为单位,芯片、算法与软件互相促进、快速迭代,这对高投入、长周期的芯片厂商而言,是巨大的挑战。需要前瞻性地考虑上层软件算法的快速发展,支持更高效的AI开发范式(如Triton、TileLang等)。
效率诉求是第一位
大模型的发展已从单一依赖“算力与参数堆叠”,演进为“预训练→训练后优化→测试时推理”的三阶段扩展模式。每一阶段的进化都以更高效率的计算投入,实现了模型智能水平的显著跃升,也为突破算力瓶颈提供了新路径。
而对于推理而言,大模型的核心产品形态实际上是Token,与软件近乎零成本的复制不同,Token的生产模型以算力与电力为核心,因此,提升算力利用率与能效比,不再是单纯的技术优化,而是直接降低生产成本、提高毛利率、转化为商业利润,提升运营效率的关键。
DSA+Tile范式正在崛起
目前,AI计算芯片市场主要分为CPU、GPGPU和ASIC(DSA)三大架构,其中GPGPU长期占据主导地位,但如今ASIC(DSA)架构与Tile编程范式的结合,正成为行业发展的新趋势,为AI算力效率提升开辟了全新路径。
英伟达的GPGPU凭借SIMT架构的强大并行计算能力,以及深耕近20年的CUDA生态,长期占据AI算力硬件市场的主导地位。不少厂商试图通过CUDA兼容的方式切入市场,但面临诸多挑战。据分享,CUDA是英伟达深度软硬协同的产物,仅能在英伟达GPGPU上发挥最优性能,第三方厂商的兼容往往只停留在API层面,普遍存在“水土不服”的问题,同时,随着英伟达软硬件的快速迭代,即便是现有的“CUDA兼容”,也会因为硬件代差而无法持续。
相比之下,谷歌给出了一个较为妥善的答案。以TPU为代表的ASIC(DSA)架构,通过内置针对矩阵运算等AI核心范式的专用加速单元,在性能与能效比上具备超出GPGPU的优势。ASIC的核心挑战的是生态适配的成本,相较于成熟的CUDA,如何吸引开发者在专用硬件上高效编程,是多数ASIC厂商面临的共同难题。谷歌等头部厂商通过长期投入,已在生态适配上取得突破:TPU借助XLA编译技术,不仅支持谷歌系的TensorFlow和JAX框架,还能适配PyTorch框架,有效降低了生态迁移门槛,推动ASIC架构走向规模化应用。
此外,谷歌还联合多家科技巨头发起OpenXLA开源项目,通过XLA编译器及StableHLO中间表示层,构建起跨框架的通用编译生态,实现对TensorFlow、JAX和PyTorch等主流框架的高效兼容,大幅降低开发者的迁移门槛;近期发起的TorchTPU项目,旨在进一步深化TPU对PyTorch生态的原生支持,让开发者能够以近乎零代码修改的方式,将模型从GPU迁移至TPU,最大限度减少转化过程中的性能损耗。谷歌的实践充分证明,全栈软硬协同,才是实现算力效率最大化的核心路径。
除了架构革新,编程范式的升级也成为提升AI开发效率的重要方向,其中Tile(数据分块)计算范式的兴起,尤为值得关注。AI计算中的数据往往具有规整性,Tile编程模式贴合这一特征,能够提供更友好的编程接口,大幅提升算子开发效率,降低编程门槛。比如DeepSeek就采用北大团队开源的TileLang构建算子,并将其作为新模型的精度基准;而这种对于开发者更友好的编程范式,影响力已经延伸至CUDA生态,就连英伟达也在CUDA 13.1中,推出了基于Tile编程范式的CUDA Tile编程界面,印证了这一范式的行业价值与发展潜力。
值得注意的是,DSA设计思想也正在渗透到GPU的迭代中:英伟达从Volta架构首次引入Tensor Core,到Blackwell架构扩大张量核心规模、加入Transformer优化引擎,持续提升芯片中DSA的占比,凸显出“领域定制化”的演进趋势;2025年12月,英伟达吸纳AI推理芯片创企Groq的核心团队,进一步强化在大模型推理定制化领域的布局。
“种种迹象表明,DSA(ASIC)+Tile编程范式的结合,将成为未来AI算力领域的核心生态力量。”奕行智能分享。其通过软硬协同带来的效率优势,在AGI(通用人工智能)时代具备广阔的市场空间。而这一技术方向,正是奕行智能的核心布局领域,也是其区别于同行的关键差异化优势。
奕行智能走通了DSA+Tile
实际上,在奕行智能成立之初,公司就已经选择了“硬件架构创新+自研互联+开源生态”这条路径,实际结果也符合创业之初的预期。奕行智能研发的国内业界首款RISC-V AI算力芯片Epoch正在大规模量产出货中,截至目前,该系列产品已在头部系统厂商、互联网企业、数据中心及重点行业客户中取得重大商业突破。
该芯片在业界率先采用RISC-V + RVV(RISC-V向量扩展)指令集架构,结合自研的VISA(虚拟指令集)技术,兼顾了AI计算的通用性与专用性。
Epoch十分满足如今AI芯片变革过程中的新痛点。
首先,在应对规模化需求方面,通过先进芯片架构,结合自研ELink互联技术,实现算力的大规模扩展。
其次,在应对效率提升需求上,采用了类TPU架构,兼顾高性能与高效率;通过深度软硬协同优化,提升算力实际使用效率,降低Token单位成本。
而在生态适配上,采用RISC-V + RVV开源指令集,赋予硬件灵活扩展能力;另外,采用了基于软硬件一体的Tile级动态调度架构,通过“虚拟指令+智能编译器+硬件调度器”,提供更友好的编程界面,降低开发与适配成本,跟上算法迭代节奏。
Epoch芯片在业界率先采用RISC-V + RVV(RISC-V向量扩展)指令集架构,结合自研的VISA(虚拟指令集)技术,完美平衡了AI计算的通用性与专用性,既能适配多样化的AI应用场景,又能通过专用优化提升计算效率。
2025年,Epoch系列产品及计算平台解决方案正式启动量产;截至目前,该系列产品已在头部系统厂商、互联网企业、数据中心及重点行业客户中取得重大商业突破,斩获巨额在手商业订单,迎来规模化量产的爆发期,充分印证了其产品竞争力与市场认可度。
针对产品的类TPU架构,奕行智能介绍了一些架构亮点,例如同样采用RISC-V内核,并内置了性能强大双脉动流水矩阵运算引擎及具备复杂矩阵数据处理与变换的4D DMA引擎。
其中,采用双脉动流水设计的大尺寸矩阵运算引擎,将数据复用率提升数倍,且显著减少了数据前处理的开销。相比同类方案,编程也更为简单易用,限制更少——例如几乎无需为规避bank冲突特意做手动编排,能够直接支持模型中开发难度大的卷积矩阵乘算子等。
面对AI计算中频繁出现的4D数据,相比竞品需要多次数据搬移与处理,奕行智能的4D DMA引擎仅通过一次操作即可完成4D数据的整体搬移,并在过程中同步完成数据变换与重排。此外,通过配置大容量片上缓存,将热点与关键数据置于L1/L2中,其访问速度相比存放在DDR的方案提升1–2个数量级。
盘点Epoch三大创新
奕行智能详细介绍了Epoch的三大产品创新,其中包含一个率先和两个独创。
创新之一是率先采用了RISC-V + RVV(RISC-V向量扩展)构建AI芯片架构,依托RISC-V的开源特性与技术优势,可以更好地实现完备的生态支持。
独创之一是VISA(虚拟指令集)技术。奕行智能解释,VISA相当于在软件与硬件之间搭建了一层中间抽象层,从根本上解决了AI芯片行业长期存在的软件兼容、扩展能力、编译难度三大痛点,兼顾了计算通用性与效率。
VISA技术让上层的算子及AI编译器软件建立在VISA抽象层之上,硬件层面实现VISA宏指令的顺序发射、乱序执行——这种设计可有效隔离硬件变化对上层软件的冲击,同时降低AI编译器与算子的实现难度,预留额外的性能优化空间,实现通用计算与高效计算的平衡,满足AI计算所需的抽象需求。
这样做的好处是,可以实现隔离硬件迭代差异,提升计算扩展能力,并且解决了AI编译陡降问题。
第二个独创是Tile级动态调度架构。基于AI场景数据规整、无需过高灵活性的特点,奕行智能独创Tile级动态调度架构,原生适配Tile生态范式。该架构由Tile级虚拟指令集、智能编译器和硬件调度器三部分组成,可实时适配硬件行为,充分挖掘并行计算潜力,实现算力资源的最优分配。
架构可自动管理指令间依赖、指令顺序流水和内存切分,无需开发者手动优化,既突破了静态优化的性能瓶颈,又让编程更加干净简洁,大幅降低开发者的编程门槛,提升开发效率。
在编译框架中,奕行智能深度融合了谷歌开发并开源的StableHLO & XLA技术,无缝支持市面上所有的主流深度学习框架——包括深度适配PyTorch生态,同时支持TensorFlow、JAX、ONNX等主流机器学习框架,支持无缝迁移代码。
迎合“低位宽高精度”新时代
在深度学习领域,数据精度与计算效率始终存在权衡关系。例如,TPU Tensor Core 在FP8模式下可提供2倍于BF16的算力密度。以Ironwood(TPU v7)为例,其FP8峰值算力达到4.6PetaFLOPS,而BF16仅为2.3PFLOPS。显存占用和通信数据量也同步减半。
DeepSeek于2025年1月推出基于FP8分块量化(Block-wise Quantization)的技术,通过更细粒度的缩放因子补偿,使FP8计算精度接近原始BF16水平,也因此引起了DeepSeek热。
2025年6月,NVIDIA正式发布NVFP4,采用16元素共享缩放因子并以FP8作为缩放数据类型,使4bit精度几乎逼近 BF16水准,标志行业进入4bit时代。
奕行智能的Epoch除了支持传统的多种浮点及整型数据类型以外,还在国内率先支持DeepSeek 所需的基于分块量化的FP8计算精度,并在其新一代产品支持 NVFP4、MXFP4、MXFP8、MXINT8等各类前沿数据格式。
总结
当AI产业从“算力军备竞赛”步入“效率精耕时代”,唯有真正打通硬件架构、编译生态与算法演进的全栈协同,才能穿越算力瓶颈、兑现商业价值。奕行智能凭借RISC-V的开放基因、类TPU的高效架构与独创的VISA+Tile动态调度体系,不仅验证了国产AI芯片在高端算力领域的可行性,更在全球DSA演进浪潮中抢占了生态定义权。





