NVIDIA要用上X3D堆叠设计！下代GPU将引入LPU单元

资讯
25年12月31日
编辑

领域圈

摘要： 虽然NVIDIA目前在AI训练领域无可匹敌，但面对日益增长的即时推理需求，其正筹划一项足以改变行业格局的“秘密武器”。据AGF透露，NVIDIA计划在2028年推出的Feynman(费曼)架构GPU中，整合来自Groq公司的LPU(语言处理单元)，以大幅提升AI推理性能。 Feynman架构将接替...

虽然NVIDIA目前在AI训练领域无可匹敌，但面对日益增长的即时推理需求，其正筹划一项足以改变行业格局的“秘密武器”。

据AGF透露，NVIDIA计划在2028年推出的Feynman(费曼)架构GPU中，整合来自Groq公司的LPU(语言处理单元)，以大幅提升AI推理性能。

Feynman架构将接替Rubin架构，采用台积电最先进的A16(1.6nm)制程，为了突破半导体物理限制，NVIDIA计划利用台积电的SoIC混合键合技术，将专为推理加速设计的LPU单元直接堆叠在GPU之上。

这种设计类似于AMD的3D V-Cache技术，但NVIDIA堆叠的不是普通缓存，而是专为推理加速设计的LPU单元。

设计的核心逻辑在于解决SRAM的微缩困境，在1.6nm这种极致工艺下，直接在主芯片集成大量SRAM成本极高且占用空间。

通过堆叠技术，NVIDIA可以将运算核心留在主芯片，而将需要大量面积的SRAM独立成另一层芯片堆叠上去。

台积电的A16制程一大特色是支持背面供电技术，这项技术可以腾出芯片正面的空间，专供垂直信号连接，确保堆叠的LPU能以极低功耗进行高速数据交换。

结合LPU的“确定性”执行逻辑，未来的NVIDIA GPU在处理即时AI响应(如语音对话、实时翻译)时，速度将实现质的飞跃。

不过这也存在两大潜在挑战，分别是散热问题和CUDA兼容性难题，在运算密度极高的GPU 再加盖一层芯片，如何避免“热当机”是工程团队的头号难题。

同时LPU强调“确定性”执行顺序，需要精确的内存配置，而CUDA生态则是基于硬件抽象化设计的，要让这两者完美协同，需要顶级的软件优化。

声明：领域圈所有文章，如无特殊说明或标注，均来自于互联网或为领域圈用户原创发布。任何个人或组织，在未征得原作者同意时，禁止复制、盗用、采集、发布领域圈内容到任何网站、书籍等各类媒体平台。如若领域圈内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证

NVIDIA要用上X3D堆叠设计！下代GPU将引入LPU单元

招聘信息暗示《波斯王子》新动向：育碧持续推进系列开发

《密特罗德究极4》师承《塞尔达传说：旷野之息》！竟是部分灵感设计来源

万国觉醒25级兵营升级条件是什么？25级兵营升级条件介绍[多图]

时空中的绘旅人废墟星地表第一层攻略

蛋仔派对蜜雪冰城联动皮肤怎么获得蛋仔派对蜜雪冰城联动活动介绍

《糖果缤纷乐》全新版本登场，三大挑战来袭！

雷索纳斯抽卡有保底吗雷索纳斯保底多少出SSR

光明大陆战力提升平民攻略

关于我们

服务条款

隐私政策

版权申明

联系我们

关注我们