webjb

华为发布AI推理创新技术UCM，破解HBM依赖

送交者: testtesttest 于 2025-08-13 02:16:26

回答: 又是伟大的华为！HBM 再破瓶颈华为将发布突破性成果由于 2025-08-13 00:23:52

华为发布AI推理创新技术UCM，破解HBM依赖，实现高吞吐、低时延体验

2025-08-12 14:23

华为于8月12日在2025金融AI推理应用落地与发展论坛上，正式发布AI推理创新技术UCM，这项突破性成果有望降低中国AI推理对HBM（高带宽内存）技术的依赖，提升国内AI大模型推理性能。
....
UCM提供更低推理成本，产业链公司迎来机遇
HBM是解决"数据搬运"的关键技术。当HBM不足时，用户使用AI推理的体验会明显下降，导致出现任务卡顿、响应慢等问题。华为此次技术突破有望缓解这一瓶颈。

据悉，UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动，同时融合多种稀疏注意力算法实现存算深度协同，使长序列场景下TPS（每秒处理token数）提升2至22倍，从而降低每个Token的推理成本。

目前，AI大模型训练对内存带宽需求呈指数级增长，传统DDR内存已无法满足需求。HBM通过3D堆叠技术将DRAM芯片垂直堆叠，最新的HBM3E可实现高达819GB/s的带宽，较DDR5提升5倍以上。在AI服务器中，HBM的成本占比约为20%至30%。

华为推出的UCM（推理记忆数据管理器）是一款以KV Cache为中心的推理加速套件，融合多类型缓存加速算法工具，通过分级管理推理过程中产生的KV Cache记忆数据，扩大推理上下文窗口，实现高吞吐、低时延的推理体验。

华为此次与中国银联共同发布AI推理最新应用成果，将完善中国AI推理生态的关键部分。据证券时报最新获悉，华为计划于2025年9月正式开源UCM，届时将在魔擎社区首发，后续逐步贡献给业界主流推理引擎社区，并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。

这项技术发布正值AI产业从"追求模型能力的极限"转向"追求推理体验的最优化"的关键节点，推理体验直接关联用户满意度和商业可行性，成为衡量模型价值的重要标准。

https://baijiahao.baidu.com/s?id=1840229710674780713

阅读次数：141

所有跟贴:

加跟贴