华为发布AI推理创新技术UCM,破解HBM依赖
散仙谷 http://www.webjb.org/webjb/sanxian/
送交者: testtesttest 于 2025-08-13 02:16:26
回答: 又是伟大的华为!HBM 再破瓶颈华为将发布突破性成果 由 于 2025-08-13 00:23:52
华为发布AI推理创新技术UCM,破解HBM依赖,实现高吞吐、低时延体验
2025-08-12 14:23
华为于8月12日在2025金融AI推理应用落地与发展论坛上,正式发布AI推理创新技术UCM,这项突破性成果有望降低中国AI推理对HBM(高带宽内存)技术的依赖,提升国内AI大模型推理性能。
....
UCM提供更低推理成本,产业链公司迎来机遇
HBM是解决"数据搬运"的关键技术。当HBM不足时,用户使用AI推理的体验会明显下降,导致出现任务卡顿、响应慢等问题。华为此次技术突破有望缓解这一瓶颈。
据悉,UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,同时融合多种稀疏注意力算法实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2至22倍,从而降低每个Token的推理成本。
目前,AI大模型训练对内存带宽需求呈指数级增长,传统DDR内存已无法满足需求。HBM通过3D堆叠技术将DRAM芯片垂直堆叠,最新的HBM3E可实现高达819GB/s的带宽,较DDR5提升5倍以上。在AI服务器中,HBM的成本占比约为20%至30%。
华为推出的UCM(推理记忆数据管理器)是一款以KV Cache为中心的推理加速套件,融合多类型缓存加速算法工具,通过分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,实现高吞吐、低时延的推理体验。
华为此次与中国银联共同发布AI推理最新应用成果,将完善中国AI推理生态的关键部分。据证券时报最新获悉,华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。
这项技术发布正值AI产业从"追求模型能力的极限"转向"追求推理体验的最优化"的关键节点,推理体验直接关联用户满意度和商业可行性,成为衡量模型价值的重要标准。
阅读次数:141
所有跟贴:
加跟贴
所有跟贴·加跟贴·ɢɹ
Copyright © 2000 - 2020 webjb.org