IT之家 2 月 12 日消息,SK 海力士在一篇发布于本月 4 日的论文中提出了 H3 混合存储架构,其混合配置 HBM 高带宽内存与 HBF 高带宽闪存,充分发挥两种介质各自的优势而避免其短板。
SK 海力士在论文中表示,HBF 与 HBM 相比,带宽相当、容量更大、访问延迟更长、写入耐久更差、功耗更高,因此 H3 将 HBF 作为 HBM 的“二级扩展”,HBF 存储只读数据、HBM 则负责其余数据。
![]()
▲ 简略手绘概念图,H3 即 HBM+HBF 的整体
具体在结构方面,H3 上 GPU 与 HBM 的 base Die 通过中介层互联,HBM base Die 内置了 HBM 控制器和与 HBF 系统配套的“延迟隐藏缓冲”,HBM base Die 再通过中介层与 HBF base Die 连接,后者则包含 HBF 堆栈的控制器。
这一设计使得 H3 能存储大量只读数据,适合 LLM 推理工作负载环境,特别是那些采用共享预计算键值缓存的用例。仿真测试结果表明,相较于仅使用 HBM 的传统系统,配备 H3 的 GPU 单位功耗的吞吐量提高了 2.69 倍,显示出该架构在处理具有海量只读数据的 LLM 推理方面的成本效益。





京公网安备 11011402013531号