国际固态电路会议(ISSCC)是全球规模最大的半导体集成电路研发成果国际会议,将于2026年2月15日至19日在美国加利福尼亚州旧金山的万豪侯爵酒店再次举行。本文中,我们将介绍一些值得关注的芯片:
AMD 最新 GPU“MI350”和 IBM 的 AI 加速器“Spyre”
首先,我们来看一些值得关注的处理器发布信息。我们重点介绍了五项研发成果。它们都是用于人工智能应用的芯片或封装(模块),例如GPU和加速器。
AMD 将对其最新一代 AI GPU——Instinct MI350 系列进行技术概。该 GPU 采用 CDNA4 架构。四个 3nm 工艺的计算芯片 (XCD) 水平排列在一个 6nm 工艺的输入/输出芯片 (IOD) 之上。堆叠的芯片组(芯片组)与主内存 HBM 模块封装在同一封装内。与上一代产品相比,理论峰值性能提升了 1.9 倍,HBM 输入/输出带宽和内存容量(在相同封装面积下)均提升了 1.5 倍。
韩国Rebellions公司开发了一种基于芯片组的大规模AI推理子系统该子系统采用UCIe协议实现芯片组之间的连接(网状连接),传输速度超过16Gbps。子系统由4nm工艺节点神经网络处理器(NPU)、HBM3E模块、硅集成电容等组成。在Llama 3.3版本(700亿参数)大规模语言模型上执行单个2k/2k输入/输出序列时,性能达到56.8 TPS(每秒词元数)。
IBM 将展示其名为“Spyre”的可扩展、高能效 AI 加速器的研究成果。Spyre 专为推理而优化,将多个子系统集成到一张单槽 pcIe 卡上。它具备先进的电源管理功能,支持低精度浮点数据格式,并配备高吞吐量内存子系统。该加速器芯片采用 5nm CMOS 工艺制造,硅面积为 330 平方毫米,包含 260 亿个晶体管。据称,其吞吐量比最新 GPU 高出 32%,能效是后者的两到三倍。
联发科将展示“MADiC”,这是一款生成式扩散加速器,在运行扩散卷积神经网络(ConvNet)时,其性能可达7.4 TOPS/mm²和17.4 TOPS/W。该加速器采用3nm工艺制造,硅片面积仅为0.338 mm²,专为边缘设备上的生成式图像编辑而开发。
NVIDIA 开发了名为“ALPhA-Vision”的实时图像处理器,其人脸检测延迟仅为 787 微秒,功耗仅为 4.6 毫瓦(每秒 60 帧),并且始终处于开启状态。该芯片采用 16 纳米工艺制造,芯片面积为 4.20 平方毫米。人脸检测准确率达到 99.3%,但仍有提升空间。
高密度NAND闪存,密度为37.6Gbit/mm²,符合HBM4标准的高速大容量存储器
接下来是一项关于存储器的重要公告。公告中介绍了五项研发成果。第一项是关于3D NAND闪存的,其余四项是关于DRAM的。
闪迪和铠侠联合开发出存储密度高达37.6 Gbit/mm²的3D NAND闪存。该芯片的存储容量高达2 Tbit,字线层数为332层,采用4bit/单元的多值存储方式。存储单元阵列被划分为六个平面,以提升读写性能。写入速度高达85 MB/s,读取延迟仅为65 μS。
三星电子将发布一款符合HBM4标准的DRAM模块,其内存容量为36GB(288Gbit),数据传输速率高达3.3TB/s。该模块由12颗采用第六代10nm工艺制造的24Gbit DRAM芯片(核心芯片)堆叠而成,并通过TSV(硅通孔)连接。输入/输出数据线数量增加至2048条,是上一代HBM(HBM3E)的两倍。底层芯片(逻辑芯片)采用4nm FinFET工艺制造。每个输入/输出通道的数据传输速率高达13.2Gbps。如此高的传输速率得益于核心芯片的自适应体偏置和各通道的自动校准。
SK海力士开发了一款16Gbit LPDDR6 SDRAM,其每个输入/输出引脚的数据传输速率高达14.4Gbps。该芯片采用1c代(1γ代)工艺节点制造,并融合了多项关键技术,例如LPDDR6独特的低功耗模式、基于LDO(低压差线性稳压器)的写入时钟树、可在无端接和片上端接之间动态切换的写入操作、高速片选控制以及系统元模式。
三星电子将推出一款16Gbit LPDDR6 SDRAM,其每个I/O引脚的数据传输速率高达12.8Gbps。它支持12DQ子通道的宽NRZ数据I/O,具备每行激活计数功能(以防止行锤击故障)和元数据方案。
SK海力士开发了一款24Gbit GDDR7 DRAM,每个输入/输出引脚的数据传输速率高达48Gbps(演示文稿编号15.9)。该产品面向中端AI推理应用,具有对称双通道模式运行、时钟路径优化和RAS功能等特点。
26mW 低功耗锗硅图像传感器和 2 亿像素 CMOS 图像传感器
接下来是引人注目的图像传感器发布会,重点介绍了四项研发成果,包括支持汽车高级驾驶系统的激光雷达接收器、用于 AR/VR 头显的低功耗传感器阵列以及用于 8K 视频录制的高分辨率图像传感器。
意法半导体(STMicroelectronics)将展示一款激光雷达接收器,其视场角(FoV)为54°×42°,分辨率为52×42通道,帧速率为60帧/秒(fps)。该器件采用3D堆叠技术和65/40nm CMOS工艺,集成了220×198背照式SPAD阵列、像素内时间数字转换(TDC)电路、用于距离测量(ToF)和强度测量的双计数器以及片上存储器。芯片和封装内均单独安装了25V输出升压电路。该接收器功耗为153mW(60fps),测量距离可达9.6米,距离测量误差小于1厘米。
索尼半导体解决方案公司开发了一款基于锗硅(Ge-on-Si)的单光子雪崩二极管(SPAD)传感器阵列,像素尺寸为400 x 300,像素间距为10 μm。该传感器专为低功耗增强现实/虚拟现实(AR/VR)应用而设计,可在室温下工作。在30帧/秒的帧速率下,其功耗仅为26 mW。在1300 nm的接收波长下,其光子探测效率(PDE)为5.1%。在10 m的测量距离下(采用直接飞行时间法),其距离测量误差小于3 cm。该传感器具有可编程宏像素和片上直方图功能,可选择性地激活多达500个宏像素。
三星电子将发布一款低噪声的1200万像素等效全局快门CMOS数字图像传感器。该传感器采用2x2阵列,四个像素共用一个模数转换器(ADC)。像素间距为1.5μm。四相锯齿形读出以固定间隔对四个像素进行数字化。该传感器内置运动补偿功能。其噪声水平极低,平均固定模式噪声(FPN)为0.65e-rms,随机噪声为1.09e-rms(模拟增益16)。
SmartSens Technology 开发了一款像素间距为 0.61μm、像素数达 2 亿的 CMOS 图像传感器。该传感器专为高清视频录制而设计,采用 40nm 工艺芯片与 22nm 工艺芯片堆叠而成,并采用背照式设计。它运用了双转换增益 (DCG) 读出架构和 2x2 像素共享架构,转换增益为 275μV/e-(相当于 0.7e- 的读出噪声)。该传感器支持无运动伪影的高动态范围 (HDR) 图像合成,并可实现 60 帧/秒的 8K 视频录制。
英伟达、微软和其他公司应邀发表演讲,概述人工智能芯片背后的技术。
最后一场会议将邀请专家就人工智能芯片相关主题发表演讲。在题为“人工智能芯片重点发布”的会议中,开发人员将对人工智能芯片进行技术概述。会议共安排了四场演讲。
首先,NVIDIA 将概述其用于桌面 AI 超级计算机 DGX 的 GB10 处理器。该 CPU 芯片包含 20 个 Armv9.2 核心,并集成了一颗专为桌面应用设计的 Blackwell 集成显卡 (iGPU) 芯片,封装于同一芯片内。该集成显卡包含第五代 Tensor 核心、第四代 RT(光线追踪)核心以及 24MB 二级缓存。其计算性能在 FP32 模式下为 31 TFLOPS,在 FP4 模式下为 1 PFLOPS。两颗芯片均采用台积电 (TSMC) 的 3nm 工艺制造。
接下来,意法半导体概述了STM32N6系列微控制器,该系列微控制器集成了Arm Cortex-M55 CPU和意法半导体自主研发的神经网络处理单元(Neural-ART NPU)。该系列微控制器面向边缘人工智能应用。1GHz的Neural-ART NPU实现了600GOPS和3TOPS/W的性能。此外,还有一个协处理器可以加速图形/视频/图像处理,并针对非矩形显示器进行优化。该系列微控制器采用16nm FinFET工艺制造。
接下来,韩国 Mobilint 公司将展示其通过软硬件协同设计开发的用于 AI 推理加速器的通用 NPU 内核。本地部署的加速器“ARIES”集成了两个 4 核 NPU 集群,采用三星 14nm 工艺制造,芯片面积为 181 平方毫米。设备端加速器“REGULUS”采用单核配置,采用台积电 12nm 工艺制造,芯片面积相对较小,为 50 平方毫米。
最后,微软将解释其人工智能加速器“MAIA”(可能是MAIA 100)的架构和实现方式。他们将讨论光罩尺寸(约800平方毫米)的封装技术、750瓦功率的供电和散热机制、物理设计方法和验证方法。




京公网安备 11011402013531号