在规模化的算力演进过程中,高密度创新也带来了严峻的技术挑战:例如5nm以下制程芯片的引脚密度、信号完整性要求,比传统工艺提升了10倍以上。此外,光电融合的新趋势、超高速的传输接口、越来越突出的能效挑战等等……都使得芯片测试步入史无前例的深水区。而这些尖端技术瓶颈的突破,都依赖于一个容易被忽视的关键环节——测试测量体系的革命性升级。
AI芯片面临哪些测试测量挑战?
与传统芯片相比,AI芯片面临哪些独有的测试测量挑战?
AI计算平台通过异构集成CPU控制单元、GPU/NPU加速器及DPU数据处理器等,构建起任务优化的协同架构,这就对芯片测试提出了更大挑战,例如需要考虑不同类型的处理单元如何协同工作,多个大小核的CPU架构在数据交互与系统调试方面都更为复杂。此外,对于每种CPU类型,都需要进行严格的规范测试以确保其按照设计要求正确运行。因此需要帮助开发者更早发现错误,实现更快的覆盖率收敛,提升芯片验证的效率等等。
其次,复杂的芯片内部拓扑结构也是一项重要挑战。随着芯片对高速接口和高吞吐量需求的不断提升,设计者需要构建高效的数据传输和通信网络。例如网络芯片(NoC)架构,由于它能够支持高速且灵活的通信网络,并联结多个处理和存储单元,因而不仅需要考虑每个单元的独立性能,更要综合考量它们之间的通信与协同工作方式。
同时,Chiplet封装则要求确保芯片之间可以实现高速的互联、宽广的带宽、低能耗、低延迟,同时还要保持传输的高可靠性、强大的路由功能以及统一的内存处理能力等关键指标。
AI芯片测试:逼近物理极限的四大攻坚战
要支撑起AI芯片革命的持续创新,测试测量产业必须在四个维度发起技术攻坚:超高速接口、异构系统集成复杂度、光电融合、以及面向AI计算集群的系统级测试。
(1)超高速接口测试:PCIe 6.0/CXL 3.0的极限挑战
为满足AI算力需求,超高速接口成为标配。测试测量如何解决由此引发的信号完整性、时序容差等测试难题?
是德科技市场部行业经理阳任平表示,AI芯片的片间互联,通常采用PCIe 6.0(64 GT/s PAM4)以及CXL 3.0(128 GT/s)等接口技术,同时引入复杂均衡算法(如 DFE、CTLE)。在测试误码率时,传统误码率测试仪(BERT)难以覆盖全链路仿真,需要更高效的测试仪器,提升测试效率,缩短芯片面世周期。
据是德科技高速数字与光通信市场部经理郭琳介绍,是德科技的PCIe/CXL测试方案主要包括infiniium UXR系列示波器及M8050系列误码仪,低噪声技术能够快速、精准地捕捉测量数据,多种抖动、串扰和噪声分析套件可以帮助用户尽早查障,通过详细的比特误码率分析和接收机的均衡优化,可帮助用户尽最大可能增强信号完整性。
在某厂商的7nm AI芯片测试案例中,首先需要进行高速信号抖动分析,PCIe 5.0速率达32 GT/s,需精准测量眼图、上升时间与抖动(RJ/DJ);其次是多通道时序同步,AI芯片内部多个计算单元并行运行,需验证纳秒级信号同步偏差;第三是动态电源噪声抑制,在DVFS模式下,电源轨瞬态噪声可能影响芯片稳定性。如何应对这些高速数据传输与能效优化方面的需求?
泰克的DPO70000SX系列(70GHz带宽/200GS/s采样率)实现了PCIe 5.0接口的高分辨率眼图分析与抖动分解;MSO6B系列(8通道,10 GHz带宽)完成了AI芯片16通道并行总线的同步精度验证(误差<10ps);5系列B示波器结合TPR1000探头,精准量化DVFS模式下1.2V电源轨的瞬态噪声(<20mVpp)。
点评:通过对是德和泰克的调研和分析可以看出,AI芯片测试正经历从单一信号验证到多域协同分析的范式转变。行业痛点主要存在于单一BERT无法满足AI芯片全链路验证的需求、硬件加速与软件算法的协同需求、以及底层硬件的深度革新需求。未来需要更进一步应对CXL多链路拓扑、DVFS与计算负载的动态关联分析等等,而这需要更进一步提升通道密度扩展、实时功耗建模等能力。
(2)定制化系统:多协议并存与异构验证闭环
AI芯片架构的高度定制化,使其采用的高速总线标准呈现多样化,如UEC、PCIe、以太网等,这对测试设备适配能力提出了极高要求。
阳任平表示,是德科技主要从硬件设计、软件工具及验证方法等多维度进行布局。硬件层采用自研芯片与模块化平台(如AresONE 800GE结合M8040A误码仪及UXR示波器或DCA-M采样示波器),实现对PCIe 6.0的64GT/s PAM4信号的生成-接收-分析全链路验证;软件层依托深度参与行业协会(PCI-SIG/UCIe/UEC联盟等),开发统一测试平台实现标准前置适配;方法层通过创新性地融合数字孪生与硬件在环(HIL)技术——前者构建总线虚拟原型(如PCIe 6.0 GPU信号传输仿真),提前发现信号干扰、暴露时序冲突等问题;后者通过SystemVue生成UEC协议流,在实时仿真环境中验证芯片数据响应能力,最终形成"设计-仿真-测试"闭环验证体系。
应对AI芯片的定制化趋势,“硬件+软件+方案”的策略必不可少。据郭琳分享,是德科技于今年2月份推出的LPDDR6完整工作流程解决方案就涵盖发射机和接收机测试应用软件,以及ADS(先进设计系统)Memory Designer 工作流程解决方案。通过将LPDDR6 测试解决方案与 Keysight EDA设计软件以及Keysight Memory Designer搭配使用,能够加快从仿真到验证和测试的整个设计进度。
点评:AI芯片架构的高度定制化,不仅体现为高速总线标准的多样化(UEC/PCIe/以太网等),更深层的是计算资源调度范式的根本性变革——CPU、GPU、DPU等异构单元间的数据迁移,这需要避免时序偏差和资源争用带来的信号损伤,测试设备需要突破传统协议分析框架,向多维资源协同验证进化。同时,测试解决方案与EDA工具链的深度耦合,也标志着测试驱动设计优化的模式成熟,为AI芯片跨越算力密度与系统可靠性带来助益。
(3) 光电融合:下一代AI芯片的 “光速标尺”
AI光电芯片被认为是突破传统计算瓶颈、推动智能化升级的一项重要技术,应对光电融合,测试测量技术也需要进行前瞻布局。
阳任平表示,是德科技在测试测量技术上的前瞻布局聚焦超高速光信号捕获、光/电混合测试等方向。其中,超高速光信号捕获方面,新一代DCA-M 采样示波器(N1093B),支持 224G 带宽,可用来测试1.6T光模块的PAM4信号眼图,垂直精度达1mV,抖动测量分辨率< 50 fs RMS,满足 CEI-LINEAR 规范对EECQ测试的需求AI系统级测试。
针对CPO(共封装光学)等新兴架构,电-光-电(E-O-E)测试方案比较适用,例如通过 M8199B 任意波形发生器生成电信号驱动光模块,再用DCA-M示波器分析光电转换后的信号,实现从芯片电接口到光链路的全链路验证。
另外在晶圆层级,针对硅光芯片测试测量技术的瓶颈问题,国家信息光电子创新中心与苏州伊欧陆公司,日前研发出国内首套商用级的8-12英寸硅光晶圆测试筛选系统。该系统以微电子晶圆台和精密定位组件为基础,构建了一个高效且兼容性强的光电混合测试平台,能够满足目前所有已知硅光子单元器件的测试需求。
点评:目前在光电测试领域,类似是德这样的国际头部企业,已经直指1.6T光互联时代的核心需求进行物理极限的持续突破。与此同时,中国团队在晶圆级测试的突破,正在通过精密机电系统集成与平台兼容性设计,在硅光晶圆测试领域实现技术突围。
(4)超高速网络测试:为AI集群构筑“零丢包”防线
随着万卡级AI训练集群的普及,800G/1.6T超高速网络成为算力扩张的关键。然而真实AI负载的突发流量波动性(如短时带宽激增300%)正引发严峻挑战:比如性能塌陷风险(LLM训练中丢包,导致算力利用率骤降),以及延迟敏感瓶颈(例如通信延迟误差)。
如何应对这些挑战?是德科技NAS部门资深区域经理王钦洲表示,是德科技和行业头部客户合作开发了KCCB、Keysight Collective Communication Benchmark以及Workload Emulation方案,能够仿真突发流量等AI真实负载行为,协助客户保障AI训练集群所需要的网络质量。通过硬件与软件双重方案,除了能够提供RDMA message配置,针对网络中的各种ECN、PFC以及CNP等重要拥塞指标的生成及统计,以及DCQCN降速演算法,都可以用来验证AI数据中心必要的高性能网络技术。此外还有INPT(Interconnect and Network Performance Tester)测试仪表,不只能作为BERT测试误码率、测试以太网帧错误更正能力,还能提供眼图、RoCEv2以及AI负载仿真等能力。
思博伦通信云和IP事业部产品管理副总裁Aniket Khosla指出,要满足急速增长的需求,就需要不断更新以太网的骨干网,用双倍甚至四倍的速度和容量来替换上一版的技术。其A1 400G设备能够提供高端口密度,仿真真实世界的流量负载,对采用高速以太网技术的各类基础设施和服务加以验证。它一方面可以帮助运营商和超大规模数据中心确保能够支持大规模增长,另一方面可以有效控制成本。思博伦的A1测试平台可以对超大规模、下一代多TB级云数据中心架构执行大容量测试,消除骨干网中影响关键固定和移动服务的性能恶化。
此外还有拥塞控制指标的精准捕获,面对RoCEv2/InfiniBand的拥塞控制效率测试,需要能够真实仿真RoCEv2以及UET(Ultra Ethernet Transport)等高性能网络。
从多家头部厂商的技术趋势来看,AI的引入网络技术领域的重要方向。R&S子公司ipoque今年公布的AI驱动的ETI探测器,就使用了机器学习来对加密和模糊流量进行分类,包括TLS 1.3、QUIC和ESNI等。该解决方案使运营商能够进行动态网络塑造,实现近零延迟事件检测、优化带宽分配等。
Cisco的网络云视平台也在强调AI驱动。通过使用分析实时流量和事件数据的AI动力分析器,支持边缘感知部署、流线遥测、与SIEM/Splunk生态系统的融合,实现更为智能、稳定的网络。
点评:负载-拓扑失配已取代单纯的带宽不足问题,成为万卡集群的第一大网络瓶颈。传统“平滑流量”测试模型无法映射LLM训练中毫秒级的突发。网络测试的答案正在从“测带宽”转向“复现混沌”,把问题左移到芯片/交换机选型阶段。 此外,测试工具本身也在AI化,不论是上面提到的无监督学习对加密流量做实时聚类、还是强化学习动态调整遥测采样率,AI将给测试方案本身带来彻底变革。