1. 引言
电子元器件作为现代信息系统的基石,其质量与可靠性直接决定了装备的性能与寿命,在航空航天、国防装备等关键领域,元器件的微小缺陷都可能会导致灾难性的后果[1]。然而,随着FPGA、SOC为代表的高密度复杂器件的广泛应用,传统检测技术面临严峻挑战,传统检测方法依赖人工目检和基于固定配置的单点功能测试,存在测试覆盖率低、精度不足、周期长、成本高等局限,已经成为制约高端装备研发与交付的关键瓶颈[2]。以人工智能、大数据、云计算、物联网和数字孪生为代表的新一代信息技术,正在以前所未有的深度和广度赋能传统产业,推动其从自动化向智能化迈进[3]。在元器件检测领域,利用数据驱动的洞察力和机器智能的决策力,去破解传统测试方法面临的困境,不仅是技术发展的必然趋势,更是保障国家关键领域产业链安全、提升核心竞争力的迫切需求。
本文以FPGA作为核心研究对象,旨在系统性地回答如何探索数智化技术与检测的融合路径,构建一套全新、高效、精准、智能的FPGA检测范式,既解决当前检测痛点,也为保障关键领域产业链安全、提升检测技术自主可控能力提供支撑。
2. FPGA检测技术
在FPGA的测试流程中,其核心思想是通过施加预设的激励并观察响应,来判断被测器件功能和性能是否符合要求[4]。首先是对外观进行筛选,主要依赖人工目检检查元器件的封装是否有裂纹、引脚是否氧化或变形、丝印是否清晰等。第二是电参数测试,使用仪器(如示波器)在指定条件下测量元器件的静态和动态电学参数,通常FPGA需测试电源引脚的静态电流(IDDQ)、输入/输出引脚的电压/电流特性(VIL, VIH, VOL, VOH)、以及关键时钟信号的频率、抖动等,最后是功能测试,旨在验证元器件能否正确执行预先设计的逻辑功能。
而测试方法分为很多种,包括结构测试、边界扫描、内建自测试等[5],如图1所示。
结构测试不关心FPGA最终要实现什么功能,而是将其视为一个由逻辑门、触发器、连线等组成的物理结构,旨在发现制造过程中可能引入的物理缺陷。FPGA内置一个测试访问端口(TAP)和边界扫描寄存器,通过TAP控制器,测试系统可以将FPGA的每个I/O引脚置于测试模式,独立地控制其输出或读取其输入,从而有效测试芯片与PCB板之间的焊接、短路、开路等问题。对于FPGA内部规整的、重复性高的模块,如块存储器(BRAM)和DSP单元,厂商通常会内置BIST电路,用户可以通过特定指令激活BIST,让这些模块执行预设的测试算法(如March算法),并返回一个简单的测试标志。
常用的方法是内建自测试,可以减少大量的测试向量,通过芯片内部设计的逻辑,芯片能自己完成对某项功能的检测,扫描链多用于SOC等不可编程器件,和边界扫描一样是厂家设定的功能,需要特定指令激活[3]。
随着芯片规模和复杂度的指数级增长,对于FPGA这类器件来说,覆盖率低、成本高、难以对差错点进行精准定位已经是业内的测试局限所在。中等规模的FPGA内部配置位就可能多达数亿个,即使设计上百个测试配置,所能覆盖的实际工作状态和内部节点组合,相对于总体节点组合而言只占据了部分。测试执行所需的ATE设备动辄数百万美元,对ATE技术人员的要求也很高,芯片更新的快节奏也会带来快速的开发要求,对一颗复杂FPGA进行较为全面的多配置测试,耗时可达数分钟甚至更长,测试成本剧增;且ATE报告往往只能提供有限的信息,比如某引脚在某时间点的输出值与预期有偏差,但导致这个错误的根本原因是什么只能泛泛分析[6] [7]。
因此,数智化检测技术就是解决FPGA测试痛点的一把利刃。
Figure 1. Test method diagram
图1. 测试方法图
3. 基于数智化技术的FPGA检测
3.1. 自动化外观检测技术
图2所示是构建的外观自动化检测平台,可以提高外观检测的速度和精度,外观检测系统包含硬件、软件、驱动三个部分[8] [9]。硬件主要是由CCD相机、运动电机、光学显微镜头构成;软件部分是对相机拍摄的相片进行缺陷检测的算法核心,也是人机交互的重要渠道;驱动部分主要是控制步进电机的运动和相机的驱动,完成自动化拍摄过程。缺陷检测算法使用Yolo v8神经网络,该算法对表面缺陷检测精度高、速度快。
Figure 2. Component surface defects automatic inspection system diagram
图2. 元器件表面缺陷自动检测系统图
3.2. 测试向量优化
传统功能测试的最大痛点在于测试向量的开发。数智化转型为此提供了全新的解决思路。其核心思想是,将测试向量的生成视为一个数学优化问题,利用机器学习算法来寻找最优解。基于遗传算法的测试向量优化流程如图3所示:
Figure 3. Vector optimization flow and RAM-oriented test vectors diagram
图3. 向量优化流程和RAM优化测试向量图
遗传算法的核心思想在于通过多次迭代产生适应度高的后群,在测试向量中,该方法同样适用,但是要进行相应的改动,通过大量的失效数据作为适应度的评价标准,将更容易造成失效的测试向量作为优秀指标来进行迭代,就可以从批量测试数据中得到少量但核心的测试向量,例如在测试RAM时候,多采用棋盘数据也是因为大面积跃变更容易得到失效结果,同时也能更全面体现测试覆盖率,同时,最完整的测试应该是对地址和数据都进行遍历,但从向量生成的角度而言是不可能实现的,所以通过基于遗传算法的测试向量优化就可以得到覆盖率更高,相对更全面的测试向量。
方法如下:
1) 采用变长二进制编码方案,将测试向量的每一位映射为染色体的“基因”,编码长度与被测FPGA的RAM输入宽度动态匹配,例如针对RAM位宽为18的FPGA,染色体长度设为18,基因0和1对应高低电平,随机生成对应位宽的测试向量,构建初始化种群;
2) 通过适应度函数(故障覆盖率与测试时间的加权函数)来进行评估:
(1)
其中:
为故障覆盖率,
是检测故障数,
是故障总数,
为测试时间占比。
3) 采用轮盘赌选择法,个体被选中概率与适应度正相关:
(2)
4) 交叉算子采用单点交叉,随机选择交叉点后交换父代染色体片段,交叉概率设为0.75。
5) 变异算子采用位变异,对每个基因以0.01的概率进行翻转,避免种群早熟。
实验中,随机生成初始种群规模为长度为16的共计50,000条染色体(测试向量数),最终迭代出100组效率和覆盖率最好的测试向量。
3.3. FPGA测试优化
现有测试机台(如Teradyne J750、advantest93K)的向量深度都具有一定的局限性,以J750-HD为例,最大支持128 M深度的向量,该向量指一个工程里测试向量的总和,能满足测试逻辑资源较少的FPGA,但针对较为复杂的芯片,如赛灵思7系列,一个未经过压缩的配置程序向量(串行配置状态)就需要约50 M深度的空间,加上覆盖率较高的测试向量,多个测试项的向量深度远远大于128 M,因此测试流程的优化具有必要性。
整个测试过程中,占据内存空间最大的不是测试向量,而是配置向量。配置向量由FPGA的配置程序转换的二进制码流改写而来,测试机台自带的配置软件通常可以充当上位机的角色,如Teradyne J750中,需在其配置软件IGXL中通过VBT代码调用Windows BAT文件,BAT文件中通过TCL指令写入配置向量。
通过VBT代码调用Windows BAT文件以写入配置向量的时间花费较大,主要体现在VIVADO连接硬件的过程。由于每次写入向量时,TCL指令调用的过程是独立的,每次都需要重复连接硬件过程。在此基础上,通过一个额外的硬件连接过程的脚本进行写入向量的流程优化:在未进行任何配置向量写入时先运行硬件连接的脚本,再在每个测试项单独向控制台注入下载指令(如图4所示),该操作可将向量写入的速度提升三倍以上,在开展的实际测试中,将700 K的配置向量文件写入的时间从25 S/次提升到6 S/次。
Figure 4. TCL command injection flow diagram
图4. TCL指令注入程序图
另外一种方法是通过外接测试板进行配置向量的存储和读取,外接测试板包括一个epcs专用存储器及一个用于读取程序的FPGA芯片,如图5所示,存储器用于存储待测FPGA的配置程序,FPGA芯片通过IGXL的指令进行程序的读取并传输到待测的器件上,通过管脚输出二进制配置文件,达到配置待测FPGA的目的。
Figure 5. Development board configuring FPGA diagram
图5. 开发板配置FPGA程序图
除了配置程序的下载需要花费大量时间,测试过程中所需要的测试向量大小各异,根据不同模块的复杂程度有所变化,占用资源多的模块,如RAM,所需要的测试向量远大于占用资源少的模块,因此对其测试流程进行优化是很有必要的,通过程序内自建的方式,不仅可以简化流程,也能大大提升测收试时间,如下图6所示,该程序通过接受时钟信号,对内部RAM地址进行遍历,并通过多组棋盘和极值数据对数据进行遍历,通过与寄存器数据进行比对最后将结果输出,大大提升了测试速度。
Figure 6. RAM self-contained test program and waveform simulation diagram
图6. RAM内自建测试程序和波形仿真图
4. 元器件检测技术的数智化发展趋势
4.1. 数智化的核心内涵
如图7所示,数智化技术是一个系统性的范式革命,它包含“数字化”和“智能化”两个紧密相连的层面,共同作用于元器件检测领域,旨在构建一个数据驱动、智能决策的全新检测生态。
Figure 7. Digital intelligent detection model diagram
图7. 数智化检测模型图
数字化是将元器件检测的全流程、全要素进行数据化表达和网络化连接;对象模型化将被测器件从一个物理实体转变为一个包含其设计数据、行为模型、物理参数的“数据表”;过程数据化将测试过程中的每一个环节形成数据;知识显性化是将过去依赖于专家头脑中的隐性知识,通过知识图谱、规则引擎等技术转化为计算机可以理解和执行的显性知识库;智能化、自动化是转型的目标。
4.2. 元器件检测的关键数智化技术
数智化转型由一系列关键技术作为支柱,它们在元器件检测领域的应用,共同构成了技术基石。首先是机器学习,例如通过CNN来检测元器件的外观缺陷,通过遗传算法来优化测试向量等,通过数据也能进行性能的预测;其次是大数据技术,可以对海量测试数据分析后进行生产、测试、应用的全流程追溯,智能分析不同的数据差异带来的影响,优化工艺流程,最后是边缘计算技术,将数据在生产线上部署边缘节点,实时分析传感器采集的参数。这些先进的技术也铸就了元器件数字孪生的基础。
元器件数字孪生技术是一个多模态高融合的模型,如图8所示:
Figure 8. Digital twin model diagram
图8. 数字孪生模型图
其结构模型精确到晶体管级的网表、物理布局布线信息。功能模型可执行的行为级、RTL级、门级仿真模型。物理模型热力学模型(预测芯片温度分布)、电磁场模型(预测EMI)、电源网络模型(预测电压降PDN)。老化模型基于材料科学,模拟器件在长时间工作和压力下(如高温、辐射)的性能退化规律。智能分析与服务层是孪生体的“大脑”,是实现价值的核心,它包含了一系列的智能化服务和应用测试仿真服务、故障诊断服务、健康预测服务、测试策略优化服务。
数字孪生体系结构主要由下图9所示,测试平台通过对FPGA的实时测试,将数据传入云端多模态感知层,再由边缘计算中心连接数字孪生模型库,通过大数据技术进行分析,最后定位测试结果和问题。同时,智能模型也可以将多种不同但适用的配置程序和测试向量用于当前测试的芯片,在接入例如DEEPSEEK等大模型后,还能针对测试芯片的资源生成或选用测试程序。
Figure 9. Digital twin architecture diagram
图9. 数字孪生架构图
通过对不同的FPGA进行测试并上传该FPGA的生产环境、设计原理、测试环境等数据,结合海量的数据进行大数据分析,从而得到类似生产环境、工作环境、相同构造材料、设计原理情况下,芯片的功能、性能和寿命的检测和预测,并通过不同条件下的测试数据,回环芯片设计 和制造的最优解,同时,对某些特定使用场景下芯片的选型也能提供强有力的支持。
以可靠性寿命评估为例,Arrhenius模型描述了温度对退化速率的加速作用:
(3)
其中,
为退化速率,
是否前因子,对不同器件通过实验得到,
为激活能,
为波尔滋蔓常数,
为环境温度。
结合负载应力的影响,就可以得到多应力条件下的可靠性寿命预测公式:
(4)
其中,
为时序退化的失效阈值,
为初始退化量。
显然,构建一个繁荣度高的数字孪生体,在未来元器件检测技术的发展中会是一个不可或缺的方向,浙江理工大学的钱萍等人已经构建了基于材料、环境、工艺、性能等多方面融合的单一元器件加速退化试验模型[10],随着技术的发展,相信对不同型号的元器件也会建立起能进行多方面预测的数智化综合应用体。
5. 结语
FPGA作为多个系统应用的核心元器件,在功能控制、数据计算等方面有着不可或缺的低位,特别是在国防、工业、车规等方面,其性能与可靠性需要通过严谨的FPGA测试来保障,在数字化浪潮的推动下,构建FPGA数字孪生测试系统,实现测试流程的数字化管控与测试数据的智能分析必然是未来的发展趋势,本文基于目前一些人工智能算法和技术在FPGA测试的配置和测试向量上做了一些优化和改进,结合自动化外观测试设备和ATE机台J750进行实验和分析,旨在缩减大规模FPGA测试所需的时间,并通过优化测试向量提升测试覆盖率。
当前,元器件的检测还没有进入到完全自动化的阶段,但随着技术的发展和科技的革新,元器件检测技术会朝着去人化、机器化、智能化的方向变革,在未来,随着数字孪生等技术的发展,元器件检测技术不仅是验证,更能作为预测手段和设计优化方法。