6月22日至25日,第62届设计自动化会议(DAC
2025)在美国旧金山召开。在本次大会上,来自电子设计自动化(EDA)与集成电路设计领域的高校、公司及研究机构群英荟萃,分享了EDA技术的最新发展和广泛应用,讨论了本领域进一步发展的前景和方向。北京大学集成电路学院、北京大学无锡EDA研究院的十余位师生现场参加了本次大会,进行了汇报与交流。
在本次大会上,北京大学无锡EDA研究院共有7篇论文入选,研究成果覆盖了芯片设计、体系架构、存算一体、设计自动化、软硬件协同等领域。相关介绍如下:
随着半导体器件尺寸缩放逼近物理极限,利用硅基板背面空间已成为未来集成电路发展的新趋势。目前已有多个研究通过改造现有后端工具,探索利用纳米硅通孔(nTSV)实现双面时钟树综合的潜力,但这些工作缺乏对设计资源分配和多目标优化的系统性考量。本工作提出了基于多目标优化的双面时钟树综合,包含分层时钟树布线、缓冲器与纳米硅通孔协同插入以及偏差微调等关键技术。结合设计空间探索方法,进一步提升了双面时钟树综合工具的设计能力,可以满足不同的实际设计需求。相比于当前最先进的设计方法,在开源的测试样例上,平均减少了55%的时钟延迟、
59%的时钟偏差、1%的缓冲器数量、20%的布线长度优化及31%的nTSV数量。该工作以《A Systematic Approach for Multi-objective Double-side
Clock Tree Synthesis》为题发表(博士生江循为第一作者,林亦波研究员为通讯作者)。
GPU加速的RTL仿真工具(GEM)是一项面向高速电路验证的创新工作,旨在解决传统RTL仿真在性能和可扩展性方面的瓶颈。现有基于CPU的RTL仿真器在处理大规模设计时效率低下,而尽管基于FPGA的仿真平台能够实现加速,其高昂的成本与部署复杂性限制了普及。已有的GPU加速尝试未能实现预期性能突破,根本原因在于电路逻辑的异构性与GPU的SIMT(单指令多线程)执行模型之间存在结构性冲突,导致线程分歧和内存访问不规律问题严重。针对上述挑战,林亦波研究员团队受FPGA/ASIC硬件仿真启发,提出了一种面向GPU高效执行的虚拟超长指令字(VLIW)架构。该架构专为CUDA平台设计,能够更好地适配GPU的执行模型,显著减少线程分歧带来的性能损耗。同时,团队还设计了一套类似FPGA
CAD流程的自动映射流程,将RTL电路逻辑高效映射到该虚拟VLIW架构中,从源头解决不规则访存问题,释放GPU在RTL仿真任务中的潜能。实验结果表明,该方法在通用GPU硬件上相较于当前最优的CPU
RTL仿真器可实现最高达64倍的加速效果。GEM的提出,不仅大幅提升了RTL仿真的执行效率,更以更具可及性的硬件方案推动了高性能电路验证的普及,为GPU驱动的RTL仿真探索了全新方向。该工作以《GEM:
GPU-Accelerated Emulator-Inspired RTL Simulation》为题发表(北京大学博士生郭资政为第一作者,本论文获DAC最佳论文提名)。
3.基于交替方向乘子法(ADMM)的布局布线
协同优化
布局在超大规模集成电路(VLSI)物理设计中具有关键作用,尤其在优化布线能力方面。随着半导体制造技术的持续进步、集成度不断提高以及设计复杂度日益增长,布局阶段的布线拥塞管理变得极具挑战性。尽管现有技术普遍采用多种方法来提升布线能力,但这些方法往往缺乏理论指导,或割裂了布局优化与布线优化之间的内在联系。本文提出RUPlace——一种基于交替方向乘子法(ADMM)的布局布线协同优化工具。通过融合瓦瑟斯坦距离与双层优化技术,本方法构建了全局布线与增量布局交替运行的统一拥塞优化框架。此外,我们创新性地提出了一种基于单元膨胀的简洁高效全局布局模型,采用凸规划方法求解最优膨胀比例。在CircuitNet和Chipyard开源工业基准测试集上的实验表明:相较于OpenROAD、Xplace
2.0和DREAMPlace 4.1等主流工具,RUPlace在保持线长与运行时竞争力的同时,能实现更优异的拥塞优化效果。该工作以《RUPlace: Optimizing Routability
via Unified Placement and Routing Formulation》为题发表(博士生陈一帆为第一作者,林亦波研究员为通讯作者)。
随着现代集成电路设计规模的不断增大,由多个具有多个超级逻辑区域(SLR,也叫Die)的FPGA元件组成的多FPGA系统在现代集成电路的仿真中扮演了越来越重要的作用。在每个FPGA内部的布局布线之前,需要完成在系统层的布线和时分复用率分配。然而,传统的系统层布线算法大多关注FPGA层的布线,而忽略Die级别的布线,从而导致无法在系统层有效优化设计性能。针对这一难题,林亦波研究员团队提出了协同优化的Die级别布线算法。该算法通过拥塞-延迟平衡的初始布线和基于拉格朗日松弛的多线程时分复用率分配算法,有效地在Die级别高效完成了布线。结果表明,与现有最先进方法对比,该算法能够以5.761倍加速比减小7.6%的关键连接延迟。该工作以《Synergistic
Die-Level Router for Multi-FPGA System with Time-Division Multiplexing
Optimization》为题发表(博士生王嘉睿为第一作者,林亦波研究员为通讯作者)。
混合专家模型(Mixture
of
Experts,MoE)已经成为了大语言模型的主流架构,但在边缘端设备上部署时面临权重存储需求过高的问题,需要将专家权重卸载至更低级存储,从而产生巨大的数据传输开销。部分工作尝试构建CPU-GPU协同的异构系统,使用CPU进行部分计算,降低模型权重加载到GPU上的传输开销。然而,现有的方法采用了固定的映射模式,在面对具有高度不稳定性的专家激活时,存在任务分配不均资源利用率较低的问题。针对这一挑战,李萌研究员团队提出了一种名为HybriMoE的CPU-GPU混合推理框架。HybriMoE框架通过三个核心技术创新解决了MoE推理过程中激活模式不稳定、负载分配不均的问题:(1)动态层内调度策略,有效平衡CPU和GPU的负载;(2)基于影响驱动的层间预取算法,优先预加载后续层中预期带来较大效益的专家;(3)基于专家评分的缓存管理策略,减少专家激活不稳定性带来的缓存未命中。实验结果表明,相较于现有最先进的混合推理框架,HybriMoE在预填充阶段平均获得了1.33倍的速度提升,在解码阶段则达到1.70倍的提升。该工作以《HybriMoE:
Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE
Inference》为题发表(北京大学博士生仲书璋为第一作者,李萌研究员为通讯作者)。
高效大语言模型推理的需求催生了专用加速器的发展。然而由于老化、工艺涨落等因素,这些加速器易发生硬件故障。现有设计通常预留较大的电压裕度或采用基于算法的容错(ABFT)技术来确保大模型推理的正确性。然而并非所有硬件故障都会影响模型输出结果,传统方案因此引入了较高的计算和能耗开销。为实现可靠且高效的大模型推理,李萌研究员-王润声教授团队提出了一种名为ReaLM的算法/电路协同设计框架。该架构首次通过大规模误差注入实验,系统地表征了大模型的容错特性。基于此,该框架提出了一种统计ABFT策略,该策略充分利用大模型的容错特性,仅针对关键错误触发恢复机制,来最大程度避免不必要的纠错开销。此外还设计了动态错误检测电路,以支持低成本的在线错误统计信息的收集。大量实验表明,在仅增加1.42%电路面积和1.79%功耗开销的情况下,ReaLM框架显著提高的大模型的可靠性。与现有方法相比,ReaLM在不同工作电压下均能显著降低纠错成本,并在保证大模型性能的前提下,将系统能效提升高达35.83%。该工作以《ReaLM:
Reliable and Efficient Large Language Model Inference with Statiatical Algorithm-Based Fault
Tolerance》为题发表(博士生解同为第一作者,李萌研究员为通讯作者)。
基于大语言模型(LLM)的自动语音识别(ASR)由于具有较高的识别准确率和增强的多方言支持度,近年来受到了广泛关注。然而,LLM的高解码延迟对实时ASR的要求提出了挑战。尽管推测解码已经被探索以获得更好的解码效率,但其忽略了ASR任务的关键特性,只获得了有限的加速比。为了进一步降低实时ASR的延迟,李萌研究员团队提出了一种新的专门针对ASR的推测解码框架SpecASR。这一框架基于他们的核心观察开发,即ASR解码是音频条件化的,这导致小参数模型和大参数模型即使在中间解码步骤中输出不匹配,整体的输出对齐度很高。基于此,SpecASR提出自适应的草案序列生成过程,动态修改草稿序列长度,最大化验证接受数量。SpecASR进一步提出了草稿序列回收策略,对验证未通过的草稿序列进行再利用,以减少草稿ASR模型延迟。此外,李萌研究员团队还提出了一种两阶段稀疏词元树生成算法,以平衡草稿和目标模型间的延迟。在不损失识别准确率的情况下,SpecASR相比基线自回归解码和推测解码分别获得了3.04×-3.79×和1.25×-1.84×的加速。该工作以《SpecASR:
Accelerating LLM-based Automatic Speech Recognition via Speculative
Decoding》为题发表(博士生韦临烨为第一作者,李萌研究员为通讯作者)。