1.考虑详细通孔连接关系的后道互连纵向等效热阻模型
不同于传统的2-D封装,在3-D
IC中,后道互连层一定会占据从前道热源层到热沉的主要散热路径。由于后道互连层本身的纵向等效热阻很高,会严重阻碍3-D
IC的散热,设计者需要进行高分辨率的纵向等效热阻提取,以便在热仿真中捕捉后道互连层带来的热问题。传统的通过数值仿真进行提取的方法虽然准确,但时间开销过高,建立纵向热阻解析模型是一种主流的替代思路。后道互连层中存在着许多金属通孔,这些通孔会充当热量的高速传导路径,其详细连接关系对后道互连的热阻影响很大。然而,过去的解析模型并没有将详细的通孔连接关系纳入考虑,导致模型精度很低。为解决该问题,林亦波副教授-王润声教授研究团队提出一种新型后道互连纵向等效热阻模型。该模型基于电阻网络理论和Woodbury公式,显式地将通孔详细连接关系纳入了模型中。在真实设计上的测试结果显示,相较于之前的解析模型,本模型可以实现3.4倍等效热阻精度的提升,且时间开销远远小于数值提取方法。在利用提取的后道互连等效热阻对一3-D
IC结构进行进一步热仿真时,本模型成功将仿真得到的最高温度的误差从5.2%降为了1.8%。该工作以《High-Resolution Full-Chip Thermal Resistance
Extraction of BEOL Interconnects in 3-D ICs Considering Detailed Via
Connectivity》为题发表,博士生朱天翔为第一作者,林亦波副教授和王润声教授为通讯作者。
2.GTA:使用轻量级查找表检测冲突的GPU加速的轨道分配算法
布线是现代超大规模电路物理设计中计算量最大的阶段之一。轨道分配问题在全局布线阶段和详细布线阶段之间起到至关重要的桥梁作用。它可以给出比全局布线阶段更准确的可布线性估计,并给详细布线阶段提供初始解。然而,现有的轨道分配算法有两个关键局限:1.多数轨道分配算法对于设计规则没有感知,这使得他们没有办法给出准确的可布线性估计和高质量的详细布线初始解。2.现有的轨道分配算法都是针对CPU架构设计的,设计规则检查繁琐,并行度有限,求解所需时间长。为解决该问题,林亦波副教授研究团队针对问题特性,提出一种GPU友好的轻量级查找表,可以快速检查子任务冲突,实现提高并行度,快速进行设计规则检查,从而实现高效的GPU加速的轨道分配算法。相较于传统的多核CPU算法,该算法运行时间减少20倍,节省25%内存使用,同时可以保持相同的布线后结果质量,完善了GPU加速的EDA工具流程。该工作以《GTA:
GPU-Accelerated Track Assignment with Lightweight Lookup Table for Conflict
Detection》为题发表,并获得后端最佳论文奖提名。博士生赵春源为第一作者,林亦波副教授为通讯作者。
3.IncreGPUSTA:面向迭代式设计流程的GPU加速增量式静态时序分析
在超大规模集成电路(VLSI)设计流程中,静态时序分析(STA)是确保电路性能和可靠性的关键步骤,扮演着不可或缺的角色。为了应对日益增长的电路规模带来的计算挑战,业界探索了两条主要的技术路径:一是通过CPU执行增量式STA,选择性地更新受设计改动影响的电路区域以节省计算资源;二是通过GPU强大的并行计算能力加速全电路分析,以提升整体吞吐率。然而,将增量式分析的精确高效与GPU的并行加速能力有效结合,始终是一项艰巨的挑战。为解决这一难题,林亦波副教授研究团队提出了一种名为IncreGPUSTA的新型GPU加速增量式静态时序分析算法。该算法通过创新的双压缩稀疏行(dual-CSR)数据结构与增量式层级划分(incremental
levelization)技术,首次实现了在GPU上对局部化和结构性电路修改进行高效的增量时序更新。在工业级标准测试集上的实验结果表明,对于百万规模的电路设计,IncreGPUSTA相较于先进的GPU全量分析工具可实现高达3.06倍的加速,相较于CPU增量式分析工具的加速比更是高达72.50倍,展现了其在现代VLSI迭代设计流程中的巨大应用潜力。该工作以《IncreGPUSTA:
GPU-Accelerated Incremental Static Timing Analysis for Iterative Design
Flows》为题发表,本科生刘海川和博士生郭资政为共同第一作者,林亦波副教授为通讯作者。
4.Orthrus:用于系统-工艺协同优化的双循环自动框架
随着摩尔定律的回报递减,传统的无晶圆厂-代工厂(fabless-foundry)业务模式正面临根本性限制。系统-工艺协同优化(STCO)已成为维持VLSI行业扩展趋势的一种有前景的方法,它通过连接系统需求和工艺创新来实现定制优化。然而,现有的研究缺乏高效的STCO方法论,特别是在解决跨设计层级的信息差距和驾驭广阔的跨层设计空间方面。为应对这些挑战,孙广宇教授-张立宁助理教授团队提出了Orthrus,一个自动化的双循环框架,协同了系统级和工艺级的优化。在系统级,Orthrus采用一种新机制,利用系统级统计数据优先优化关键标准单元,并通过贝叶斯优化高效探索帕累托前沿。在工艺级,Orthrus利用系统感知的洞察力来优化标准单元库,并采用神经网络辅助的增强差分进化算法来高效优化工艺参数。在7nm工艺上的实验结果表明,与基线方法相比,Orthrus在同等功耗下实现了12.5%的延迟降低,并在同等延迟下实现了61.4%的功耗节省。该框架在STCO中建立了新的帕累托前沿,PPA(功耗、性能、面积)超体积改进达到了33.2%。该工作以《Orthrus:
Dual-Loop Automated Framework for System-Technology
Co-Optimization》为题发表,博士生任毅和彭宝康为共同第一作者,孙广宇教授和张立宁助理教授为通讯作者。
5.Differentiable
Physical Optimization:一种可微分的物理优化框架
在现代超大规模集成电路设计中,门尺寸调整与缓冲器插入极大影响芯片的性能与功耗,但传统两者分离式优化难以获得全局最优解。面对这一瓶颈,林亦波副教授研究团队提出了首个将两者统一建模的可微分物理优化框架。该方法在数学上,以严格的形式刻画了门尺寸、缓冲插入及其互相影响关系,并通过GPU加速实现高效计算。该项研究中引入时序感知缓冲树重构机制、物理约束建模及离散感知优化算法,使框架在保持低功耗与布局可行性的同时,实现无缝的联合优化。实验结果显示,相比OpenROAD等传统方案,该方法在保持功耗相近的前提下,时序指标上TNS提升23%、WNS提升12%,运行速度提升30倍,为大规模芯片设计提供了新的加速思路。该工作以《Differentiable
Physical Optimization》为题发表,本科生杜宇凡为第一作者,现为UCLA博士生,林亦波副教授为通讯作者。
1.HD-MoE:基于三维近存处理的混合专家模型混合动态并行加速技术
混合专家模型已成为大语言模型的关键技术,通过稀疏激活专家子网络降低计算成本,但面临高内存带宽需求挑战。三维近存处理通过垂直堆叠内存与计算单元提供高带宽能效,成为混合专家模型部署的理想平台。然而,三维近存处理的分布式架构使混合专家模型计算映射复杂化,现有并行策略如张量并行和专家并行存在通信开销高或计算负载不均问题,且专家激活呈现高度不平衡与动态变化特性,进一步加剧了系统效率的下降。为应对上述问题,李萌研究员团队提出了HD-MoE,一种面向三维近存处理架构的混合动态并行框架。HD-MoE通过一套集成了自动化混合并行映射与在线动态调度的协同设计,有效解决了混合专家大语言模型在三维近存处理架构上因动态路由与分布式内存特性所导致的计算负载不均与通信开销高昂问题。实验基于Mixtral、DeepSeek和Qwen等MoE模型,在多种硬件配置下验证。结果显示,HD-MoE相比张量并行提速1.1–1.8倍,相比专家并行提速1.1–1.5倍,较混合基线策略提升1.0–1.4倍。该工作以《HD-MoE:
Hybrid and Dynamic Parallelism for Mixture-of-Expert LLMs with 3D Near-Memory
Processing》为题发表,本科生黄浩宸和博士生仲书璋为共同第一作者,李萌研究员为通讯作者,为边缘端MoE推理提供了低延迟、高能效的部署方案。
2.Clay:支持灵活微架构感知指令定制的高层次ASIP框架
专用指令集处理器(ASIP)为嵌入式系统与物联网设备提供了高能效的加速方案。开放免费的RISC-V指令集进一步推动了面向多领域加速的开源ASIP解决方案的发展。现有的ASIP工具能够基于高层架构描述语言生成软硬件系统,然而,这些工具仅支持特定处理器上的流水线内耦合策略,因而存在两个关键局限:一是限制指令扩展必须为无状态行为,导致无法硬件实现如循环等高效控制流;二是强加了严格的微架构约束,限制了指令模块与内存层级的交互方式。这些限制严重制约了应用加速的潜力,并阻碍了自定义指令在不同处理器间的灵活部署。为解决上述问题,梁云教授研究团队提出了Clay,一种开源的高层ASIP设计框架。Clay提出了统一的指令扩展接口,将不同耦合策略抽象为与微架构无关的行为和属性。基于此,Clay架构描述语言通过接口行为与高层语法相结合,支持对包括有状态行为在内的通用指令语义进行描述。研究进一步提出了微架构感知的综合流程,可为每条自定义指令选择最优耦合策略,并通过建模微架构属性作为约束,调度生成最佳实现方案。在多类负载上的实验表明,Clay在两种RISC-V处理器上均实现了显著的性能提升。该工作以《Clay:
High-level ASIP Framework for Flexible Microarchitecture-Aware Instruction
Customization》为题发表,博士生彭伟桀、肖有为为共同第一作者,梁云教授为通讯作者。
3.No
Redundancy, No Stall:用于实时渲染的轻量级流式3D Gaussian Splatting
体渲染是重建和合成三维场景新视图的基本技术,在增强/虚拟现实和自动驾驶等应用中起着至关重要的作用。3D
Gaussian
Splatting(3DGS)能够实现高质量的三维场景渲染,在领域内得到越来越广泛的关注。然而,在面对高帧率需求和资源受限的边缘部署时,3DGS仍然面临着重大的效率挑战。为解决该问题,李萌研究员研究团队对3DGS渲染管线的瓶颈进行了全面分析,揭示了计算冗余和硬件停滞两个造成低效的关键挑战,并从算法优化和硬件架构设计两个方面进行了针对性改进。通过将从帧间层面到帧内层面的算法优化,方案实现了无冗余、轻量级的渲染。此外,方案设计了一种适用于3DGS的流式加速器架构,通过负载的均衡分配策略提高了硬件利用率,进一步增强了加速效果。所提出的LS-Gaussian相比于边端GPU基线平均获得了5.41倍的加速,在定制加速器下进一步获得了17.3倍的加速,同时只引起了极小的视觉质量损失。该工作以《No
Redundancy, No Stall: Lightweight Streaming 3D Gaussian Splatting for Real-time
Rendering》为题发表,博士生韦临烨为第一作者,李萌研究员为通讯作者。