大模型的高效训练与推理

会程安排

9 月 19 日 14:30 - 17:30
二楼罗马1厅

分论坛主席

杨智勇
副教授 ⋅ 中国科学院大学
杨智勇,中国科学院大学副教授,博士生导师,入选博新计划及中科院特别研究助理计划、研究方向聚焦可信机器学习,在CCF-A类期刊及会议共发表论文60余篇,其中TPAMI/ICML/NeurIPS 30余篇(TPAMI 一作 5篇)。先后获得: CCF优秀博士学位论文激励计划 (原CCF优博)、CSIG自然科学奖一等奖、吴文俊人工智能科技进步二等奖、首届百度AI全球华人新星百强(机器学习领域 top25)、首届亚洲可信机器学习奖励金(共2人),中国科学院百篇优博论文、百度奖学金全球20强、中科院院长特别奖、NeurIPS Top-10%审稿人等荣誉,并获得NeurIPS/CVPR/ICCV 四项国际竞赛冠军, 担任机器学习领域顶级会议ICML/ICLR/NeurIPS领域主席,TPAMI/IJCV/TIP/TMLR 等期刊审稿人。
韩波
副教授 ⋅ 香港浸会大学
韩波,香港浸会大学机器学习方向助理教授、可信机器学习与推理组主任,日本理化学研究所先进智能中心项目梅峰访问科学家,其研究重点是机器学习、深度学习、基础模型及其应用。 曾是MBZUAI机器学习系的访问学者,微软亚洲研究院和阿里巴巴达摩院的访问教职研究员,也是日本理化学研究所先进智能中心项目的博士后研究员。 在悉尼科技大学获得计算机科学博士学位。 目前担任 NeurIPS 高级领域主席,以及 NeurIPS、ICML 和 ICLR 领域主席。 还担任 IEEE TPAMI、MLJ 和 JAIR 副主编,以及 JMLR 和 MLJ 编委会成员。
包世龙
特别研究助理 ⋅ 中国科学院大学
包世龙,中国科学院大学博士后/特别研究助理,研究方向为机器学习与人工智能安全,尤其聚焦排序学习、AUC优化、生成模型安全等方法与理论研究,已在 CCF-A 类期刊/会议上发表论文 20余篇 (一作论文 6 篇),其中IEEE TPAMI 7 篇 (IF: 18.6,一作 TPAMI 论文 3 篇)、NeurIPS 3 篇 (一作 Oral 论文 1 篇,录用率 1.7 %)、ICML 8 篇 (Long Talk 论文 1 篇,录用率 3%;Spotlight 1篇,录用率 3.5%)等。入选北京市科协2025年度“高创计划”青年人才托举工程,先后获得北京图象图形学学会 (BSIG) 优秀博士学位论文奖(京津冀 5 篇)、中国科学院百篇优博(全学科100篇)、中国科学院朱李月华优秀博士生奖(中国科学院共 300 人)、博士生国家奖学金、中国科学院信息工程研究所所长特别奖(全所共 19 人)等奖励,并获ICCV/CVPR等3项国际竞赛的冠军。主持中国博士后科学基金面上项目、中国科学院特别研究助理资助项目、中国博士后科学基金会国家资助博士后研究人员计划(B档)项目;多次担任 ICML/NeurIPS/ICLR/CVPR/ICCV 及IEEE TPAMI TMM/TCSVT 等国际会议/期刊审稿人。
黄涛
助理教授 ⋅ 上海交通大学
黄涛,上海交通大学计算机学院助理教授,博士生导师。在悉尼大学获得博士学位,曾在商汤科技担任算法研究员。从事高效深度学习理论和算法研究,并应用至大模型、具身智能、计算机视觉等领域。已在世界权威期刊或会议上发表30余篇学术论文,其中第一作者发表人工智能顶级会议期刊TPAMI/CVPR/ECCV/NeurIPS/ICLR 13篇。长期担任领域内多个主流期刊(如TPAMI/TNNLS/TIP/TMM)的审稿人和NeurIPS领域主席。
黄庆明
教授 ⋅ 中国科学院大学
黄庆明,中国科学院大学讲席教授、博士生导师,国家杰出青年科学基金获得者,百千万人才工程国家级人选并被授予“有突出贡献中青年专家”荣誉称号,享受国务院政府特殊津贴。主要研究方向为多媒体计算、图像与视频分析、模式识别、机器学习、计算机视觉等,主持承担了新一代人工智能国家科技重大专项、国家自然科学基金重点和重点国际合作项目、863课题、973课题、中科院前沿科学重点研究项目等国家和省部级项目的研究工作,已在国内外权威期刊和重要国际会议上发表学术论文600余篇(Google学术引用37000余次,H指数是89),其中IEEE/ACM汇刊和中国计算机学会(CCF)认定的A类论文300余篇,申请国内外发明专利70余项(40余项已授权)。相关研究成果获得吴文俊人工智能自然科学一等奖、中国图象图形学学会自然科学一等奖、教育部科技进步一等奖等多项国家学会和省部级奖励,并成功应用于国家重要部门和十余家互联网头部企业,取得显著的社会和经济效益。IEEE Fellow,IEEE CASS北京分会主席, CCF理事,CCF会士,CCF多媒体技术专业委员会主任,中国图像图形学学会常务理事,北京市图像图形学学会副理事长。

分论坛报告

是谁在推理大模型中推理?
吴建鑫 教授⋅ 南京大学
报告摘要:随着Deepseek-R1等一系列具有推理能力的大语言模型的发布,推理(Reasoning)能力成为了LLM领域的研究热点。然而,LLM为什么能够进行一定程度上的推理(或至少看上去似乎有推理的能力)?这个问题尚未得到有效解答。我们针对这一问题设计了一系列“网络听诊器”(Stethoscopes for Networks),通过这些听诊器,我们猜想Transformer结构中的o_proj(即注意力模块中的output projection)是LLM中负责推理的主要部件;同时,我们进一步假设Transformer结构中的其他部件负责生成流畅且切合上下文的文字。上述猜想与假设也为高效微调得到高质量的推理大模型提供了一种有效的路径。
讲者简介:吴建鑫于南京大学获计算机科学与技术学士与硕士学位,于佐治亚理工学院获计算机科学博士学位,现任南京大学人工智能学院/计算机软件新技术全国重点实验室教授。曾任CVPR、ICCV、ECCV、AAAI、IJCAI等会议的资深领域主席或领域主席,IEEE TPAMI编委,担任CVPR 2024程序主席。研究兴趣为计算机视觉与机器学习,在相关领域的重要学术期刊、会议发表了100多篇论文。具体来说,目前的研究兴趣为计算、数据资源受限情况下的深度学习与计算机视觉。
图机器学习的新范式:图模型与大模型协同
石川 教授⋅ 北京邮电大学
报告摘要:将神经网络应用到图数据,形成了以图神经网络为代表的图机器学习模型(简称图模型)的研究热潮。图模型不仅成为人工智能的热点技术方向,而且广泛应用在电子商务、金融风控、生物医药等众多领域。随着大模型表现出强大语言理解和推理能力,让大模型和图模型协同解决图任务有望成为图机器学习的新范式。本报告介绍图模型和大模型协同方式,和我们在该方向的初步探索。
讲者简介:石川 北京邮电大学计算机学院教授、教育部长江学者特聘教授,智能通信软件与多媒体北京市重点实验室副主任。主要研究方向:图机器学习、人工智能、科学智能;特别专注于图数据智能分析,进行理论、应用、平台、标准全链条研究。发表CCF A类期刊和会议发表论文100余篇,英文专著四部,谷歌学术引用2万余次;授权发明专利30余项,相关研究成果应用于阿里、蚂蚁、腾讯、华为、美团等公司。研究成果获得中国电子学会科技进步一等奖和北京市自然科学二等奖等奖项。获得北京市高等学校师德先锋、思政名师和中国智能计算创新人物等称号。
面向长序列建模的高效注意力机制
黄高 副教授 ⋅ 清华大学
报告摘要:基于Transformer的基础模型在自然语言处理、计算机视觉以及多模态学习等领域取得了重要的研究进展。然而,长文本处理、高清图像或视频的理解与生成等任务引发的长序列问题为Transformer架构带来了巨大的挑战。一方面,Transformer中自注意力机制的计算复杂度关于输入序列长度呈平方关系,造成了训练和推理时间长、显存开销大等挑战。另一方面,长序列数据中有用信息的提取类似于“大海捞针”,现有的注意力机制容易受到长序列数据中的噪声信号的干扰,难以准确定位和提取关键信息。本报告将介绍如何利用具有线性复杂度的注意力应对长序列任务的计算效率问题,以及如何利用差分注意力应对长序列任务的噪声干扰问题。
讲者简介:黄高,清华大学自动化系副教授,博士生导师。主要研究领域为深度学习与智能系统,提出了DenseNet等代表性深度学习模型。共计发表学术论文100余篇,被引8万余次,最高单篇引用超过5万次。获国家优青、CVPR最佳论文奖、达摩院青橙奖、MIT TR35、世界人工智能大会SAIL奖、亚洲青年科学家奖、AI 2000人工智能最具影响力学者等,担任IEEE T-PAMI、IEEE T-BD、Pattern Recognition等国际重要期刊编委和CVPR、ICCV、NeurIPS、ICML等人工智能顶级会议领域主席。
低复杂度多模态基础模型研究
王兴刚 教授 ⋅ 华中科技大学
报告摘要:Transformer作为语言、视觉、多模态基础模型已经取得了巨大的成功,然而,Transformer 的计算复杂度会随着输入序列的长度呈二次方的增长。如何探究低复杂多模态基础模型是一个核心问题。本次报告将汇报我们基于 mamba-2 、 gated linear attention等线性架构开展的一些研究工作,探索如何采用这些新型的低复杂网络来实现计算高效、表征能力强的视觉理解、内容生成、多模态理解模型。
讲者简介:王兴刚,华中科技大学电信学院教授博导,国家“万人计划”青年拔尖人才,现任Image and Vision Computing期刊(Elsevier, IF 4.2)共同主编;主要从事计算机视觉、多模态基础模型、视觉表征学习等领域研究,在IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议发表学术论文60余篇,谷歌学术引用4万余次,其中一作/通讯1000+引用论文6篇,入选Elsevier中国高被引学者、斯坦福前2%科学家,中国科协青年人才托举工程;获湖北青年五四奖章、CSIG青年科学家奖、吴文俊人工智能优秀青年奖、CVMJ 2021年度最佳论文奖、MIR期刊年度最高引用论文奖、湖北省自然科学二等奖等。
以语言为核心的高效多模态大模型与智能体
户保田 教授 ⋅ 哈尔滨工业大学(深圳)
报告摘要:本报告将从语言智能的视角,结合研究团队最近的一些相关工作,介绍以语言为核心的多模态大模型、大模型驱动的智能体应用以及多智能体协作机制。
讲者简介:户保田,博士,教授,博士生导师,国家优青,中国中文信息学会大模型与生成专委会秘书长,获2018年中国中文信息学会优秀博士论文提名奖、哈工大百年校庆优秀博士论文;主要研究方向包括基座大模型架构/学习机制、内容可信性、群体智能等;发表NeurIPS/ACL/ACM MM/KDD/IEEE Transactions等顶级学术会议或期刊论文80余篇,单篇一作最高引用1600+;主持国家自然科学基金优青/面上/青年、深圳市科技创新、CCF-百度松果/腾讯犀牛鸟基金、头部互联网企业合作项目等十余项;担任IJCNLP-AACL2023程序委员会联合主席(Program Committee Co-Chair),Neural Networks(SCI, CCF-B)编委,ACL、EMNLP、IJCAI等多个顶级学术会议的领域主席(AC)和高级程序委员会成员(SPC)。
大语言模型线性化和稀疏化加速方案探索
成宇 教授 ⋅ 香港中文大学
报告摘要:随着大型基础模型的快速发展,其影响力和普及度日益提升,提高其效率将变得愈发重要。本次演讲中,我将分享我们近期在构建高效可扩展的LLM方面的工作,包括:1)融合线性和多方差(MoE)架构;2)基于混合记忆的线性序列建模;3)一种无需添加额外参数即可将预训练LLM转换为门控线性循环模型的新方法。
讲者简介:成宇,香港中文大学计算机科学与工程学系副教授,曾任Microsoft Research Redmon首席研究员(2018 -2023),主要聚焦大模型压缩/效率、深度生成模型和多模态/语言模型等相关领域研究;相关研究成果已成功产品化,用于 Microsoft-OpenAI 核心模型(如Copilot、DALL-E-2、ChatGPT、GPT-4)中;曾任 NeurIPS 和 ICML 的高级领域主席,CVPR、ICLR、ACL、NAACL和EMNLP的领域主席,TMLR、ACM TIST等期刊Action Editor;获2024 IEEE SPS Young Author Best Paper Award、2023 NeurIPS Outstanding Paper Award、2021 WACV Best Student Paper Honorable Mention。
后E级时代的高可扩展高性能计算系统的探索
李琨 研究员 ⋅ 微软亚洲研究院
报告摘要:当前,高性能计算正面临前所未有的扩展性挑战:从支撑万亿参数的大模型训练,到推进E级气候模拟与百原子精度的量子计算,可扩展性已成为各类高性能系统的共同瓶颈。本报告聚焦这一趋势,旨在构建面向后E级时代的高可扩展高性能计算系统。整体工作覆盖三项实践路径:一是面向大模型训练的细粒度稀疏感知与轻量化执行系统,使系统更轻、更快、更易部署;二是面向科学算法的统一矩阵重构体系,深度融合硬件特性,接入高性能AI软硬件生态;三是面向科学应用的大规模多尺度计算系统,实现复杂任务的高效稳定落地。三项系统性创新贯通从稀疏感知、结构映射到系统部署的完整链条,为下一代高可扩展高性能计算系统奠定关键基础。
讲者简介:李琨博士现任微软亚洲研究院高级研究员,2022年博士毕业于中国科学院计算技术研究所。长期聚焦高性能计算与人工智能在科学与工程领域的交叉融合,致力于构建面向后E级时代的高可扩展高性能计算系统。目前在SC、PPoPP、ASPLOS、ATC、ICS等国际系统领域顶会发表论文20余篇;获得PPoPP’24唯一最佳论文奖、SC’25最佳学生论文奖Finalist、SC’25 Reproducibility Challenge Finalist;获得CCF优秀博士学位论文奖,CCF高性能计算青年科技人才奖,ACM SIGHPC China新星奖,ACM SIGHPC China优秀博士学位论文奖,以及中国科学院院长奖、中科院计算所所长特别奖、国家奖学金等;CCF HPCChina 2024大会Keynote讲者,CCF高性能计算专委会执行委员,CCF体系结构专委委员。
数据中心的模型压缩加速
张林峰 助理教授 ⋅ 上海交通大学
报告摘要:大模型的计算成本严重制约了其落地应用。一般来说,模型的计算成本由其参数量与数据量共同决定。已有压缩研究主要关注如何减少模型的参数量而忽视了数据维度的压缩。随着强推理模型和视频生成模型的出现,我们发现数据规模(Token数量)的增加已经成为了计算成本居高不下的首要因素。在本报告中,我们将介绍数据中心的模型压缩加速在大模型、多模态大模型、图像视频生成模型上的几个典型案例。
讲者简介:张林峰,上海交通大学助理教授,独立PI,2024年博士毕业于清华大学交叉信息研究院。研究方向为高效人工智能。他在高水平学术会议与期刊上以第一作者和通讯作者发表论文20余篇,担任ACL系列、NeurIPS等会议的领域主席,代表作自蒸馏被引用超过1000次,在知识蒸馏领域有较大影响。他曾获微软学者、北京市优秀毕业生,2025年WAIC云帆奖、其学位论文获评清华大学优秀博士论文,受邀在Springer出版社发表,他的学习工作经历被人民日报等官方媒体专题报导。