大模型基础理论论坛

会程安排

9 月 19 日 上午

分论坛主席

宋然
教授 ⋅ 山东大学
宋然,山东大学控制科学与工程学院教授、博士生导师,国家万人计划青年拔尖人才,IEEE高级会员,英国高等教育学会会士,曾获英制高级讲师终身教职。近年来主持国家自然科学基金联合基金重点项目、GF重点项目等。主要研究方向为三维视觉感知、机器人视觉、机器人学习等,在TPAMI、TRO、IJCV、CVPR、RSS等人工智能、机器人领域的国际顶级期刊和会议上发表论文100余篇,获山东省技术发明二等奖、中国自动化学学会科技进步二等奖、山东省人工智能优秀论文奖以及4次最佳论文等国际会议学术奖励。
吴建龙
教授 ⋅ 哈尔滨工业大学(深圳)
吴建龙,哈尔滨工业大学(深圳)教授、博导,国家级青年人才,基础学部副主任。华中科技大学本科,北京大学博士。主要研究兴趣包括多模态学习、计算机视觉和机器学习等。近五年在TPAMI、TIP、NeurIPS和ICCV等顶级期刊和会议上发表论文40余篇,担任CCF A类会议ICML、NeurIPS、CVPR和ACM MM领域主席、CCF多媒体技术专委会副秘书长。主持国自然面上和青年项目等。入选中国科协青年人才托举工程,荣获CCF A类会议SIGIR 2021最佳学生论文奖、2021年山东省科技进步一等奖、2023年山东省技术发明一等奖、2024年中国自动化学会自然科学一等奖、2024年ACM中国新星奖提名和2025年“祖冲之奖”突出成果奖等。
刘勇
副教授 ⋅ 中国人民大学
刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文100余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近50篇,涵盖机器学习领域顶级期刊JMLR、IEEE TPAMI、Artificial Intelligence和顶级会议ICML、NeurIPS等。曾获中国人民大学“杰出学者”、中国科学院“青年创新促进会”成员、中国科学院信息工程研究所“引进优青”等称号。主持/参与国家自然科学面上/基金青年、科技部重点研发、北京市科技计划中央引导地方专项、北京市面上项目等项目。
胡清华
教授 ⋅ 天津大学
胡清华,国家优青/杰青获得者。现任天津大学北洋讲席教授、天津市机器学习重点实验室主任、CAAI粒计算与知识发现专委会主任、天津市人工智能学会理事长。从事大数据粒计算、多模态学习、不确定性建模和自主机器学习方面的研究,先后获得国家重点研发计划项目、国家自然基金重点项目、国家优青/杰青以及国防项目的资助。在IEEE-TPAMI、IJCV、IEEE TKDE、IEEE TFS等期刊以及NeurIPS、CVPR、IJCAI、AAAI等会议发表论文300余篇,获批发明专利30余个,出版专著3部,先后获得黑龙江省自然科学一等奖和天津市科技进步一等奖。目前担任IEEE Trans. Fuzzy Systems,自动化学报、电子学报、智能系统学报等期刊的编委。

分论坛报告

Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws
李建 教授 ⋅ 清华大学
报告摘要:Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous tasks, yet principled explanations for their underlying mechanisms and several phenomena, such as scaling laws, hallucinations, and related behaviors, remain elusive. In this work, we revisit the classical relationship between compression and prediction, grounded in Kolmogorov complexity and Shannon information theory, to provide deeper insights into LLM behaviors. By leveraging the Kolmogorov Structure Function and interpreting LLM compression as a two-part coding process, we offer a detailed view of how LLMs acquire and store information across increasing model and data scales—from pervasive syntactic patterns to progressively rarer knowledge elements. Motivated by this theoretical perspective and natural assumptions inspired by Heap’s and Zipf’s laws, we introduce a simplified yet representative hierarchical data-generation framework called the Syntax-Knowledge model. Under the Bayesian setting, we show that prediction and compression within this model naturally lead to diverse learning and scaling behaviors of LLMs. In particular, our theoretical analysis offers intuitive and principled explanations for both data and model scaling laws, the dynamics of knowledge acquisition during training and fine-tuning, factual knowledge hallucinations in LLMs. The experimental results validate our theoretical predictions.
讲者简介:李建,清华大学交叉信息研究院长聘教授,博士生导师。研究方向为理论计算机科学、人工智能基础理论、金融科技。在主流国际会议和杂志上发表了100余篇论文,并获得了数据库顶级会议VLDB和欧洲算法年会ESA的最佳论文奖、数据库理论会议ICDT最佳新人奖、多篇论文入选口头报告或亮点论文。入选国家级青年人才计划。曾主持或参与了多项自然科学基金项目及企业合作项目。
追寻100%安全的可解释AI系统——虽尚未至,然终必至之,亦有径可循
张拳石 研究员 ⋅ 上海交通大学
报告摘要:尽管神经网络的可解释性研究近年来取得了显著进展,但现有工作仍主要集中于工程技术层面,缺乏能够从根本上确保AI系统安全性的理论框架。当前亟需解决的核心问题包括:如何构建严谨的理论体系,来量化神经网络黑盒模型内在的知识表征,以保障神经网络模型决策逻辑的可靠性;以及如何从精细表征逻辑第一性原理出发,从表征机理层面严格评测模型的泛化性和鲁棒性,并将泛化性与鲁棒性达提升到安全标准。
讲者简介:张拳石,上海交通大学电院计算机科学与工程系长聘副教授,博士生导师,入选国家级海外高层次人才引进计划,获ACM China新星奖。于2014年获得日本东京大学博士学位,并于2014-2018年在加州大学洛杉矶分校(UCLA)从事博士后研究。在神经网络可解释性方向取得了多项具有国际影响力的创新性成果。张拳石承担了TMLR的责任编辑,CCF-A类会议NeurIPS 2024领域主席,IJCAI 2020和IJCAI 2021的可解释性方向的Tutorial,并先后担任了AAAI 2019, CVPR 2019, ICML 2021大会可解释性方向的分论坛主席。
大模型“慢思考”机理分析
刘勇 副教授 ⋅ 中国人民大学
报告摘要:随着人工智能技术在全球范围内掀起创新热潮,大模型凭借强大的推理性能,在自然语言处理、复杂任务决策等领域释放出显著价值,引发了产业界与学术界的高度关注和深入探索。但当前研究更多聚焦于大模型的实际应用拓展,对于其底层运行机理的系统性研究仍显不足,导致在理解模型工作逻辑上存在明显短板,形成理论认知与应用实践间的失衡局面。本报告突破传统研究范式,将信息论作为核心理论框架,深度拆解大模型推理过程中的 “外部” 与 “内部” 慢思考模式。通过严谨的研究分析,不仅完善了大模型基础理论体系,更为揭开模型 “黑箱” 奥秘提供了坚实的理论支撑和科学方法。
讲者简介:刘勇,中国人民大学长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文100余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近50篇,涵盖机器学习领域顶级期刊JMLR、IEEE TPAMI、Artificial Intelligence和顶级会议ICML、NeurIPS等。曾获中国人民大学“杰出学者”、中国科学院“青年创新促进会”成员、中国科学院信息工程研究所“引进优青”等称号。主持/参与国家自然科学面上/基金青年、科技部重点研发、北京市科技计划中央引导地方专项、北京市面上项目等项目。
Sinkhorn-Knopp算法的反常相变
何昆 副教授 ⋅ 中国人民大学
报告摘要:矩阵缩放是机器学习中的核心工具。它既是计算最优传输距离的核心步骤,也是深度学习中注意力标准化的关键技术,被广泛应用于领域自适应、生成模型与自动编码器等任务。Sinkhorn-Knopp算法是矩阵缩放的标准算法,往往能在数次迭代中产生高质量的近似解。尽管Sinkhorn-Knopp算法在实践中表现出极高的效率,其良好性能的理论原因仍未完全明晰。同时, Sinkhorn-Knopp 算法的最慢收敛速率尚无好的下界结果,人们仍不确定它的紧的界是怎样的。 我们证明了,对于几乎所有的非负矩阵,Sinkhorn-Knopp算法在对数次迭代内即可收敛,这解释了为什么该算法是高效的。对于这些非负矩阵,Sinkhorn-Knopp算法的运行时间是n平方,这一上界是最优的,因为读取输入矩阵本身就需要n平方时间。进一步地,我们构造了一个正矩阵的族,使得Sinkhorn-Knopp算法至少需要n/\varepsilon次迭代才能达到近似收敛,从而说明该算法在最坏情形下不具有多项式时间近似性。我们的结果刻画了Sinkhorn-Knopp算法关于矩阵密度的反常相变现象。
讲者简介:何昆,中国人民大学副教授。博士毕业于中科院计算所,曾任中科院计算所助理研究员、副研究员,获中科院院长特别奖、CCF优秀博士论文奖、计算所百星等荣誉。主要从事理论计算机领域尤其是概率方法的研究,解决多个由哥德尔奖得主、莱布尼茨奖得主提出的开放问题,在理论计算机顶会STOC、FOCS、SODA上发表论文多篇。
随机梯度下降算法在高维问题中正则效应与优势分析
方聪 助理教授 ⋅ 北京大学
报告摘要:随机梯度下降算法是求解机器学习问题中的常见算法。在高维学习问题中,随机梯度下降算法的迭代次数往往低于模型参数量,算法对于模型的产生隐式正则效应是模型具有良好泛化的主要原因。本次讲座,我们将研究随机梯度下降算法在不同学习情境下求解线性与简单非线性模型的泛化性能,并进行定量比较。在线性模型中,我们将分别讨论算法在不同学习尺度(即样本数与问题维度不同依赖关系)与协变量偏移条件下的学习效率,尝试理解算法对于学习问题的适应性与涌现发生的条件。在非线性模型,我们将阐明算法能够自适应问题结构,突破一阶算法在离线情形下面临的统计-计算鸿沟(statistical to computational gap)诅咒
讲者简介:方聪,北京大学智能学院担任助理教授(博导)兼研究员。于2019年在北京大学获得博士学位,先后在普林斯顿大学和宾夕法尼亚大学进行博士后研究。主要研究方向是机器学习基础理论与算法,已发表包括PNAS、AoS、IEEE T.IT、JMLR、COLT、NeurIPS、PIEEE 等30余篇顶级期刊与会议论文,担任机器学习顶级会议NeurIPS、ICML领域主席(Area Chair),团队获得2023年度吴文俊人工智能自然科学奖一等奖。
几何等变先验嵌入的深度网络模块设计
谢琦 副教授 ⋅ 西安交通大学
报告摘要:本报告以图像处理为例,探讨几何等变先验在深度网络设计中的重要性,重点介绍高精度旋转/尺度等变卷积、旋转等变隐式神经表示、旋转等变Vision Transformer(ViT)、变换可学习等变卷积、等新型网络基础模块的构建方法与基础理论;进一步地,本报告将通过医学自然图像处理、图像重建、多帧图像匹配等实际应用展示先验几何对称性的嵌入将显著提升模型的性能与泛化能力。
讲者简介:谢琦,西安交通大学数学与统计学院副教授,博导。于2013年7月和2020年12月分别获西安交通大学理学学士与理学博士学位。2017年8月至2018年9月曾赴普林斯顿大学访学。目前主要从事机器学习与计算机视觉的基础问题研究。在CCF A类期刊与会议发表论文21篇,IEEE Trans.论文15篇,其中以第一或通讯作者在领域顶刊TPAMI发表论文4篇;3篇论文入选ESI高被引论文。2015年至今,谷歌学术被引5500余次,H指数为23。曾获2022年CCF优秀博士学位论文奖”、“2021年ACM中国优博提名奖”、2024年华为“火花奖”等奖项。