视觉基础模型

会程安排

9 月 19 日 下午

分论坛主席

谭明奎
教授 ⋅ 华南理工大学
谭明奎,华南理工大学教授、博士生导师,国家级青年人才,担任华南理工大学“大数据与智能机器人”教育部重点实验室副主任,专注机器学习与人工智能研究,连续三年入选美国斯坦福大学“全球前 2%顶尖科学家榜单”。主持多个国家和省部级重点项目。以一作/通讯作者发表学术论文160余篇。获广东省青年科技创新奖,世界华人数学家联盟“最佳论文奖”、广东省人工智能产业协会自然科学奖一等奖、中国电子学会科技进步一等奖、腾讯犀牛鸟校企合作项目“技术创新奖”与“青年新秀奖”(2019年度双奖唯一获得者)、微软亚洲研究院合作研究奖等奖励。担任人工智能国际顶级会议NeurIPS、ICML、CVPR、AAAI等会议领域主席。累计培养硕博研究生40余名,含华为“天才少年”、CSIG博士学位论文激励计划提名、腾讯大咖各1名。
黄文炳
副教授 ⋅ 中国人民大学
黄文炳,中国人民大学高瓴人工智能学院副教授、博导,中国人民大学智慧治理学院兼职博导,中国人工智能学会组织工作委员会副秘书长。入选国家高层次青年人才、北京科技新星等。曾任职于清华大学与腾讯公司。主要研究几何深度学习、科学大模型、具身智能体学习等,并探索AI在医疗健康、能源材料等交叉领域的应用。主持国家级与企业合作项目10多项。在人工智能领域顶级会议、Nature子刊等发表论文60余篇,谷歌学术引用1万多次,获ICLR 2023 杰出论文提名奖。自2022年起,连续多年入选斯坦福大学全球前2%顶尖科学家年度榜单。担任NeurIPS、ICML、ICLR等会议领域主席,国际机器学习汇刊TMLR执行编辑, Nature Machine Intelligence等期刊审稿人。
王一凯
副教授 ⋅ 北京师范大学
王一凯,北京师范大学人工智能学院副教授。主要从事深度多模态感知、多模态生成及具身智能等领域研究。在IEEE TPAMI/CVPR/ICCV/NeurIPS/ICLR等顶刊顶会发表论文40篇,谷歌学术引用3200余次,国际发明专利授权5项。主持多项国家级与企业合作项目。入选清华大学“水木学者”和中国人工智能学会博士学位论文激励计划。

分论坛报告

从持续学习到持续智能
谢源 教授⋅ 华东师范大学
报告摘要:增量式、持续式、终身式学习是人类智能的核心。以GPT为代表的大规模预训练模型展现了一条迈向通用人工智能的可行路径,可以预见,终身智能的实现方式也将从固定模式的陈述性知识持续学习向交互式智能本体持续进化发生深刻变革,其核心是打造终身大模型-具身智能体双轮驱动的终身进化机器人。汇报人从持续学习基础理论的视角出发,介绍跨模态大模型持续学习的部分最新进展,探讨了基础模型终身进化的可能性,并对智能体终身进化的学习范式进行了展望,为实现持续智能提供了一种可行方案。
讲者简介:谢源,华东师范大学计算机科学与技术学院教授、国家人工智能学院(上海)全时导师、博士生导师、国家优青,教育部军民融合创新团队核心成员,先后主持了科技部科技创新2030“新一代人工智能”重大项目课题,军委科技委国防创新特区项目,国家自然科学基金。在国内外权威期刊和顶级会议上共发表学术论文百余篇,其中第一作者/通讯作者CCF A类论文百余篇。相关成果Google引用次数超1.5万次;提出的图像复原算法获得了CVPR2020图像视频复原和增强挑战赛的图像去雾和去摩尔纹赛道的两项冠军;先后担任IEEE TIP编委,IJCAI,CIKM,ACMMM等顶会领域主席;相关研究成果获得了上海市科技进步特等奖、CSIG科技进步一等奖、吴文俊人工智能科学技术奖自然科学二等奖、福建省自然科学二等奖、中国自动化学会自然科学二等奖。主要研究方向为跨模态大模型持续学习理论与方法、持续策略驱动的具身智能。
多模态大模型的认知与思考
王金桥 研究员 ⋅ 中国科学院自动化研究所
报告摘要:近年来,随着大算力、大数据和AI算法的快速发展,GPT-4、Sora和Gemini为代表的人工智能大模型的成功标志着人工智能从以专用小模型训练为主的“手工作坊时代”迈入到以通用大模型预训练为主的“工业化时代”,成为新一代人工智能发展分水岭。我们首先分析多模态大模型的技术发展现状,其次,将介绍多模态大模型的细粒度感知、复杂认知和深度推理的技术实践,通过Griffon1.0 2.0建立细粒度的统一理解和思考的框架,以及知识增强和检索的方法,最后是在工业、交通等领域的应用。
讲者简介:王金桥 中国科学院自动化研究所副总工程师,研究员,博导,武汉人工智能研究院院长,中国科学院大学人工智能学院岗位教授,多模态人工智能产业联盟秘书长,主要从事多模态大模型、视频分析与检索、大规模目标识别等方面的研究。共发表包括IEE国际权威期刊和顶级会议论文300余篇,国际期刊50余篇,国际会议220余篇,发明专利36项,10项国际视觉算法竞赛冠军,北京市科技进步一等奖,北京市自然科学二等奖,中国发明创新银奖。
基础大模型的高效推理技术
庄博涵 研究员 ⋅ 浙江大学
报告摘要:DeepSeek-V3/R1 的出现引发了 AI 行业对缩放定律(Scaling Law)范式的重新思考,推动业界就开发高性价比高效基础模型形成共识。本次报告将聚焦基础模型领域的前沿高效推理技术,涵盖自回归模型、扩散模型及最新的半自回归模型,并分享团队在算法与系统协同设计层面的研究进展,同时对高效大模型的未来演进路径提出见解。
讲者简介: 庄博涵博士现任浙江大学百人计划研究员、博士生导师,主要研究高效大模型算法与系统协同优化,致力于降低大模型开发和部署门槛,打造极致性价比。目前主持国家海外优青以及启真优秀青年学者等项目。他于2018至2020年任澳大利亚机器人视觉中心高级研究员;2020年(27岁)至2024年6月担任Monash University(2026年QS世界排名第36,澳洲八大之一)长聘助理教授,现为该校兼职副教授,并兼任阿里巴巴达摩院技术顾问,以及Microsoft Research、Meta AI访问教授,与全球产业界合作极为密切。他于2021年创立ZIP Lab, 作为独立PI带领团队在Efficient AI领域取得了一系列有影响力的成果。在回国前,他指导毕业的第一批5名博士生均进入头部大厂担任研究科学家(如DeepSeek,ByteDance Seed USA & Singapore & Sydney等),包括Top Seed等人才计划。其中首位博士毕业生入职DeepSeek后参与开发了DeepSeek-V3和DeepSeek-R1。 团队的研究成果显著推动了大模型产业落地,迄今在NeurIPS、ICLR、ICML、CVPR、ICCV和TPAMI等顶级会议期刊发表论文50余篇,多项技术在大厂应用落地。
多模态基础模型现状与挑战
赫然 研究员⋅ 中国科学院自动化研究所
报告摘要:多模态基础模型通过统一实现感知、理解与生成能力,正成为未来智能基础设施的核心底座,其发展仍面临高质量数据稀缺、算力资源消耗巨大、推理效率与准确性不足等挑战。本报告将围绕多模态基础模型的核心能力展开,分析其关键科学问题与技术,并展望未来发展趋势与应用方向。
讲者简介:赫然,中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员,IAPR/IEEE Fellow,IEEE TIFS副主编。从事人工智能、模式识别和计算机视觉研究。承担国家青年科学基金ABC类以及北京杰出青年科学基金等项目。在本领域国际主流期刊TPAMI和IJCV上发表论文24篇,第一作者11篇论文引用过百,谷歌引用2万余次;研究工作获CAAI技术发明一等奖、CSIG自然科学一等奖、北京市科技进步二等奖等。指导学生获得IEEE SPS最佳青年论文奖、ICPR最佳科学论文奖、北京市优博、中科院优博、IEEE生物特征理事会优博。曾/现任TIP资深编委、TPAMI\TCSVT\TBIOM\IJCV\PR\TMLR和自动化学报等国内外期刊编委,四次获最佳编委奖,以及NIPS\ICML\ICCV\CVPR\AAAI\IJCAI等会议领域主席20余次。
生成式仿真为具身智能释放无限灵感
赵昊 助理教授⋅ 清华大学
报告摘要:生成式仿真技术正迅速成为具身智能发展的关键驱动力。具身智能,作为感知、理解并与物理世界交互的智能体,其发展受制于训练环境的复杂性和多样性。生成式仿真通过动态创建丰富多样的虚拟训练场景,为智能体提供了前所未有的训练机会,突破了传统仿真环境的限制。本次报告将结合具身智能在各个领域的实际应用深入探讨生成式仿真如何推动智能体从预设任务走向真正的自主学习与创新。生成式仿真不仅提升了智能体的适应性和鲁棒性,还为它们提供了应对现实世界中复杂问题的创新灵感。该技术通过不断生成多样化的仿真场景,使得智能体能够在更加逼真的虚拟环境中进行有效学习,从而提高其面对真实世界时的表现。本次报告将通过具体实例,展示生成式仿真在自动驾驶、机器人技术、虚拟现实等领域的巨大潜力,以及其在推动具身智能发展中的核心地位。可以预见,生成式仿真必将为未来智能体的设计与开发工作开辟无限可能,并激发出源源不断的创新灵感。
讲者简介:赵昊,清华大学智能产业研究院助理教授,智源学者,于清华大学电子工程系获得学士和博士学位,曾于英特尔中国研究院担任研究员,曾在北京大学从事博士后研究。他在CVPR/NeurIPS/SIGGRAPH/ICRA等学术会议以及TPAMI/IJCV等学术期刊上发表了50余篇研究论文,赢得过多项三维场景理解算法挑战赛的冠军,并主导研发了全球首个开源的模块化真实感自动驾驶仿真器MARS,在CICAI 2023获得Best Paper Runner-up奖项,被工业界广泛使用。其主导研发的渲染阶段可调整精度速度的神经渲染方法SlimmeRF于3DV 2024获得Best Paper奖项。