具身智能与世界模型基础

会程安排

9 月 20 日 下午

分论坛主席

李冠彬
教授 ⋅ 中山大学
李冠彬,中山大学计算机学院教授,博士生导师,国家优秀青年基金获得者。主要研究领域为人工智能领域的图像视频内容理解与生成。 迄今为止累计发表计算机学会A类/中科院一区论文 200 余篇,谷歌学术引用超过 17000次,入选全球前0.05%顶尖科学家榜单。曾获得中国图象图形学学会青年科学家奖、吴文俊人工智能优秀青年奖、ACM 中国新星提名奖、中国图象图形学学会科学技术一等奖、ICCV2019 最佳论文提名奖、CVPR2024最佳论文候选、ICMR2021 最佳海报论文奖等荣誉。主持了包括国家自然科学基金优青、面上、青年、广东省杰青、 CCF-腾讯犀牛鸟科研基金、CCF-快手科研基金、华为科研合作基金、美团北斗科研合作基金等 10 多项科研项目。担任广东省大数据分析与处理重点实验室副主任、广东省图象图形学会计算机视觉专委会主任、中国图象图形学学会青工委副秘书长、中国计算机学会青年科技论坛广州主席、广州计算机学会副秘书长。担任人工智能领域顶级会议CVPR、ECCV、AAAI等领域主席或高级程序委员,获得8项人工智能领域国际顶级会议竞赛冠军,研究成果应用于智能交通分析、智慧医疗诊断、数字人驱动的智慧教育等
王靖博
青年科学家 ⋅ 上海人工智能实验室
王靖博,上海人工智能实验室青年科学家,主要从事人形角色控制、物理仿真、人形机器人运动控制以及具身智能等方向的研究。2023年博士毕业于香港中文大学多媒体实验室,研究聚焦于虚拟与物理世界中具身智能体,尤其是人形角色的感知—决策—控制一体化建模与通用能力提升。迄今已在CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH等国际顶级会议与期刊发表论文数十篇,多项成果获选Oral或Spotlight报告,Google Scholar引用超过8500次。曾荣获COCO等多个视觉理解挑战赛冠军,其研究成果入选ECCV十大影响力论文、ESI高被引论文,并获得2025年WAIC云帆奖“明日之星”称号。

分论坛报告

从虚拟走向现实:探索通用人形角色运动与交互控制策略
王靖博 青年科学家 . 上海人工智能实验室
报告摘要:本次报告围绕人形角色的控制策略展开,首先介绍团队在虚拟环境中构建并训练具备通用运动与交互能力的人形角色的研究工作,涵盖动作生成、感知融合及强化学习等关键技术路径。随后将深入探讨这些控制策略在真实物理世界中部署所面临的主要问题与技术挑战,包括现实感知偏差、动力学不确定性及仿真到现实的迁移难题,并分享团队在系统建模、策略优化与实机验证方面的最新研究进展。
讲者简介:王靖博,上海人工智能实验室青年科学家,主要从事人形角色控制、物理仿真、人形机器人运动控制以及具身智能等方向的研究。2023年博士毕业于香港中文大学多媒体实验室,研究聚焦于虚拟与物理世界中具身智能体,尤其是人形角色的感知—决策—控制一体化建模与通用能力提升。迄今已在CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH等国际顶级会议与期刊发表论文数十篇,多项成果获选Oral或Spotlight报告,Google Scholar引用超过8500次。曾荣获COCO等多个视觉理解挑战赛冠军,其研究成果入选ECCV十大影响力论文、ESI高被引论文,并获得2025年WAIC云帆奖“明日之星”称号。
生成式大模型驱动的具身智能大规模高质量数据合成开源平台
穆尧 长聘教轨助理教授 ⋅ 上海交通大学
报告摘要:本报告介绍 RoboTwin 2.0开源平台——基于生成式大模型构建“仿真→合成→训练→迁移”闭环的具身智能数据引擎。平台通过多模态大模型自动生成任务代码(闭环迭代优化成功率提升50%),结合五维域随机化方案(覆盖物体分布、动态光照、多模态背景、桌面位姿及语义指令扰动)合成高保真仿真数据,并开放包含147类731个精细标注物体的标准化资产库,为学界与工业界提供可扩展的合成数据基础设施,推动具身智能研究范式革新。
讲者简介:穆尧,上海交通大学人工智能研究院长聘教轨助理教授,博士毕业于香港大学计算机系,共在RSS, NeurIPS, ICML, ICLR, CVPR等顶会顶刊发表论文30余篇,谷歌学术引用超1700余次,曾获ECCV具身智能研讨会最优论文奖, IEEE ICCAS2020大会最优学生论文奖,IEEE IV2021最优学生论文提名奖, 中国自动化学会自主机器人研讨会奖学金等多项学术奖励,荣获香港博士政府奖学金,香港大学校长奖学金,国家奖学金,清华大学优秀硕士毕业生,清华大学优秀硕士论文奖等荣誉称号。研究方向:具身智能、强化学习、机器人控制和自动驾驶。。
探索空间智能和物理智能的交汇点:导航大模型视角
王泰 青年科学家 ⋅ 上海人工智能实验室
报告摘要:本次报告主要围绕空间智能和物理智能两大目前尚未有效解决的智能类型展开,以导航大模型视角为例,介绍从问题定义、数据-模型-评测构建等方面将这两类密切相关、又各有侧重的智能研究探索建立连接的尝试,并简要探讨仍需解决的问题和挑战。
讲者简介:王泰,上海人工智能实验室青年科学家,博士毕业于香港中文大学,研究方向为具身智能和三维视觉,目标构建空间智能大脑赋能软硬一体可泛化的具身通用人工智能系统。在 TPAMI, IJCV, CVPR, CoRL 等计算机视觉与机器人学习领域顶级期刊与会议发表论文30余篇,谷歌学术被引4000余次,并多次在国际顶级竞赛中获奖。在通用三维感知点云表征、纯视觉框架设计、具身多模态三维理解等方向的系列代表工作和相关开源平台被产学界广泛使用,GitHub累计获得上万个星标。曾获ECCV最佳论文候选、ICCV研讨会最佳论文、港府奖学金。