报告摘要:具身智能近年来发展迅猛,但评测逐渐成为制约其上限的“隐形天花板”:一方面,具身模型支持的硬件形态、操作系统接口、传感器配置千差万别,行业缺乏统一的评测协议,难以横向比较算法优劣;另一方面,具身数据普遍存在抖动、噪声、重复等问题,选择适合目标任务的高质量数据,已是开发者每天都要面对的难题。为填补具身智能领域“模型-数据”协同评估的空白,本团队依托国家标准,提出了一套全栈式评测框架,覆盖“感知-认知-决策-执行”四大维度,形成可复现、可扩展的行业基准。该框架已上线大司南-具身评测平台,提供在线评测、排行榜与报告自动生成,助力产学研快速验证算法、提升数据质量、加速产品迭代
讲者简介:李春一,上海交通大学&南洋理工大学联授博士生,上海人工智能实验室评测专项组成员,师从翟广涛教授与林维斯教授,主要研究方向为具身感知,多模态大模型。以第一作者发表TIP, CVPR, ICCV等中科院一区期刊/CCF-A类论文7篇,被引1500余次,单篇被引百余次。曾首次提出面向具身智能的质量评估,与首个大模型图像压缩框架,获CVPR满分论文。相关技术贡献于国家标准工作组,国家重点研发计划各一项。