报告摘要:第一视角视觉问答旨在通过可穿戴智能摄像设备(如智能眼镜)实现人、机、与环境的实时交互与问答辅助。目前,以ChatGPT、Gemini等为代表的多模态大模型在视觉问答任务上取得了令人惊艳的表现。然而,这些研究多集中在对第三视角视觉数据的客观理解上,其在面向第一视角问答时的表现未知。本报告将介绍团队在面向第一视角视频问答方面所进行的两个探索性的研究工作,重点介绍在面向盲人第一视角问答辅助以及场景文本视频问答方面的数据集构建以及多模态大模型评估研究。研究表明,目前的多模态大模型在盲人辅助问答上较人类个体水平仍有巨大的差距(约30%),但是在场景文本相关的问答上有时甚至能超过人类个体水平。本报告将分析团队在该方向的研究进展,以期能加深相关研究人员对多模态大模型在第一视角视觉问答上的理解与认知。
讲者简介:杨勋,中国科学技术大学信息科学技术学院特任教授,博士生导师,国家高层次青年人才项目获得者;于2017年博士毕业于合肥工业大学计算机与信息学院,曾在新加坡国立大学计算机学院NExT研究中心担任博士后研究员;2021年回国加入中国科学技术大学信息学院。长期从事人工智能、计算机视觉、多媒体分析等领域的研究,近年来主要关注跨媒体分析与推理以及人工智能模型可靠性等方向的研究。在CCF A类会议以及IEEE/ACM Transactions国际期刊上发表研究论文70余篇。主持国家自然科学基金联合基金重点项目和国家自然科学基金面上项目各一项。现担任CCF多媒体技术专委会(CCF-MM)执行委员、CSIG青工委委员、CSIG/CCF高级会员;担任IEEE Transactions on Big Data(大数据顶刊)、IEEE Transactions on Fuzzy Systems(模糊计算顶刊)和 Multimedia Systems 期刊的编委,多次担任教育部、国家自科基金、北京市等人才/重点类项目的函评专家。