以人为中心的视觉计算

会程安排

9 月 21 日 上午

分论坛主席

刘武
教授 ⋅ 中国科学技术大学
刘武,中国科学技术大学特任教授,入选国家级青年人才计划。在重要国际会议和期刊上发表论文100余篇,曾获得IEEE T-MM、IEEE MM和IEEE ICME等最佳论文奖,以及CAAI 吴文俊人工智能科技进步特等奖、天津市科技进步特等奖、ACM 中国新星奖、中科院优秀博士论文奖、中科院院长特别奖等,入选了《麻省理工科技评论》亚太区“35岁以下科技创新35人”,北京市科技新星计划,中关村论坛-AI100青年先锋,并担任了IEEE T-MM和Pattern Recognition Associate Editor,IEEE ICME 2022和ACM MM Asia 2021技术委员会主席,2025年中国多媒体大会组织委员会主席,IET Fellow评审委员会委员等。
钱建军
教授 ⋅ 南京理工大学
钱建军,南京理工大学教授、博士生导师,江苏省人工智能学会模式识别专委会副主任。研究方向为模式识别与视觉计算,相关成果发表在IEEETPAMI/TIP/TNNLS,IJCV, PR, CVPR/ECCV/AAAI等国际权威刊物和知名国际会议100余篇。先后主持国家自然科学基金项目3项,参与重点项目、JW科技委基础加强项目等多项。获得江苏省科学技术奖一等奖2项(分别为第二、四完成人);入选国家级青年人才计划、“香江学者计划”、江苏省“青蓝工程”优秀青年骨干教师等。
刘凡
教授 ⋅ 河海大学
刘凡,河海大学教授、博士生导师,计算机学院副院长(主持工作),兼任水利部水利大数据重点实验室副主任、江苏省计算机学会、江苏省人工智能学会常务理事。主持国自然面上和青年项目、装备预研教育部联合基金等项目20多项。近五年以第一/通讯作者发表学术论文60余篇,出版专著1部,谷歌学术引用次数6800余次,入选ESI热点论文2篇、高被引论文5篇。入选江苏省“青蓝工程”优秀青年骨干教师、江苏省科协青年科技人才托举工程。
山世光
研究员 ⋅ 中国科学院计算所
山世光,中国科学院计算所所务委员、研究员、博导,IEEE Fellow,现任计算所智能信息处理重点实验室主任,智能算法安全全国重点实验室副主任。他的研究领域为人工智能,特别是计算机视觉、模式识别、机器学习、AI安全和情感计算等,研究成果已规模化应用,并获2005年度国家科技进步二等奖,2015年度国家自然科学二等奖。

分论坛报告

情智兼备多模态模型初探
杨巨峰 ⋅ 南开大学
报告摘要:“情智兼备”是以人为中心的视觉计算的重要方向,是迈向通用人工智能的关键一步。《科学》杂志公布的125个最具挑战性的科学问题中,人工智能领域第二个问题为:“是否有可能创建有感知力的和有情感的机器人?”报告人参与提出的“情智兼备数字人与机器人的研究”被遴选为中国科协十大前沿科学问题第1位,进一步证明了这一研究领域的重大科学意义。本报告介绍课题组在“多模态情感模型”领域开展的探索工作。从多模态注意力出发,提出新的模块化双工注意力机制,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型“摩达(MODA)”。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的21个基准测试中均取得了显著性能提升。借由新的注意力机制加持,“摩达”模型在角色剖析与规划演绎等人机交互应用中表现出色。
讲者简介:杨巨峰,数据与智能系统安全教育部重点实验室副主任,国家级青年人才,兼任中国计算机学会计算机视觉专委会副秘书长,中国情感计算大会程序主席(CCAC 2025),国际计算机视觉与模式识别大会(CVPR 2024/2025)领域主席。已发表PIEEE/PAMI/CVPR等CCF A类论文50余篇,作为主要作者参与提出的“情智兼备数字人与机器人的研究”入选2024年中国科协十大前沿科学问题第1位。指导学生获得第一批/第二批国基金博士生项目资助并入选首届中科协青托博士生专项。
知识驱动的人-物交互检测
张姗姗 教授 ⋅ 南京理工大学
报告摘要:基于视觉的人-物交互检测是计算机视觉领域的一项重要任务,旨在从图像或视频中识别人体、物体的位置以及它们之间的交互动作,相关技术在视频监控、智能机器人等领域具有广泛的应用价值。本报告将介绍该领域的研究进展,以及我们课题组利用人体相关先验知识引导模型理解复杂交互关系的最新工作,并进一步探索如何利用多模态大模型的潜在知识实现对未知新交互动作的精准识别。
讲者简介:张姗姗,南京理工大学计算机学院(人工智能学院)教授、博士生导师,国家优青、江苏省杰青获得者,研究领域为模式识别与计算机视觉。博士毕业于德国波恩大学,并曾在德国马普计算机研究所担任博士后研究员。2018年入选中国科协“青年人才托举工程”、微软“铸星学者”计划;2021年获得中国图象图形学学会石青云女科学家奖;2022-2024连续三年入选爱思唯尔中国高被引学者;2024年获得CAAI-华为昇思MindSpore学术基金优秀项目奖励。目前担任模式识别权威期刊Pattern Recognition编委、CVPR、ICCV领域主席、中国人工智能学会模式识别专委会副秘书长、江苏省“社会安全图像与视频理解”重点实验室副主任、VALSE常务领域主席
从多模态感知到精准干预:AI赋能的特殊需求儿童教育新路径
陈靓影 教授 ⋅ 华中师范大学
报告摘要:我国特殊需求儿童快速增长,以孤独症(自闭症)为例,超千万孤独症家庭面临着提高特殊儿童生存技能与学习能力的巨大挑战。人工智能技术的发展为孤独症教育干预提供了新路径,针对孤独症教育干预技术长期停留在“简单(个性干预缺失)低效(智能化水平不足)”的初级阶段,本研究面向人机交互条件下孤独症儿童教育干预的关键问题,重点突破个性表达,过程干预,效果评估三个方面的技术瓶颈,提升儿童模型的精确性、建立精准的干预机制、提供精细化的评估,实现人机交互技术对孤独症儿童教育干预的智能增强。
讲者简介:陈靓影,教授、博士生导师、学部学术委员会副主席、华中师范大学特殊教育信息化研究中心主任、中国教育技术协会特殊教育专委会主任、武汉市有突出贡献中青年专家、楚天学者特聘教授、湖北省女性科技创新人才。致力于人工智能+特殊教育研究,主持国家自然科学基金、国家社会科学基金、国家重点研发等国家级、省部级等课题20余项;发表学术论文130余篇,出版专著5部,获中/美发明专利28项,软著48项;研发的孤独症儿童干预及评估系统在全国103家医院/特教机构应用,累计服务16万余名特殊儿童,获得湖北省科技进步一等奖等10余项奖励;受邀在联合国教科文主办的国际人工智能与教育等大会上做主旨报告。
人机和谐:AI的人性化之路
蓝振忠 ⋅ 西湖大学
报告摘要:随着人工智能技术的飞速发展,我们正站在一个前所未有的时代门槛上。AI不仅在智能和推理上展现出惊人的能力,更在理解人类情感和社交互动方面取得了突破。然而,随着AI的“智慧”增长,如何确保它们在与人类共存时既安全又和谐,成为了一个亟待解决的问题。本次讲座将探讨如何在不牺牲安全的前提下,赋予AI更多的人性特质。我们将深入讨论以下几个关键问题:1)如何构建人性化AI; 2)如何实现安全的人机交互;3)未来AI和人的关系是怎样的。
讲者简介:蓝振忠博士毕业于卡内基•梅隆大学计算机学院。曾任谷歌人工智能研究院科学家,是自然语言处理领域预训练语言模型“ALBERT”第一作者,蓝振忠博士2020年受聘于西湖大学,创办深度学习实验室并担任博士生导师,主要研究领域为大模型及其在自然语言处理和计算机视觉中的应用,特别是在对话中的应用。2021年创立西湖心辰(杭州)科技有限公司。2021年被麻省理工大学评选为亚太地区“35岁以下科技创新35人”之一,2024年荣获“蚂蚁Intech科技奖”,2025年入选“AI 100 青年先锋”。
面向第一视角视频问答的数据构建和多模态大模型评估
杨勋 教授 ⋅ 中国科学技术大学
报告摘要:第一视角视觉问答旨在通过可穿戴智能摄像设备(如智能眼镜)实现人、机、与环境的实时交互与问答辅助。目前,以ChatGPT、Gemini等为代表的多模态大模型在视觉问答任务上取得了令人惊艳的表现。然而,这些研究多集中在对第三视角视觉数据的客观理解上,其在面向第一视角问答时的表现未知。本报告将介绍团队在面向第一视角视频问答方面所进行的两个探索性的研究工作,重点介绍在面向盲人第一视角问答辅助以及场景文本视频问答方面的数据集构建以及多模态大模型评估研究。研究表明,目前的多模态大模型在盲人辅助问答上较人类个体水平仍有巨大的差距(约30%),但是在场景文本相关的问答上有时甚至能超过人类个体水平。本报告将分析团队在该方向的研究进展,以期能加深相关研究人员对多模态大模型在第一视角视觉问答上的理解与认知。
讲者简介:杨勋,中国科学技术大学信息科学技术学院特任教授,博士生导师,国家高层次青年人才项目获得者;于2017年博士毕业于合肥工业大学计算机与信息学院,曾在新加坡国立大学计算机学院NExT研究中心担任博士后研究员;2021年回国加入中国科学技术大学信息学院。长期从事人工智能、计算机视觉、多媒体分析等领域的研究,近年来主要关注跨媒体分析与推理以及人工智能模型可靠性等方向的研究。在CCF A类会议以及IEEE/ACM Transactions国际期刊上发表研究论文70余篇。主持国家自然科学基金联合基金重点项目和国家自然科学基金面上项目各一项。现担任CCF多媒体技术专委会(CCF-MM)执行委员、CSIG青工委委员、CSIG/CCF高级会员;担任IEEE Transactions on Big Data(大数据顶刊)、IEEE Transactions on Fuzzy Systems(模糊计算顶刊)和 Multimedia Systems 期刊的编委,多次担任教育部、国家自科基金、北京市等人才/重点类项目的函评专家。
高分辨力视觉质量评估
李雷达 教授 ⋅ 西安电子科技大学
报告摘要:视觉质量评估通过模拟人眼视觉系统的感知特性,对图像的主观感知质量进行客观化评价;作为一项共性技术,在底层视觉、成像优化、智慧摄影、AIGC等诸多领域中有重要的应用。经过20余年的快速发展,学术界已经提出了大量的质量评估算法;然而现有方法在真实环境使用时普遍存在分辨能力不足的问题。本报告重点探讨粗粒度和细粒度视觉质量评估的主要差别,精细粒度视觉质量评估近年来的主要研究进展,以及未来的研究方向。
讲者简介:李雷达,西安电子科技大学教授、博导,国家级青年人才。长期从事视觉质量评估、计算美学、视觉情感分析等方向的研究;发表中科院一区和CCF A类论文90余篇,谷歌引用8500余次,6篇论文入选ESI高被引论文;主持国家自然科学基金5项,与OPPO、华为、腾讯等开展产学研合作,获OPPO产学研优秀合作伙伴奖,研究成果应用于OPPO ColorOS、直播相机等;获陕西省自然科学一等奖、江西省自然科学一等奖等省级奖励5项。担任IEEE Transactions on Image Processing (TIP)等多个国际期刊副主编、CSIG情感计算与理解专委会常务委员、IEEE/CCF/CSIG高级会员。