青工委委员风采–王井东 – 中国图象图形学学会青工委

第1期中国图象图形学学会青年工作委员会委员风采

1.委员基本情况

姓名：	王井东
工作单位：	北京百度网讯科技有限公司
职务：	百度AIG计算机视觉首席架构师
研究方向：	计算机视觉、深度学习、多媒体搜索

2.委员简介

王井东博士，百度AIG计算机视觉首席架构师，负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前，曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。代表工作主要包括高分辨率神经网络（HRNet）、基于有监督的区域特征融合（DRFI）的显著目标检测及基于近邻图的大规模最近邻搜索（NGS，SPTAG）等。曾担任过许多人工智能会议的领域主席，如 CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等。现在是IEEE TPAMI、IJCV、IEEE TCSVT的编委会成员，曾是IEEE TMM的编委会成员。曾获得2017年度教育部自然科学一等奖、 2021年度中国图象图形学学会自然科学奖二等奖。因在视觉内容理解和检索领域的杰出贡献，他被遴选为国际电气电子工程师学会和国际模式识别学会会士 (IEEE Fellow、IAPR Fellow)、国际计算机协会杰出会员（ACM Distinguished Member）。

3.委员亮点工作

基于近邻图的近似最近邻搜索。近似最近邻搜索是计算几何和机器学习等领域的基础研究任务之一，在信息检索、多媒体检索和计算机视觉领域里有着广泛的应用。该任务的目的是从海量（如千亿量级）的数据库中快速找到与查询向量距离近似最近的数据，通常采用的距离度量方式包括欧式距离和余弦距离等。当时，我们在研究基于树搜索算法的时候，有这么一个观察：如果一个数据距离查询数据近，那么其近邻数据距离查询数据也会比较近。这一观察发现也可以从小世界理论或者三角不等式等得到。传统的基于树的算法里没有利用这一观察，而利用效率较低的回溯等策略选择子树优先访问。基于这一观察，我们提出了利用近邻图（如k-近邻和相对近邻图）来作为检索结构，通过同时结合树的方法，来解决近邻图不连通的问题（见图1）。此外，我们也提出了高效的创建近邻图的算法。相应的文章发表在ACM MM 2012和CVPR 2012。我们提出基于近邻图算法的时候并没有意识到此前在计算几何领域里有相关类似的研究，但是我们可能是第一个成功地研发出高效的基于近邻图的近似最近邻搜索算法并推广到实际应用中而此前基于树的方法被广泛研究和使用。2014年，我们已经把该算法用在了图像搜索和广告中，后来也用在了小冰机器人对话中。2017年，我们进一步提升算法性能，包括改进实现、利用更高效的相对近邻图、以及和英伟达合作用GPU来加速创建近邻图等，并将我们的算法成功应用到网页搜索中，这可能是业界中将商用向量搜索用于网页搜索的第一个案例，而在此之前网页搜索还仅仅依赖于倒排检索。2021年，我们结合SSD实现了可以检索千亿量级网页的内存和硬盘混合检索算法，相应的文章发表在NeurIPS 2021。我们也在GitHub开源了全部算法，目前已经收到4000多的Stars。

高分辨率网络（HRNet，High-Resolution Networks）。HRNet是一种面向视觉任务的通用结构，可以广泛地应用于对于位置敏感的视觉任务，如分割、检测以及姿态估计任务等。在我们的工作之前，网络结构的设计主要针对图像分类任务（如图2）。绝大多数视觉任务，如分割、检测等，对于位置相对敏感，需要空间粒度高（高分辨率）的表征。传统的方法一般是在分类网络基础上进行扩展以学习高分辨率表征。而我们所提出的HRNet打破了这一传统规则，能够直接学习到高分辨表征。

HRNet结构在设计上不同于以往的传统主干网络。传统主干网络的设计类似LeNet-5，由于卷积操作逐渐从高分辨率到低分辨率，因此其表征的分辨率会逐渐变小。而HRNet通过将不同分辨率上的卷积并联（如图3），使得其自始至终都维持着高分辨率表征。我们在GitHub开源了HRNet算法，并展示了其在人体姿态估计、图像分割、目标检测等任务上的广泛应用，累计收到6000多的Stars。总的来说，HRNet以简单的网络结构和优越的性能已成为人体姿态估计、语义分割、物体检测的标准网络之一，是许多相关比赛的冠军队伍采用的方案之一，在医学图像、遥感图像等任务也得到了广泛地采用，也被许多实际产品采用，如微软的表格理解产品。值得一提的是，HRNet最近被应用于视觉多任务，如基于多任务的网络结构搜索。

4.委员专访

（1）请问您的研究领域包括哪些？最近进展如何？

我研究工作主要集中在多媒体搜索和基于深度学习的计算机视觉。在早些年，紧密地跟图像搜索部门合作，选择既有研究价值又有应用价值的课题开展研究，研究的课题包括：显著物体检测及其在图像搜索颜色过滤中应用、基于颜色空间分布的交互式图像搜索、视觉特征增强的图像搜索排序、以及近似最近邻搜索算法及其在图像和网页搜索中的应用。我们从2009年开始近似最近邻搜索研究，包括：以加快距离计算和减少内存消耗为目标的哈希和量化搜索方法、提升搜索效率为目标的基于树和近邻图的搜索方法。图4列出了几个代表性的工作。此外，我们也发表了一篇关于哈希的综述文章：“A Survey on Learning to Hash”

在深度学习领域，我们的工作主要集中在网络结构的设计。网络结构是深度学习领域的核心问题之一。我们从2015年开始这一领域的研究，早先在网络变深、变宽、以及小型化等方面开展研究，相关的工作如Deeply-Fused Nets （Deep fusion）、Interleaved Group Convolutions （IGC）等。从2018年以来，我们的研究重心转移到图像分类以外的其他视觉任务，如分割、检测以及人体姿态估计等等，相关的工作包括：HRNet和基于Attention机制的OCNet、 OCRNet、 Conditional DETR等。最近我们也在思考基于局部窗口Attention的主干网络和基于Dynamic Depth-wise Convolution的主干网络的关系。目前的研究结果表明，局部窗口Attention跟Dynamic Depth-wise Convolution很类似，Attention可以看作是一种特殊的动态权重（Dynamic Weight）的生成机制。图5总结了我们在这个方向上的一些代表工作。

(2) 您对于图像图形领域的青年研究人员有什么想说的吗？

图像图形领域特别是计算机视觉领域，是人工智能方向最火的领域之一。见到非常多的年轻人从事这个行业的研究和开发，我的内心非常高兴，也很受鼓舞。对刚进入这个领域的年轻研究人员，我的建议是从一个相对容易但又很重要的问题开始研究，积累经验，增强信心。然后再钻研富有挑战性的、可能会有重大影响力的问题。我也鼓励大家持续和深入地研究一个问题，在积累了足够的经验以及对研究有足够的理解后，再研究其他问题或者更多的问题。另外，我建议寻找机会向这个领域里专家学习或者跟他们一起工作。集中研究一到两个课题，发表高质量高影响力的文章，建立自己的学术声誉，而不是发表太多的文章。最后，尽管深度学习已经成为视觉领域的主导地位的工具，我还是鼓励大家多理解视觉问题本身，多积累视觉领域的知识，多学习除了深度学习以外的技术，如概率、矩阵计算以及其他机器学习方法。

（3）您最近离开微软亚洲研究院到百度工作了，可以跟介绍下您的团队吗？我所带领的百度视觉团队由视觉技术部和增强现实技术部组成。团队以“感知世界，理解万物”和“虚实融合，创所未见”为使命，研究和开发前沿的和产品导向的计算机视觉、增强现实和深度学习等技术，广泛支持百度各产品，服务全球开发者、用户和客户。具体的研发领域包括视觉感知和理解、三维重建、点云理解、OCR、视觉生成、深度伪造检测、图形渲染、多模虚拟人、工业质检、深度学习等。我们积极与高校、科研机构等研究人员展开科研合作，也常年招收实习生开展前沿技术的研究和开发。欢迎大家跟我们联系。