新闻网讯 9月29日,欧洲计算机视觉会议(ECCV2024)在意大利米兰召开。大会组织的“TRICKY 2024:Transparent & Reflective objects In the wild Challenge (自然场景透明和反射物体挑战赛)”的“Monocular Depth from Images of Specular and Transparent Surfaces Challenge (镜面和透明表面图像的单目深度估计)” 赛道比赛结果揭晓,我校未来技术学院2021级本科生张峻瑞参与的竞赛团队(Smartlab)获得全球冠军。张峻瑞以第一作者的身份撰写了学术论文“Towards Robust Monocular Depth Estimation in Non-Lambertian Surfaces”介绍参赛项目,并受邀在大会Workshop上进行论文学术交流。
单目深度估计是近年来计算机视觉领域的研究热点之一,它是自动驾驶、物体姿态估计、SLAM、虚拟现实、新视图生成、计算摄影等众多领域的基础技术,有着广泛的应用前景。虽然单目深度估计算法近年来已经取得了长足进步,但当场景中存在透明或镜面反射物体时,现有的单目深度估计模型的性能均会急剧下降,究其原因在于当场景中存在玻璃或金属等非朗伯体时,这些物体的表面通过反射或折射的方式,可以复制场景中其他处于不同深度物体(包含非朗伯体)的颜色、纹理等外观信息,导致不同深度结构的物体在深度语义上引起混乱,从而形成了难以预测的深度结构。而现有的深度预测模型往往建立在“朗伯世界”的假设下,即训练数据来自于常见的漫反射场景,因此模型无法从单目图像中正确预测与透明物体的距离。
张峻瑞与人工智能与自动化学院的研究生黎家骐、黄亚川等在曹治国教授指导下,针对非朗伯表面的深度估计挑战提出了三点改进。首先,考虑到相比于朗伯体,光照对于非朗伯体的成像具有更显著的影响,论文使用随机色调映射等数据增强手段提升深度预测模型对于不同光照条件下非朗伯体的预测鲁棒性;其次,作者发现利用区域语义引导的损失函数可以使深度预测模型直接学习到非朗伯表面的特殊几何特征,使整体框架不再像此前工作一样严重依赖于模型输入侧基于超参的图像编辑,从而达到更好的性能;最后,在多重曝光图像可用的情况下,论文还提出了一个新颖的基于变分自编码器的图像融合模块,利用多张不同曝光条件的图像合成出一张对非朗伯体深度估计最为有利的输入图像。实验结果表明,论文提出的方法在多种场景中表现卓越,其深度估计结果比基准模型ZoeDepth和其他参赛团队的模型更接近于真实的深度图(GT)。无论在光照变化或其他复杂环境下,其预测结果均显现出更高的准确性和稳定性,尤其在基于非朗伯表面的定量指标上全面超越参赛其他团队,最终摘得比赛桂冠。
ECCV是由欧洲计算机视觉协会(European Computer Vision Association, ECVA)主办的双年度国际学术会议,与CVPR和ICCV并称为国际计算机视觉领域的“三大顶会”。除了计算机视觉领域的每年最新研究成果在大会发表以外,会议还针对当前计算机视觉领域的一些挑战难题和热点问题组织全球挑战赛,吸引了全球众多知名高校和研究人员参与。
张峻瑞自加入曹治国教授团队以来,在确定了以单目深度预测为主要研究方向后,与团队的研究生一道,刻苦钻研,成果突出,这次是其在夺得CVPR2024组织的单目深度预测竞赛“NTIRE HR Depth from Images of Specular and Transparent Surfaces Challenge”赛道冠军后的又一次夺冠。