光学传感器(例如相机和激光雷达)是现代平台的基本组成部分,但它们有一个共同的缺陷玻璃容器之类的透明物体容易使它们混淆。这是因为分析来自这些传感器的数据的大多数算法都假定所有表面都是朗伯型的,或者它们在各个方向和各个角度均均匀地反射光。相反,透明物体既折射又反射光,从而使深度数据无效或充满噪声。
为了寻找解决方案,一组Google研究人员与哥伦比亚大学和综合AI(一种用于计算机视觉的数据生成平台)合作开发了ClearGrasp。这是一种能够从RGB图像估计透明对象的准确3D数据的算法,重要的是,该算法可与任何标准RGB相机的输入配合使用,使用AI重构透明对象的深度并将其推广到训练期间看不到的对象。
正如研究人员所指出的那样,训练复杂的AI模型通常需要大量的数据集,并且由于不存在透明物体的主体,他们创建了自己的包含超过50,000个逼真的渲染的图像,这些渲染具有相应的深度,边缘,表面法线(代表表面曲率),和更多。每个图像最多显示五个透明物体,这些物体可以放在平坦的地平面上,也可以放在装有各种背景和照明的手提袋中。一个带有相应地面真实深度的286张真实世界图像的单独集合用作测试集。
ClearGrasp总共包括三种机器学习算法一种用于估计表面法线的网络,一种用于遮挡边界(深度不连续)的网络以及一种用于遮盖透明对象的网络。此蒙版会删除属于透明对象的所有像素,以便可以填充正确的深度,优化模块可以使用预测的表面法线来扩展表面的深度,以指导重建的形状。(预测的遮挡边界有助于保持不同对象之间的分离。)
在实验中,研究人员在其自定义数据集以及开放源代码Matterport3D和ScanNet语料库中的真实室内场景中训练了模型。他们说,ClearGrasp设法为保真度比基线方法高得多的透明对象重建深度,并且其输出深度可以直接用作使用图像的操纵算法的输入。当使用机器人的平行颚爪抓臂时,透明物体的抓握成功率从12%提高到74%,并且通过吸力从64%提高到86%。