位置:中国玻璃网 > 企业经营 > 正文 >

谷歌用AI检测透明对象,实现玻璃上生成AR可视化效果

2020年02月14日 10:47来源:未知手机版

全友洁具,圣魔光石修改器,给我一支烟剧情介绍

(映维网 2020年02月14日)诸如RGB-D摄像头和LIDAR等光学3D距离传感器已在机器人技术中得到广泛应用,并正在为从无人驾驶汽车到自动操纵器的一系列应用生成丰富准确的环境3D映射。然而,诸如玻璃容器这样的透明对象会造成昂贵传感器的混乱。这是因为光学3D传感器是由假定所有表面均为朗伯(Lambertian)的算法驱动,即它们在所有方向均等地反射光线,从而在所有视角下产生均匀的表面亮度。但是,透明对象违反了这一假设,因为它们的表面既折射又反射光线。所以,来自透明对象的大多数深度数据一般为无效,或包含不可预测的噪点。

光学3D传感器通常难以检测透明对象。例如,玻璃瓶没有出现在英特尔实感D415 RGB-D摄像头捕获的3D深度图像之中(上方静态图);下方动图:根据深度图像和点云方法构建的3D可视化

支持机器更好地感知透明表面,这不仅可以提高安全性,而且能够在非结构化应用中开启一系列全新的交互,如可以处理厨具或分类塑料以进行回收利用的机器人,导航室内环境,或在玻璃桌面生成AR可视化效果等等。

为了解决这个问题,谷歌与Synthesis AI和哥伦比亚大学的研究人员合作开发了名为ClearGrasp的机器学习算法。据介绍,它能够根据RGB-D图像估计透明对象的精确3D数据。这主要得益于一个大规模合成数据集(谷歌日前同样进行了公开)。ClearGrasp可以配合所有标准RGB-D摄像头,然后使用深度学习来准确地重建透明对象的深度,并泛化为训练期间不可见的全新对象。作为对比,以前的方法需要事先理解透明对象,并且通常需要结合背景照明的映射和摄像头位置。在这项研究中,谷歌同时演示了将ClearGrasp集成到拾取和放置式机器人的控制系统中。谷歌表示,他们留意到透明塑料对象的抓取成功率有了显著提高。

1. 透明对象的可视数据集

要训练有效的深度学习模型(如用于视觉的ImageNet或用于BERT的Wikipedia),你需要大量的数据。ClearGrasp也不例外。遗憾的是,我们缺乏透明对象的3D数据集。诸如Matterport3D或ScanNet这样的现有3D数据集会忽略透明表面,因为它们需要昂贵且耗时的标记过程。

为解决此问题,研发团队自行构建了透明对象的大规模数据集,其中包含50000多个具有相应表面法线(表示表面曲率),分割蒙版,边缘和深度的图片真实感渲染,并可用于训练各种2D和3D检测任务。每个图像最多包含五个透明对象,而它们要么位于平坦的地平面之上或手提袋之内,并且具有不同的背景和照明。

研究人员同时纳入了包含286张真实世界图像的测试集,而它们具有相应的ground truth深度。对于真实世界图像,团队将场景中的每个透明对象替换为具有相同姿态的绘制对象。图像是在各种不同的室内照明条件下并使用各种布料和贴面背景捕获,并且包含散布在场景周围的不透明对象。它们既包括合成训练集中存在的已知对象,又包含新的对象。

2. 挑战

通过透明对象看到的扭曲背景视图会混淆典型的深度估计方法,但存在暗示对象形状的线索。透明表面会出现镜面反射,并在光线充足的环境中显示为亮点。由于这种视觉提示在RGB图像中十分明显,并且主要受对象形状的影响,所以卷积神经网络可以利用反射来推断出精确的表面法线,然后再将其用于深度估计。

大多数机器学习算法都尝试直接根据单眼RGB图像估计深度。但即便是人类,单眼深度估计都是一项艰巨的任务。我们在估计平坦背景表面的深度时会观察到较大的误差,这加深了放置于其上的透明对象的深度估计误差。所以,研究人员认为与其直接估计所有几何图形的深度,不如更正来自RGB-D 3D摄像头的初始深度估计值,这将允许他们使用非透明表面的深度来确定透明表面的深度。

3. ClearGrasp算法

本文地址:http://www.cnbli.com/qiyejingying/32177.html 转载请注明出处!

今日热点资讯