如果对物体识别和分割技术有所了解的读者们,可能对这个流程并不陌生。传统的物体识别和图像语义分割技术目前集中于运用 Fast/Faster R-CNN 和全卷积网络(FCN)框架等方法,上述概念的优点非常明显
1. 直观
2. 训练和推断速度快
3. 灵活性和鲁棒性好
不过在此前文章中提及的一样,目标分割的难点在于涉及两个任务
1. 用物体识别技术识别物体,并用边界框表示出物体边界;
2. 用语义分割给像素分类,但不区分不同的对象实例。
「本篇论文的创新点在于作者在 Faster R-CNN 的基础上,只增加了一条对计算资源要求很小的分支,就把原来只用在物体检测任务上的技术到物体分割技术上。」
图普科技工程师Mask R-CNN的理论创新会带来怎样的可能性?
Mask R-CNN 框架
Mask R-CNN 作为 Faster R-CNN 的扩展形式,主要的任务流程如下
1. 检测出中可能存在物体的区间,得到多个候选框;
2. 用一条子神经网络分支预测
每个框内的物体类别
物体在候选框里的矩形范围(横坐标纵坐标,宽,高)
3. 用一条神经网络分支对每个候选框预测候选框中哪些像素是属于该物体的。
那么,这样的改进能够起到怎样的作用呢?好处自然非常明显。
是适用性强。Mask R-CNN 的框架非常通用灵活,只需要经过少量修改,便能够推广到很多的任务上。
是更好地利用不同任务的监督数据。图普科技工程师表示,「以前是检测任务只能利用检测的数据,分割任务只能利用到分割的数据,现在 Mask R-CNN 能用上检测,分割等数据,训练检测,分割等任务,」AI 科技评论从论文的实验中了解到,任务都能达到业界标杆的效果。
在论文中,Mask R-CNN 在 COCO 数据集上表现良好,具体实验结果可以参考AI科技评论的此前文章。那么它是否能延展到更大的范围呢?图普科技工程师对此则一分为二地看待,他认为短期内在个人领域还无法看到直接应用,不过在云端厂商和科研工作上,由于它良好的表现性能和实用性,的确可以在很多地方获得大规模应用。
既然是 Facebook 研究院提出的新成果,根据图普科技工程师的设想,可能会有以下三个方向
是图片自动打标签的功能。基于 Facebook 的社交属性,它识别人脸的能力已经越来越强,但「读懂图片」的能力还在不断探索中。Mask R-CNN 兼具物体识别并用语义分割给像素分类的能力,的确很有可能先在自家的社交网络上获得大范围应用。
是 AR 技术。比如说,在镜头中的沙发上显示一个 3D 虚拟美女,那么如何判断沙发的位置和角度,并据此调整美女的坐姿,如果要做到「毫无违和感」,同样需要对图像的边界进行界定。
还有一点是 VR 技术。「在游戏领域,可以采用 Mask R-CNN 精确捕捉人的动作,让玩家在能在虚拟世界自由扮演角色。」
虽然现在讨论应用还有些早,不过 AI 科技评论依然期待 FAIR 在未来能有更多的理论创新,并能够早日应用于我们的生活当中。