一些概念
在描述目标检测算法的过程中,我们通常会使用一系列术语。 如果对这些术语不太熟悉,在阅读过程中会有很大的障碍。 我们将目标检测问题中的一些概念和术语汇总至此,读者可以先初步浏览,并在学习后续小节时翻回来查阅。其中一些概念在技术上的意义相同,但在语义上会有所区别,并用于特定的上下文中。
区域、框和矩形框
区域(region)泛指图像中的一片区域。这是一个一般性的概念,并没有什么特别的意思。
在目标检测的文献中,区域通常指矩形区域,因此也被称为框(box)或矩形框。
一个框可以由其左上右下边界的坐标表示,即 ,也可以用其中心的坐标与长宽表示,即 。 两种表示方式等价,可以互相转换。
边界框
边界框(bounding box)指紧紧包围物体的矩形框。
与图像中的一个区域,图像中的
语义上隐含包含物体
真值、真值框
真值(ground truth)泛指数据集中的标注,通常包括物体的类别和边界框。 真值框(ground truth box)指数据集中标注的边界框。 从机器学习的角度看,这些标注会作为训练机器学习模型时使用的真值。
检测框
检测框指目标检测算法输出的边界框。
感兴趣区域 ROI
感兴趣区域(Region of Interest, ROI)指图像上待检测的一块区域。 我们通常会在检测算法的中间步骤,将一块待检测的区域描述为感兴趣区域。 我们会对这块区域感兴趣,是因为我们希望知道这块区域中是否包含物体。
区域提名(region proposal)与候选框(candicate boxes)
在目标检测算法中,我们有时会采用一种两阶段的算法,先通过一种快速的算法找出一些可能包含物体(但实际上有可能并不包含)的框,再使用精确的算法去判断框中有没有物体,有哪类物体。 在这类方法中,第一个步骤称为区域提名,而产生的框通常称为候选框。
置信度(confidential score)
大部分目标检测算法输出检测框的同时还会输出中,目标检测算法中
特征
在模式识别和机器学习领域,特征是用于描述所研究物体的一个数值向量。特征将所研究的任何物体数值化,使我们可以使用各种数值算法。
在深度学习的语境下,特征的含义扩展了许多。深度模型的一大特点是层次化特征。深度模型每一层(的输出)都是输入图像的特征,层级越深,语义信息越强。
由于深度模型每一层的输出在空间上具有长宽的结构,因而也称为特征图。
语义
在描述检测算法,尤其是描述不同层的特征的时候,我们经常会使用语义这个术语。这个术语相对有些抽象,但理解这个属于的含义对于理解不同目标检测算法中的细节非常重要。
语义泛指对图像容的理解与描述。计算机视觉研究的核心问题是如何“理解”图像,针对目标检测问题,图像中的“物体是什么”、“位置在哪里”,这些理解层面的信息就称为语义信息。
深度模型在像素和语义之间搭了一座桥梁,通过一层一层的变换,像素就被计算成了语义。由于这种变化是逐层渐变的,越靠近低层,语义信息越分散,越靠近深层,语义信息越集中。以图像分类为例,像素包含了语义信息,但是分散在所有的像素中,人需要看到全部像素,才能知道图像中是什么。而最终输出的 onehot 编码,一个维度就表示了图像中有没有这类物体,语义信息就非常集中。
Last updated