图像和视频的视觉描述符
MPEG-7开发的描述符大致可分为一般的和特定领域的视觉描述符。前者包括颜色、纹理、形状和运动特征,而后者则与具体的应用相关,包括人脸鉴定和面部识别。由于特定领域描述符的标准化仍然处于发展阶段,所以本文重点关注可在大多数场所中应用的一般性描述符。
视觉颜色描述符
颜色是图像和视频检索中使用最广泛的视觉特征之一。颜色特征相对于背景颜色的变化更加稳定,并且与图像的大小和方位无关。颜色描述符可以描述静态的图像和视频内容。为了得出高效的颜色描述符,以此度量图像之间的相似性,专家组进行了大量的设计和试验工作,以及严格的测试。由于不存在一个适合所有应用的通用颜色描述符,所以专家组对一系列描述符进行了标准化工作,每个描述符都具备特定的相似性匹配功能。以下将简单介绍每一个描述符。
颜色空间
为了让不同颜色描述符之间能够协调合作,标准化的颜色空间仅仅局限于色调-亮度-饱和度(HSV)和色调-阴影度-浅色度-灰度(hue-min-max-diff,HMMD)两种类型。HSV是使用最为广泛的的颜色空间,如采用色调、色度和亮度对图象颜色进行描述;HMMD是一个由MPEG定义的新颜色空间,仅用于颜色结构描述符(color-structure descriptor,CSD)。
可缩放的颜色描述符(SCD)
颜色特征最基本的描述之一是描述图像中的颜色分布。如果颜色分布是基于整个图像而获得的,那么它就可以用于描述全局颜色特征。MPEG-7采用Haar(转换法)对HSV颜色空间直方图进行编码,并将HSV颜色空间量化为255个单元。为了达到一种精细的表现效果,直方图并非被均匀地量化,每直方图大致的颜色分布仅为16比特,而在一些高端应用场所则可达到每直方图1000比特。SCD(Scalable Color Descriptor)的实现可利用不同的变换尺度和对变换后系数采用的不同量化率获得,而且,随着描述比特数的增加,检索的精确度也会随之增加。
主颜色描述符
主颜色描述符用于描述图像全局和局部的空间颜色分布情况,便于高速检索或浏览。与颜色直方图的方式相比,这种描述符表现方式更为简洁,不过,在部分应用中以牺牲图像清晰度为代价。主颜色描述符包括代表性主颜色(在指定的颜**域内精选出来的少量最具代表性的颜色)、代表色所占百分比、主颜色的空间连贯性和每个主颜色的颜色差。为了有效地计算主颜色间的差异,一般采用感知一致的CIE-LUV颜色空间。
颜色布局描述符
颜色布局描述符(Color Layout Descriptor,CLD)用来获取图象或任意形状区域的颜色空间分布。每一个区域内的颜色分布情况可用前文所提到的主要颜色描述符来描述。这是一种非常有效的描述符,利用图像索引和可视化手段进行内容过滤,以及手工绘制草图的检索。
CSD
CSD(Color Structure Descriptor)的主要目的是描述图像中的局部颜色特征,为此,它采用滑动窗口的方式扫描整个图像,统计每一个像素滑动窗口内出现的颜色种类以及颜色出现的次数,据此构建颜色直方图,并区别那些具有相似的颜色直方图,但具有不同颜色空间分布的图像。
GoF/GoP颜色描述符
通过SCD的方式,GoF(Group-of-frame)或GoP(group-of-picture)颜色描述符定义了相似帧或视频帧的代表颜色特征所需的结构。该描述符可用于图像和视频数据库检索、视频图像分组、图像与片段的匹配、类似的应用等,包含平均、中等直方图,以及基于单独帧直方图而计算出的交叉直方图。
视觉纹理描述符
纹理指的是具有同质或不同质特性的视觉图案,因图像包含多种颜色或颜色强度不同而存在。纹理是任何物体表面都具有的特性,云层、树木、砖块、头发和纺织品都不例外。它包括物体表面重要的结构信息以及物体本身与周围环境之间的联系。用恰当的纹理描述符描述图像纹理特征,则为相似性匹配和检索提供了一个强大的方法。读者可参照图3中收集的多种纹理图片,以便更清楚地了解纹理特性。另外,使用MPEG-7视觉纹理描述符时,需要注意的是,在底部的两个图像将被评定为相似的纹理,而那些与这两个图像相比纹理差异更大的则排在顶部。目前,MPEG-7已经定义了恰当的纹理描述符用于相似性检索,它既可拿来单独使用,也可以结合其他MPEG-7描述符来用。
同质纹理描述符
它描述了图像中与人类感知一致的规则性、方向性和粗糙度等纹理特性,最适合对具有同质特性纹理进行一定的描述,可用于纹理图像数据库中图像之间的相似性匹配。为了描述图像纹理特征,需要从频域内提取滤波器组输出的能量均值和标准差。
该描述符基于滤波器组,并且基于对比例和方向敏感的滤波器。通过计算频率的平均值和标准方差,可在频域内获得恰当的描述。随机变换紧随傅立叶变换之后,为降低复杂度的应用提高了一定的计算效率。为了实现纹理尺度和旋转不变的相似性匹配,频率空间被分为30个区域,这些区域在不同角度上的间隔是平均的,而弧度都为低八度,使用二维Gabor函数可过滤单个区域的特征。
非同质纹理描述符
与颜色布局描述符类似,为了描述非同质纹理图像,MPEG-7的边缘直方图(Edge Histogram,也叫非同质纹理描述符)抓住了边缘的空间分布信息。首先,它将图像划分成16个互不重叠的同等大小的矩形区域,随后计算每个矩形区域的边缘信息,将每个区域分别按水平、垂直、45 度、135度的角度和一个无方向性五类进行边缘信息统计,以五个一单元的直方图表示,每个图像区域都有一个直方图。此描述具有尺度不变性,支持纹理旋转和旋转不变的匹配。同时,它还是一个非常紧凑的描述符,因为每个直方图单元以3比特大小被不均匀量化,再生成一个240比特大小的描述符。
视觉形状描述符
形状也是描述图像内容的重要手段,在没有颜色和纹理信息的情况下,形状尤为相似性匹配提供了有力的视觉线索。典型的应用包括带手写字符的二进制图像、商标、已分割好的物体形状、二维或三维虚拟物体轮廓等。在图像检索过程中,通常要求形状描述符相对于尺度、旋转和平移保持不变。形状顺其自然,根据具体的应用而定,可以是二维或三维的。
一般来说,二维形状描述可以分为基于轮廓和区域的两类。前者仅仅包括目标的边缘信息,用于描述具有类似轮廓特征的相似性匹配;后者则从整个形状区域内提取一个有意义的特征,这在描述具有类似像素空间分布的物体时最有用。根据具体应用或目标特征采用基于区域或轮廓的描述,以下介绍了MPEG-7视觉形状描述符。
3D形状描述符――形状频谱
MPEG-7三维形状描述符可用于相对自然的或虚拟的三维目标。该描述符基于形状频谱(Shape Spectrum)的概念,粗略地说,形状频谱可看成形状索引的直方图,以计算整个三维表面为基础。形状索引本身则可测量每局部区域三维表面的局部凸面,使用100个单元的(每一单元为12比特)直方图。
基于区域的描述符――ART
MPEG-7基于区域的描述符ART(Angular Radial Transformation)属于形状描述中的矩不变(moment-invariant)方式,适用于那些用区域描述(而非轮廓描述)即可达到最佳效果的形状。矩不变的主要观点是:用于区域形状识别的几何特征不因变换而改变。
MPEG-7 ART描述符在极坐标的单位圆面上采用角度变换(Angular Radial Transformation)来获得矩不变量,量化ART基函数的系数作为描述特征,并用于匹配。它也是一种非常紧凑、有效的描述方式,并具备分割噪声的功能。
基于轮廓的形状描述符
如果目标的形状特征能够以轮廓信息来表示,则MPEG-7基于轮廓的描述符是最佳选择。该描述符采用曲率尺度空间(CCS)的轮廓表现方式,包括原始的离心率和圆环值,以及过滤的轮廓。CCS索引可以用于相似性匹配,并指出大部分最高点的高度,以及CSS图像中其他点的水平和垂直位置。
每部分轮廓的描述符平均大小是122比特,这与基于轮廓的形状描述符迥然不同。一般来说,三维目标形状大致可由有限的二维形状来描述,这些二维形状是从不同角度所拍摄的二维镜头。因此,MPEG-7二维形状描述符可以描述拍自三维目标的所有二维形状。而三维目标之间的相似性匹配,包括了每个目标的多对二维形状的相似性匹配。总而言之,使用MPEG-7基于轮廓的二维形状描述符,已经被证实可在三维形状描述中获得良好的效果。
视频的运动描述符
上述的所有关于颜色、纹理、形状的MPEG-7描述符均可用于视频序列中的图像描述。举例来说,颜色和纹理描述符经常用于临时性的视频分割,比如摄像机渐隐效果的定位。而对视频序列内运动特征的描述能够提供更具体的与内容相关的线索。一般而言,视频序列中的运动描述符如果每张图像以比特来算的话,将显得十分繁琐,即使运动矢量区是相当粗糙的。目前,MPEG-7已经开发了新的描述符,可从运动区域内捕获实质性的运动特征,并提供简明、有效
该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们。