近年来,收集到的图像视频信息以海量增长,人们可利用的信息量非常庞大,而且,每一天都有十亿字节的新视觉信息产生、需要储存和被传输。因此,人们想快速访问所需要的视觉信息仍然感到很麻烦――除非将它们以科学合理的方式组织汇集起来,从而实现有效的浏览、检索与回放。自从二十世纪70年代早期以来,如何实现图像信息的快速检索就已经成为一个十分热门的研发项目。
概述
20世纪90年代早期,随着数字视频技术的问世,视频回放检索的研究也日益受到重视。那时,最流行的图像或视频检索方式是利用文字对图像或视频进行注释,再基于文本数据库管理系统检索图像。不过,在处理大量的视频图像时,这种文字注释的方式明显存在缺陷。因为这样的话,注释将成为繁琐的、劳动强度相当高的工作,而且,在许多场合中,有限的文字显然难以完整描述丰富多彩的图像内容。
为了攻克这些难题, 90年代初出现了一种前景无限的描述内容的图像检索方式。它首先是基于图像内容,再利用颜色、纹理、形状等视觉信息,而不是文字来描述图像。到了90年代晚期,随着数字化图像技术的大规模采用,来自不同供应商的图像检索系统之间有必要实现交互作用。为此,ISO MPEG标准化小组于1997年启动了关于MPEG-7多媒体描述语言的工作项目,旨在发布一套国际性的MPEG-7标准,明确定义标准的描述和描述系统,从而方便用户或客户搜索、识别、过滤和浏览各种视听内容。然而,标准化之路漫长,直到2001年7月,MPEG-7才成熟并正式成为国际性标准。它除了支持视听内容的元数据和文字描述之外,还明确定义内容的描述和检索规则。
应用范围
MPEG-7标准的最终目标是为流动或存储的多媒体内容提供标准化的描述――低阶的特征描述符,帮助用户识别、归类和过滤图像或视频。这些低阶描述符完全是基于内容的非文本视觉描述,可用于比较、过滤或浏览图像或(和)视频,或者,如果必要的话,也可结合普通的文本查询方式。正因为这种描述性特征,开发MPEG-7视觉非文本描述符时遇到一个挑战,那就是在对不同的应用场合进行描述时,它们都必须是有效的;而且在不同的应用领域和应用环境下,它们也将随之变化。
以下用具体事例说明,如数字图书馆(图像和视频目录检索),广播媒体选择(TV频道)和多媒体编辑(个性化电子新闻服务和媒体创作)。在这些丰富多样的应用中,MPEG-7 视觉特征描述符允许用户或客户执行以下操作:
.图形:在屏幕上画几条线,获取一些包含类似图形或标识的图像;
.图像:定义目标,包括色标或纹理,获取一些示例图像,用户可从中挑选自己感兴趣的;
.视频:在指定的一批视频目标中,定义目标动作、摄像机运动或目标之间的联系,以获取一些时空联系相似或不同的视频图像;
.视频动作:在一个指定的视频内容中,描述动作以获得具有类似动作行为的视频图像。
MPEG-7视觉描述符是基于视觉信息描述多媒体视听内容。例如,描述图像和视频内容的话,可能通过定义目标形状、大小、纹理、颜色、运动和摄像机的移动等来实现,但描述符必须从图像或视频内容中提取。值得注意的是,MPEG-7描述符数据可能位于相关的AV材料中,或在同一数据流、又或同一存储系统中。
不过,只要能有效地与AV材料和MPEG-7描述连接,描述符也可以存在于其他任何地方。如果MPEG-7描述符可用,就可以借助匹配的搜索引擎基于相似特征来搜索、过滤或浏览视觉材料。必须说明的是,实际上搜索引擎可能需要根据视觉描述符――颜色和纹理,结合普通的文本查询方式检索到相匹配的内容。
为此,MPEG-7定义了一套关于描述合理结合的描述方案,读者可以参考文献资料,以更加透彻、全面地了解MPEG-7标准的各部分内容以及它们在整个MPEG-7体系中所扮演的角色。在一个典型的应用场景中,描述符都是从该场景内容中提取(产生)而来。
当然,MPEG-7标准仅仅规定了如何提取大部分的视觉描述符,而并非全部,因此在实际应用中灵活性很大。理解这一点是很重要的,MPEG-7视觉标准规定的提取过程并非完全标准,但是,根据标准化的要求,描述符的语义和语法必须与MPEG-7规定相符,而且必须与MPEG-7标准兼容。惟有如此,描述符才可以被应用程序访问、理解和使用,这些应用程序也才能对MPEG-7特征进行解码和处理。
另外,MPEG-7标准并未对描述符如何的进一步处理――内容的搜索和过滤进行具体规定,也给实际应用操作留出了最大的灵活性。而且,如何定义图像或视频之间的相似性也未规定,这也是为了满足不同的应用需要。
发展情况
MPEG是在一个定义明确、标准的框架中逐渐完善的。当初在进行标准化工作的时候,MPEG内部的意见一致,并主要遵循以下步骤:规定技术的具体要求,通过官方征集技术提案,并由MPEG专家根据预定的性能标准对提案进行评估;确定最佳技术方案之后,再通过一个实验模型进行一系列核心实验,由多方努力协作补充完善MPEG标准。这个流程在MPEG-1、MPEG-2 和 MPEG-4标准的开发过程中早已被证明是成功的。
MPEG-7实验模型(XM)的目的是规范并试验特征提取、编码和解码算法,包括搜索引擎。这样还便于在一个普通的可操控的环境中进行核心试验,尽管实验由多个组织独立进行,但仍然可以产生相同的结果。XM规定了未编码数据的输入输出格式、描述符的提取方式、以及数据比特流的格式。它还规范了解码算法,并定义了合适的算法以区分同一类型描述符所描述的内容。XM在标准定义完成之后仍然具备并提供这种功能。
进行核心实验的目的是改善当前XM的技术,试验中的通用核心算法同样遵照了XM的定义。核心试验提案解释了一个有潜力的XM–纹理描述符算法的先进之处,它与XM中所下的定义不同。此外,提取出的完整描述、搜索法则、以及符合实验条件的图像数据集或供试验用的相似性测量方法都可能与XM的性能不符。
如果相互独立的两方承诺进行试验,就可由MPEG视频小组组织一个核心试验。如果某个核心试验成功地改善了XM中的描述技巧――可从检索效率、提供XM不支持的功能以及成功实现技术的复杂度等方面进行,那么这些技巧将被融合到最新的XM版本中。它们可能取代一种现有的技术,也可能是作为对XM已支持算法的补充。核心试验由两个MPEG视频小组同时进行,任何一个MPEG视频小组的实验结果都将被考评,再根据考评结果相应地更新XM,并发布一个XM的新版本。
1998年,MPEG小组对关于颜色、纹理、形状、轮廓和运动描述符的不同提案进行了性能评估;其中被公认最有前景的提案为第一个视觉XM所采用。此后的会议中,通过引入更精致和有前景的新算法,在进行核心试验过程中第一批被采纳的提案得到了改善。这个过程一直持续到2001年早期,这些描述符才被证明成功,并最终为MPEG-7视觉标准所采纳。
该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们。