智能分析技术原理及现状分析

传统视频监控系统只提供视频的捕获、保存、传输、显示画面等功能，而视频内容的分析识别等需要人工实现，工作量巨大且容易出错。智能监控系统是指在特定的监控区域内实时监控场景内的永久或是临时的物体，通过对视频传感器获取的信息进行智能分析来实现自动的场景理解、预测被观察目标的行为以及交互性行为。本文就视频智能分析技术的原理和现状进行介绍。

一、引言

在传统视频监控系统中，视频内容的分析识别等需要人工实现，由于劳动强度高，工作量巨大且容易出错，因此视频监控系统正朝着智能化的方向发展。新一代的智能化监控系统采用了智能视频分析技术，克服了传统监控系统人眼识别的缺陷，具备实时对监控范围内的运动目标进行检测跟踪的功能；并且把行为识别等技术引入到监控系统中，形成新的能够完全替代人为监控的智能型监控系统。

智能视频分析技术涉及到模式识别、机器视觉、人工智能、网络通信以及海量数据管理等技术。视频智能分析通常可以分为几部分：运动目标的识别、目标跟踪与行为理解。

二、智能分析技术原理

一般情况下，视频智能化分析的基本过程是从给定的视频中读取每帧图像，并对输入图像进行预处理，如滤波、灰度转换等，然后判断输入图像中是否有运动目标，接下来判断运动目标是否为监控目标，最后对该目标根据需求进行监控、跟踪或是行为理解等分析。

1、目标检测技术

运动检测(Motion Detection)。运动检测是把视频中变化的区域与背景图像精确分离出来，即正确分割出运动目标区域或轮廓，这是任何系统设计实现首先要考虑的问题，它的效果好坏或成败与否直接影响后续的跟踪和行为理解等后期处理效果。

目标检测是从图像序列中将变化区域从背景图像中提取出来，从而检测出运动的目标，目标检测十分重要，它将影响目标对象的分类、行为识别等后期处理。目标检测分析多个差图像中区域之间的关系，并在原图像中验证，得到运动的目标和其运动轨迹。比如，如果已经知道3个不同时刻的二值差图像，若存在一个运动目标的话，该目标在这3个差图像中的大小基本不变，其运动方向和运动速度基本不变，在3个差图像对应的原图像中的区域，有基本相同的灰度分布等等。几种常用的动态视频目标检测方法简介如下：

背景减除，背景减除（Background Subtraction）方法是目前运动检测中最常用的一种方法，它是利用当前图像与背景图像的差分来检测出运动目标的一种技术。它一般能够提供相对来说比较全面的运动目标的特征数据，但对于动态场景的变化，如光线照射情况和外来无关事件的干扰等也特别敏感。由于该模型是固定的，一旦建立之后，对于该场景图像所发生的任何变化都比较敏感，比如阳光照射方向，影子，树叶随风摇动等。

时间差分，时间差分（Temporal Difference 又称相邻帧差）方法充分利用了视频图像的特征，从连续得到的视频流中提取所需要的动态目标信息。在一般情况下采集的视频图像，若仔细对比相邻两帧，可以发现其中大部分的背景像素均保持不变。只有在有前景移动目标的部分相邻帧的像素差异比较大。时间差分方法就是利用相邻帧图像的相减来提取出前景移动目标的信息的。

但在目标运动缓慢时，差分后的运动目标区域内会产生空洞，从而不能完全提取出所有相关的特征像素点，一般不能够完整地分割运动对像，不利于进行相关分析，因此差分法很少被单独使用。

光流，基于光流方法（Optical Flow）的运动检测采用了运动目标随时间变化的光流特性，如Meyer 等通过计算位移向量光流场来初始化基于轮廓的跟踪算法，从而有效地提取和跟踪运动目标。该方法的优点是在所摄场所运动存在的前提下也能检测出独立的运动目标。然而大多数的光流计算方法相当复杂，且抗噪性能差，如果没有特别的硬件装置则不能被应用于全帧视频流的实时处理。

2、目标跟踪技术

目标跟踪(Object Tracking)就是通过对摄像头采集到的图象序列进行计算分析，计算出目标在每帧图像上的二维位置坐标，并根据不同的特征值，将图像序列中不同帧中同一运动目标关联起来，得到各个运动目标完整的运动轨迹，也就是在连续的视频序列建立运动目标的对应关系。

可采用Mean Shift算法和Particle Filter算法实现目标跟踪。

Mean Shift算法本质上是最优化理论中的最速下降法（亦称梯度下降法，牛顿法等），即沿着梯度下降方法寻找目标函数的极值。在跟踪中，就是为了寻找到相似度值最大的候选目标位置。

Mean Shift方法就是沿着概率密度的梯度方向进行迭代移动，最终达到密度分布的最值位置。其迭代过程本质上是最速下降法，下降方向为一阶梯度方向，步长为固定值。但是，Mean Shift没有直接求取下降方向和步长，它通过模型的相似度匹配函数的一阶Talor展开式进行近似，直接推到迭代的下一个位置。由此，沿着梯度方向不断迭代收敛到目标相似度概率目标分布的局部极大值。

Mean Shift算法在目标运动过快或背景过于复杂时，迭代寻找的局部极值并不是目标在下一帧中的最佳匹配位置。另外，Mean Shift作为最速下降法的一种，它的收敛速度并不快，且在接近最优值时，存在锯齿现象。

Particle Filter算法本质上是蒙特卡罗仿真，即通过采样粒子来近似描述概率密度分布。跟踪中，不可能求取下一帧中所有位置的相似度，即无法获取相似度概率密度分布。而Particle Filter就是通过粒子采样来近似描述这样的分布，有了该分布就可以获取目标的相似度最大位置。一般是根据粒子自身的匹配程度来确定概率密度的最值。Particle Filter没有迭代过程，它通过播散大量的粒子，通过这些粒子来获取最值位置。另外，因为粒子采样是遍布整个相似度概率密度空间的，故其具有全局最优性。

还可以使用如基于塔型结构的匹配跟踪、多子模板匹配、Kalman 滤波器、光流法等方法实现目标跟踪。

3、行为识别技术

行为识别(Behavior Understanding)是近年来被广泛关注的研究热点，它是指对目标的运动模式进行分析和识别，并用自然语言等加以描述。同目标识别与跟踪技术相比，行为动作识别技术是监控领域的较高研究层次，在计算机视觉中是一个极具有吸引力及挑战性的课题。是近年来计算机视觉领域和智能监控领域研究的热点也是难点，但仍处于未成熟的初级阶段。目前的视频智能监控系统中，尽管对于一些动作细节还不能做到准确识别，但是已经能够识别出物体的整体行为，比如可以识别物体的形状、颜色、体积、运动轨迹、运动速度、速度变化等，对这些数据进行进一步挖掘和分析就能够实现监控领域的一些特定需求，可以应用在禁区报警、数量统计、医疗监护以及环境检测等领域。

在视频行为动作识别中，通常是预先规定好若干动作类型（此过程由目标数据库所决定），然后，利用数据库的训练样本对各种动作类型进行特征建模，在必要的时候还要加入训练的部分，构成一个动作模型库。也可以使用自然语言描述人的行为，实现对行为的识别和理解，近几年，更多研究者倾向于使用语义描述来分析人体动作行为，此方面的研究得到了一定的进展。自然语言描述的核心思想是：模仿人类语言的表达方式，通过有限的词汇的不同组合来表示具有不同意义的句子、段落与文章。在行为分析与理解领域中，可以把某个的图像看成是一个视觉词汇，或叫做视觉单词，把视觉词汇进行组合就可以得到视频的自然语言描述，由于不同行为有不同的描述，因此可以通过不同描述来区分不同的行为。

行为理解的推理中广泛采用了基于图像模型的推理方法，如隐马尔科夫模型(HMM) ，动态贝叶斯网络(DBN) ，条件随机场(CRF)等；也有的研究采用其他的推理方法，如使用基于规则的决策树来对一系列表示动作及对象的三元表达式进行分类；采用模板匹配的方法，将检测到的运动特征与训练好的样本逐个匹配，匹配的结果即为对行为识别的结果；还可以使用有限状态自动机，每个状态表示当前人体的位置，来对人的轨迹进行分类，识别异常事件。

三、智能视频分析技术现状

近年来，研究者在智能化监控技术的运动检测、目标跟踪、视频分割、行为识别等领域进行了很多研究并取得了很多成果。智能视频监控系统正成为学术界、工业界新兴的研究热点和开发方向，美国、英国和法国等研究机构都进行了智能监控项目中的目标跟踪、异常行为监测与报警等的研究。许多业界知名公司也对智能监控进行了深入的研究，如Intel、 Microsoft、IBM等；国内很多大学与研究机构也开展了视频智能分析理解研究。

目前智能视频分析技术在各种视频监控领域都有应用，并取得了比较好的监控效果，天地伟业在智能交通、智慧城市、公安监所、金融等很多行业和领域都应用了自己的视频分析技术，取得了很好的市场业绩。

1、智能交通：智能交通监控系统作为智能交通系统的一个组成部分，在保证城市交通安全、畅通方面发挥着巨大的作用。可以作为了解交通状况和治安状况的一个窗口，是公安交通指挥系统不可缺少的子系统。建立视频图像监控系统目的就是及时准确地掌握所监视路口、路段周围的车辆、行人的流量、交通治安情况等。附图是我司针对道路监控开发的交通事件智能检测系统截图，该系统通过对道路监控视频的实时分析，可以实现车辆停驶、车辆慢行、车辆超速、车辆逆行、交通拥堵和抛洒物等事件检测，同时可以实现车辆间距、队列长度、车辆平均速度、车道占有率和车流量统计等路况信息数据的统计。

2、智能楼宇监控

通过对楼宇大厦的各个出入口，大厅、大堂、电梯轿厢、通道、停车场等主要部位的智能监控，可以对大楼出入人员进行有效的监测从而保证大楼内部的人员和财产的安全。通过对停车场的智能监控，可以识别车牌号码，对人为对车辆以及设施的破坏进行及时报警。附图分别是常用的行人运动轨迹的检测、物品遗留丢失检测及运动车辆检测跟踪等智能分析功能。

3、医疗看护

通过对病人行为的识别，及时判断病人的实时状况，预防危急情况的发生。

4、异常行为识别

通过对人员行为的分析，可以预警出异常行为，防范危险情况的发生。例如对监狱关押人员的异常行为如打架等进行自动识别并报警。

5、特殊场景识别

例如，通过对某企业上方的烟雾识别，可以判断该企业的废气排放是否超标；通过对森林、林场等地方的烟火识别，可以及时发现森林火险并报警，防止火势扩大。

四、总结和展望

智能监控系统是采用图像处理、模式识别和计算机视觉技术，通过在监控系统中增加智能视频分析模块，借助计算机强大的数据处理能力过滤掉视频画面无用的或干扰信息、自动识别不同物体，分析抽取视频源中关键有用信息，快速准确的定位事故现场，判断监控画面中的异常情况，并以最快和最佳的方式发出警报或触发其它动作，从而有效进行事前预警，事中处理，事后及时取证的全自动、全天候、实时监控的智能系统。

智能视频分析技术目前已经取得了很大进展，现在已经能够进行各种领域的视频智能分析，例如：监狱管理、智能交通、森林防火、金融安全、校园安全等。但鉴于实际应用场景中现场的复杂性，智能视频分析技术也存在诸多难以克服的问题和限制，如光照变化无常、阴影干扰、待检测目标被遮挡、目标与背景颜色相近、背景杂乱、前景目标与背景的相互转换等因素都会增加智能分析算法的设计难度，目前的智能视频分析技术在处理复杂场景时一些误报和漏报往往难以避免。另外现有的智能视频分析技术对场景的依赖性往往都比较强，尚没有能够完美适应所有场景的智能分析算法，这也是视频分析技术将来不断追求和发展的方向。

【作者单位：天地伟业数码科技有限公司】