人工智能也可输出视频“观后感”:增加时间尺度建模

打开一些视频网站,用户经常可以看到与自身历史浏览痕迹相关的视频推荐,或者“以视频搜索视频”的内容搜索功能,这其中首先涉及到的技术其实就是视频的行为识别。通俗而言,就是给正在运行的程序一段视频,让它告诉你“里面发生了什么”。

【安防在线 www.anfang.cn】

来源:中国科学报

“对视频的智能理解是人工智能的最大战场。”说出这一观点的上海交通大学教授倪冰冰坦言这一说法“不会有多少人有反对意见”。作为深耕计算机视觉中智能视频分析的专家,他甚至愿意称之为人工智能的“体量之最”。

人工智能也可输出视频“观后感”:增加时间尺度建模

这一称呼不无道理。在近日召开的全球科技青年论坛上,倪冰冰将其中的“简单道理”娓娓道来,“人类每天接触到的‘听说读写’信息里有70%实际上是视觉信息。而在信息领域,大多数的信息也是视频图片数据。”

“体量之最”当然还包括视频智能识别的“计算量之巨”。

“全世界每秒钟传到Youtube的视频要达到几千个小时。”倪冰冰表示,即使使用现在流行的神经网络、深度学习技术,加上高性能硬件设备,计算时间之久也超乎想象。

“视频一直被视为计算机视觉里的暗物质。”谷歌云人工智能和机器学习前首席科学家李飞飞曾如是说。即便如此,科学家及互联网公司对视频智能理解技术的“征服欲”也没有减退之意,纷纷投入巨大的财力物力人力去攻坚克难,IBM、谷歌都曾为视频智能理解的深入研究发布视频数据集,脸书CEO扎克伯格在最新一季财报分析师沟通会上透露,视频识别已成为旗下视频在线产品、VR产品的核心竞争力之一。

因何具有如此动力?倪冰冰一语道破其中缘由:智能视频理解技术在安防监控、自动驾驶,以及在社交媒体短视频、直播里,都是最核心的技术。

而随着视频在人们生活中所占的分量越来越重,视频智能理解技术有了越来越深厚的现实基础。经过过去数年的努力,视频智能理解研究领域已经有了一些突破式进展,变得更具有实际应用价值。

增加时间尺度建模

打开一些视频网站,用户经常可以看到与自身历史浏览痕迹相关的视频推荐,或者“以视频搜索视频”的内容搜索功能,这其中首先涉及到的技术其实就是视频的行为识别。通俗而言,就是给正在运行的程序一段视频,让它告诉你“里面发生了什么”。

识别智能理解技术的研发过程并不像描述起来这么简单,其面临的技术挑战巨大。除了视频体量,视频的质量、视频内容中有效信息的数量也都是很大的技术难题。

以安防领域的视频数据为例,倪冰冰解释道,摄像头的视频质量有时候比较差,人动一下会有些模糊,使得技术对所捕捉到的动作的理解变得非常困难;另外,不同的人做同样动作的样式非常不同,“有人快有人慢”,这也造成智能理解的难点;不同位置的物体在视频中的尺寸相异,要把“大的东西、小的东西”同时“抓”出来是很有难度的。

倪冰冰所在的团队提出了时序金字塔算法,该算法通过对时间轴进行分尺度建模,使不同尺度的数据特征都能得到很好的表达。

“我们又配合流行的深度学习里的LSTM(长短期记忆网络)、深度递归网络,使得不同尺度的信息在不同时间进行流动,最后达到很好的识别效果。”倪冰冰进一步阐释道。

这一研究在由谷歌、斯坦福等国际顶尖人工智能研究机构主办的THUMOS行为检测国际竞赛中,获得视频检测小组国际第一名。

“找人”不再是难题

“找人”是理解视频中行为的关键所在。在计算机视觉领域中,“找人”行为的专业术语叫做“行人重识别”,专指利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。

而在人工智能产业化的过程中,“找人”也恰恰是视频智能理解可以快速投入的应用场景的形象描述。倪冰冰讲述道,“如果我们能把人和人在不同摄像头下的影像追踪起来的话,就可以得到这个人在整个时间轴和空间轴上的分布,这可以实现很多的应用,比如找到一些非常敏感的人物。”

过去,倪冰冰团队在进行视频行为里的行人重识别时,通常利用单帧信息,比如在某个时间点上选一帧图像与旁边的其他帧图像进行比对,但这样的做法存在一定的问题。

“我们发现单帧图像的信息是丢失的,摄像头所拍摄的是行为人整个‘动’的过程,取得单帧的话,整个‘动’的行为就损失掉了。”倪冰冰说。

另外,利用单帧图片信息很有可能会遇到一些特殊姿势、遮挡、运动的模糊等问题。对此,倪冰冰团队提出的一个方法使得识别技术能够对整个视频进行时序上的个人信息加以汇总,形成定量表征,从而使行人重识别的性能达到最优。

基于多角度摄像机的3D定位跟踪模块是当前业界比较新的技术。倪冰冰表示,过去,单个相机对人在2D场景进行定位,现在,技术可以在相机和相机之间形成匹配,用重识别以及跟踪技术可以在3D空间里对人进行追踪,对人的动态过程进行画像。

“这些技术产生了很多应用,新零售、智能零售系统就是很好的例子。”倪冰冰自豪地说道,“新零售里,无非是有多少人进入我的商店、多少男生多少女生、什么年龄段、他们在哪个商品面前停留了多少时间,这些通过技术都可以解决。”

倪冰冰表示,抓到这些数据之后,可以反映在大数据端,有了客流分析、轨迹、略读图的数据,店家就能够对行销展开布局,对行销策略做一定的改变和优化。

在小型终端运行

“用深度学习网络进行视频智能分析所需的网络是很大的,它的参数量非常多,甚至超过几十、几百兆。”倪冰冰表示,以这样大的网络去做视频分析,显然使用时间是非常久的,但新一代人工智能希望很多智能的工作在端上进行,比如手机、平板电脑等,而如此大的模型显然无法在一个小的运算设备上进行运算。

针对这个问题,倪冰冰团队对网络进行了二值残差定量的简化,使得过去用浮点数表达的网络,用现在的二进制数据网络来表达,这使得整合各个模型的过程变得简单,计算变得更加高效。

“有了这个技术之后,实际上,很多原来一定要在‘云’上、在服务端去做的一些人脸识别功能,现在可以在很小的手机上进行。”倪冰冰表示,“智能刷脸闸机、智能访客机以及智能门禁等有了这个网络压缩技术,都能在小型设备上运行。”

倪冰冰认为,对一个公司团队来说,从算法到技术落地还有很长的路要走,“这里面相当多的功夫用在了工程化的落地上”。对此,其团队提出的人、物检测的算法也做了工程化的努力。

“现在对人的定位有轻量级的人脸检测模块,这样,一个几兆的小模块可以在手机里运行;也有轻量级的人体骨骼检测模块,实际就是抓住人的一个动作,过去它是一个体量非常大的计算,现在,通过一些新算法和工程实践可以把它做到很小的手机模块上,而且能够达到实时运行的效果。”倪冰冰表示。

“定位了人以后要进行识别,现在在小设备上,人脸识别也能做到在百万底库下95%以上的通过率,这是非常难的一个过程。”倪冰冰说。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 佳都科技商用智能产品新品发布 用A.I.赋能智能楼宇

    6月10日,佳都科技在广州-中国进出口商品交易会展馆举办了新品发布会,本次发布会的主题为“赋能智能大楼,引领智慧体验”,佳都科技商用智能楼宇行业总监罗坚秋作了新品发布演讲。会上发布了AI Family 4款AI智能商用产品,具体为安卓人脸识别终端、户外分体人脸识别终端、访客双屏终端和排队取号机。

    2024年1月27日 资讯
  • 再也不用担心别人“模仿你的脸”库克智能新品发布并通过BCTC安全认证

    近年来,随着人脸识别等技术的突破和人脸识别应用场景的兴起,加速了人脸识别智能终端市场的“起飞”。然而,如今各种破解骗术大行其道,防不胜防,也引发了消费者各种担忧,毕竟,与数字密码不同,生物特征是人无法改变的生理特征,是人的最后防线。一旦被泄露或者非法使用,可能导致个人受到歧视或者人身、财产安全受到不测危害。

    2024年1月28日
  • 视频监控支持生物识别 人脸分析将普及

    人脸识别技术再度成为市场关注的热点,多家上市公司近期集中推出相关产品或表示正在进行技术储备及研发。高新兴公司透露,公司目前已经拥有了人脸识别产品,主要应用在金融安防领域,可以安装在atm机等设备中。川大智胜公司证代吴俊杰此前表示,公司人脸识别产品明年将会推向市场,主要面向安防领域。

    2024年4月18日
  • 汉王智远精彩亮相2017天津安防展

    汉王智远作为国内领先的人脸识别技术与方案提供商,应邀参加2017第八届中国(天津)国际智慧城市暨社会公共安全产品展览会。

    2024年4月13日 资讯
  • 安防为微博打拐提供技术支持

    人脸识别作为安防智能视频监控中的一项应用,具有非常便利的优势。因为每个人生活在社会当中,都会有一个身份属性,包括家庭,职业,社会角色等等,人脸识别在身份授权和身份确认管理中发挥了非常重要的作用。人脸识别技术大大丰富了传统视频监控的功能,使得监控系统除了可以进行监控和录像,还具有了智能化的功能,其便捷性不言而喻,也代表了监控技术智能化发展方向。通过这项技术将为微博打拐提供更实用的技术知识

    2024年7月27日
  • 汉王智远精彩亮相2017西安安博会

    5月23-25日,2017年中国(西安)国际社会公共安全产品暨警察反恐技术装备博览会在西安曲江国际会展中心隆重举办。作为国内领先的人脸识别技术与方案提供商,汉王智远应邀参加了展会。

    2024年4月13日 资讯