人工智能技术(AI)从上世纪五十年代提出以来,已经经历了七十多年的发展,但人工智能成为全社会关注的基础性技术,进而成为全球各国极为重视的关键战略发展方向,还是最近十年的事情。在这短短的十年中,人工智能技术得到了井喷式的发展,人工智能的加速演进引领着各行各业加速向智能化跃升。
现代人工智能的出现,首先从基于深度学习技术的感知智能开始,我们称为AI 1.0时代。所谓感知智能,是让机器真正具备像人一样的视觉、听觉、触觉等感知能力,这是人工智能在安防领域最为成功的落地应用,比如对感兴趣特定目标的检测与分析。另一方面,人们显然不满足于人工智能只是看到、听到和加工信息,而是希望机器能像人一样进行学习、思考和推理,这就进入了认知智能的领域。近两年来,随着大模型的兴起,人工智能技术迈向认知智能的步伐已大大加快,有了突飞猛进的发展。可以预见,AI 2.0时代会是一道分界线,2.0以下我们认为是传统深度学习模型,2.0之后,更多的大模型技术不断涌现并将逐渐成为主导。当然,AI 2.0不是人工智能技术的终点,展望未来我们希望机器能真正成为人工大脑,代替人类进行决策判断,这是我们称之为AI 3.0的决策智能时代。对现在人工智能技术来说,要达到这一顶峰还有很长的一段路要走。
现代人工智能的发展,为像科达这样的安防厂商带来了全新的活力和机遇。科达从2014年就推出了第一台感知型摄像机,代表着我们从感知智能进入了现代人工智能赛道;2017年,科达提出了“安防+AI”的战略;2020年,科达在业界率先提出了AI像素级推理、AI超微光、AIISP的概念,引领了业界技术潮流;最近这两年科达积极投入到大模型的研发当中。科达基于现代人工智能的九年技术沉淀,为公司安防产品、业务服务和解决方案带来了极大的收益,涌现了一个又一个明星产品,这些产品不仅为科达创造了经济价值,而且也保障了社会公共安全,产生了良好的社会效益。
一、AI 1.0时代:
基于深度学习的感知智能
感知智能是指将物理世界的信号通过摄像头等传感器采集设备,借助人工智能算法等前沿技术,映射到数字信息世界,将多元数据结构化,并用人类熟悉的方式去沟通和互动。这一愿望的最终实现,完全得益于十年前出现的深度学习算法,带来了我们称之为AI1.0的技术革命。
深度学习算法通过大量的数据训练来学习特征,并不断优化模型,可以处理复杂的数据结构和非线性问题,实现高精度的预测和分类。其最大的优点是无需手动设计挑选特征,只要有数据,机器自动学习目标的最佳特征,这就大大减少了机器感知过程中的人工干预,为机器实现感知智能提供了最重要的基础支撑。
在安防监控行业,最为常见的深度学习算法就是对人、车、物等感兴趣目标的分析。比如,与人相关的人像识别,与车辆相关的车辆坏损分析以及非机动车的识别和属性分析,和对其它特定物体的分析,如船舶、动物、文字等等。当前,这些基于深度学习的感知智能算法已经成为了安防领域各个应用中必不可少的工具,不仅大大减轻了人类的工作量,而且通过感知智能,机器能够比人工看得更清楚,分析得更准确。因此,AI1.0的感知智能算法在安防应用中已经占据了重要地位。
二、AI 2.0时代:
大模型驱动的认知智能
感知只是人类的基本能力之一,人们希望AI能够具备人类最重要的认知能力,为我们做更多的事情。以安防应用为例,我们不满足于AI仅仅对场景中一个感兴趣目标进行分析,而是希望机器对场景周遭环境具备一定的理解能力,也就是希望机器能具备初步的认知智能能力。
所谓认知智能,就是以人类认知体系为基础,以感知信息的深度理解和自然语言信息的深度理解为主要研究方向的技术科学。如图1所示,对于安防行业来说,这两个研究方向都有着非常直接的应用。
图1 认知智能的两个研究方向及对应的安防应用
首先,我们来看安防领域中感知信息深度理解的应用,有别于AI1.0时代对人、车、物等特定目标的分析,AI2.0在安防领域还有非常多泛监控场景应用,比如在交通、政法、城管、校园、工地等场景下的人群态势、安全事件、数据参量甚至卫生环境分析。这些应用更多的强调了场景中目标与目标、目标与周围环境的相互关系,因此需要人工智能具有一定的理解和辨识能力,我们称之为场景图像理解。一些典型的例子包括:交通事件分析,如行人穿越、障碍物检测、非法停车等;道路安全事件分析,如淹水、积雪、大雾、火焰等;市域治理类事件分析,如人员聚集、占道经营、乱丢垃圾、黑烟车等等。
通过使用传统深度学习算法来完成这些泛安防的场景理解任务是非常困难的,由于这些场景的多样性和任务的多变性,带来了数据难以采集、标注困难、标注成本高、算法泛化性能差、鲁棒性不足,算法交付时间长、可扩展性差等诸多问题。因此,AI1.0时代的感知智能算法难以用于场景的深度理解应用。
另一个在安防领域中的认知智能方向,是基于自然语言信息的行业知识理解。安防厂商向用户提供的行业解决方案必须要深刻了解行业知识,传统上这部分的行业知识是由自然语言的文字描述,并生成对应的知识图谱来进行承载。如公安知识图谱,是通过数据分析、文本语义分析等手段,抽取出公安应用中的人、物、地、机构、虚拟身份等实体,并根据其中的属性、时空、语义、特征、位置联系等建立相互关联,构建一张多维多层的关系网络。又如司法的知识图谱,则是将法律领域中的实体、属性和关系进行体系化梳理,并建立逻辑关联,通过知识图谱技术进行数据挖掘来辅助法律工作者更好地理解和应用法律知识。安防厂商往往必须要掌握相关行业的知识图谱,才能提供专业的行业解决方案。
但是,知识图谱本身的构建与应用就有非常多的挑战,难以推广。首先,需要建立高质量的知识图谱构建模式,需要定义清晰的实体和关系,使用合适的数据源和知识表示方式,这些工作都涉及到大量的人工经验操作和判断;其次,构建知识图谱需要大规模自动化知识获取,知识图谱需要大量的知识作为基础,随着知识的日益复杂,手工从知识来源中提取的方法满足不了大规模的构建需求;此外,需要持续更新迭代知识图谱,知识本身不是封闭的,而是在不断的扩展和变化,知识图谱难以处理不完整或是动态变化的知识。这些知识图谱构建和应用的困难,意味着需要找到一种新的让机器理解知识的方法。显然,这超出了感知智能的领域范畴。
可见,对于认知智能在安防应用中的两个深度理解方向,AI1.0的算法已经力不从心了,那么我们的对策是什么呢?这就是GPT大模型。所谓GPT大模型,是指基于Transformer架构的(GPT的‘T’)生成模型(GPT的‘G’),是通过极大量的语料或者图像进行预训练(GPT的‘P’)的一个极大量参数的大模型(例如OpenAI的GPT-4大模型,有近万亿参数)。苏州科达(603660)经过努力研发,推出了适用于安防行业的KD-GPT,其中包含了三类大模型,分别是:多模态大模型、行业大模型和AIGC图像大模型,如图2所示。
图2 科达大模型KD-GPT GPT作为生成式的AI模型有非常多的优点,其中最基本的优点有以下2点:首先,大模型是多任务的。以前的深度学习模型,一个模型对应一个任务,而现在大模型则是一个模型可以应对多个下游任务;其次,得益于Transformer的结构特性,大模型在本质上已经具备了信息的检索和信息理解能力,这也是传统深度学习模型不具备的特征。
KD-GPT的多模态大模型(见图3),以多种模态的信息为输入,在模型内部将信息进行融合,可以解决所有数据难问题。比如我们要检测一幅图片中是否有烟雾出现,我们只要输入提示语:“烟雾”和待检测的图片,大模型就可以直接输出检测结果,而无需采集成千上万张的烟雾图片进行训练。同样,如果替换文字输入为“火焰”,则大模型无需专门的数据训练就可以自动检测图片中是否出现火焰。
图3 科达多模态大模型
KD-GPT的行业大模型(见图4)采用了“通用大模型+行业数据+训练调优”的思路,使得这个大模型可以轻松解决原来构建行业知识图谱需要完成的若干任务,在做好知识推理和质量评估之后,行业大模型就可以完全替代行业知识图谱的功能。
图4 科达行业大模型
科达的另一类大模型AIGC图像大模型,还可以为人工智能算法生成大量的训练数据。
三、AI3.0时代:
未来的决策智能
从认知智能到决策智能,需要在数据、学习、多模态数据处理、决策树模型和个性化算法等方面取得重要进展。这些进展将会助力社会全智能化时代的到来。
大模型是实现决策智能的重要工具之一,因为它们具有高效的数据处理能力和强大的特征工程能力,可以这么说,有了大模型人们才真正看到了决策智能,看到了机器变为人工大脑的曙光。
但是,我们也必须正视大模型还存在的若干问题:
1.公正性
大模型是建立在对大量数据的预训练,以及不断调整的提升训练基础之上的,如何才能保证大模型不被预训练数据和提升带偏?
要保证大模型的公正性就要求我们使用多个来源的数据进行预训练,可以避免模型过于依赖某一类数据,从而提高模型的泛化能力。同时对于选择的训练数据,需要投入人工进行清洗和标注,以保证数据的质量和可靠性。
2.透明性
大模型本质上还是神经网络,而神经网络的透明性、可解释性仍然没有得到有效解决。如何对模型的决策过程进行评估和监督?
对于大模型和神经网络这个难题,学术界一直在积极研究之中,如可以通过训练一个辅助模型来评估主模型的性能。如对大模型的每一层输出进行细致的可视化分析,寻找其中的规律共性等等。
3.普惠性
无论是训练还是部署,大模型的成本都是很高的,对于像科达这样的安防公司怎么做大模型?对于科达不同体量的大小客户,怎样才能得到人人可用的大模型?
要想降低大模型的使用成本,对于每个企业和用户单体来说,要考虑使用预训练模型、选择合适的模型架构、利用分布式计算等等。更重要的是,政府、企业和社会各方面要协同合作,通过建设算力基础设施、打造算力服务平台、建立算力共享机制、推进大模型技术研发和制定大模型鼓励政策等多种方式,让更多的人和企业能够方便地获取和使用大模型算力资源,这需要全社会的共同努力。
4.友善性
如何避免大模型提供所谓的邪恶信息(如教唆犯罪),又如何保护人类的知识产权或是大模型的知识产权,不被其它大模型窃取和侵犯?
在设计和使用大模型时,我们首先应该遵循道德和法律规范,以避免对社会和个人造成不良后果。当前,国家已经初步制定和出台了生成式AI相关法律和政策,规范生成式AI的研发和使用,限制大模型的使用范围和方式,防止其被滥用和侵犯他人权益,确保其符合社会公共利益。另一方面,尊重和保护知识产权也是大模型发展的基础,国家应该加强对大模型的知识产权保护,激励创新和技术进步。
综上所述,虽然大模型的出现被称之为AI的第二次革命,但在技术成熟度的曲线上,大模型到达成熟期还有很远距离。不仅如此,安防领域要实现真正的决策智能,大模型也不会是唯一的关键技术,还需要人工智能持续进行创新性发展,是一个任重道远的征途。
四、结语
随着科技的飞速发展,技术变革已经成为了推动安防行业进步的重要力量。从模拟到数字,从标清到高清,从有线到5G,从功能到智能,每一次技术变革都给安防行业带来全新的巨大的增长。可以预见,随着技术的不断发展,安防行业仍然具有充足的动力和广阔的未来。我们应该积极拥抱包括人工智能在内的各项技术变革,充分利用新技术的优势,提高安防工作的效率和质量,共同促进社会的和谐与稳定。苏州科达愿与领域友商同行,以及上下游企业一起努力,为安防行业的明天共同奋斗!
该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们。