生成式AI作为当前人工智能的前沿领域,成为全球最热的科技话题。2022年OpenAI发布ChatGPT,生成式AI在模型应用层面实现重要突破,仅两个月突破1亿月度活跃用户数,成为史上用户增长速度最快的消费级应用。全球多家科技企业加大在生成式AI领域的研发投入力度,不断在技术、产品及应用等方面推出重要成果,持续推动人工智能的创新与商业化落地进程,也将带动产业链相关企业快速发展。
在此背景下,在中国互联网协会、中国软件行业协会指导下,天津市人工智能学会、至顶科技、至顶智库联合发布《2023年全球生成式AI产业研究报告》,该报告从全球视角出发,对生成式AI的产业概况、基础设施、算法模型、场景应用、机遇挑战等方面进行梳理,全面展现生成式AI的产业发展情况,为政府部门、行业从业者、教育工作者以及社会公众更好了解生成式AI提供参考。
生成式AI产业概况篇
1.1 生成式AI概念及内容生成阶段
生成式人工智能(Generative AI)是在专业生成内容(PGC)、用户生成内容(UGC)之后,利用人工智能技术自动生成内容的新型生产方式。
生成式AI基于海量训练数据和大规模预训练模型,自动生成创建文本、音频、图像、视频以及跨模态信息。
自2022年OpenAI发布ChatGPT以来,全球爆发生成式AI热潮,诸多科技类企业纷纷推出生成式AI模型、产品和相关底层基础设施及服务。
近年全球数据规模持续增长,IDC预计到2025年全球数据规模将达到175ZB,为人工智能模型训练提供海量数据资源;高性能AI芯片的推出为大规模预训练模型提供重要算力支撑;伴随技术的不断发展,Transformer、BERT、LaMDA、ChatGPT等模型实现快速迭代优化。在数据、算力和模型的共同推动下,全球生成式AI产业得以迅速发展,相关场景应用也不断丰富。
生成式AI基础设施篇
2.1 AI高性能芯片为生成式AI训练提供算力支撑
人工智能的发展从深度学习时代进入到大模型时代,大规模预训练模型的参数量呈现指数级上升,需要高性能算力的支撑。
目前,大规模预训练模型训练算力是以往的10到100倍,当前主流生成式AI模型的训练广泛使用到英伟达Tensor Core GPU芯片,如微软斥资数亿美元购买数万颗英伟达A100芯片以帮助Open AI打造ChatGPT。
AI计算集群能够提供大规模算力、持续提高算力资源利用率、提升数据存储和处理能力,加速AI大模型训练和推理效率。
当前较为典型的AI计算集群如英伟达DGX SuperPOD、百度智能云高性能计算集群EHC、腾讯新一代高性能计算集群HCC等,相关算力基础设施持续为生成式AI训练场景提供强大算力资源,进一步降低模型训练门槛和成本,推动生成式AI模型的落地进程。
人工智能预训练模型的开发对于云服务有较大需求,AI云服务可以提供人工智能开发模块,通过多元化的服务模式,降低开发者的开发成本和产品开发周期,为模型开发提供AI赋能。
典型案例如亚马逊SageMaker,其可提供图片/图像分析、语音处理、自然语言理解等相关服务,使用者无需了解参数和算法即可实现功能的应用。
百度飞桨EasyDL零门槛AI开发平台提供图像分类、物体检测、文本分类、声音分类和视频分类等功能,实现一站式自动化训练,降低AI定制开发门槛。
生成式AI算法模型篇
3.1 全球生成式AI模型发展历程
2018年以来,OpenAI先后发布GPT-1、GPT-2、GPT-3、ChatGPT、GPT-4等一系列生成式预训练模型。
GPT-1模型基于Transformer架构,仅保留架构中解码器部分;
GPT-2模型取消GPT-1中的有监督微调阶段;
GPT-3模型舍弃GPT-2的zero-shot,采用few-shot对于特定任务给予少量样例;ChatGPT通过采用RLHF(人类反馈强化学习)技术,增强对模型输出结果的调节能力;
2023年发布的GPT-4模型拥有更为强大的多模态能力,其支持图文多模态输入并生成应答文字,可实现对视觉元素的分类、分析和隐含语义提取,表现出优秀的应答能力。
2017年,Google发布具有标志性意义的Transformer模型,该模型的解码模块成为GPT模型的核心要素,通过引入注意力机制,可实现更大规模的并行计算,明显减少模型的训练时间,使得大规模AI模型得以应用。BERT模型、LaMDA模型在信息提取能力以及安全性等方面不断提升。
最新推出的PaLM-E模型具有很强的泛化和迁移能力,在完成视觉语言和通用语言任务的同时,可处理多模态数据(语言、视觉、触觉等),实现指导机器人完成相应任务的功能。
Diffusion Model相关研究可追溯到2015年,去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)在2020年被提出,展示扩散模型的强大能力,带动扩散模型的发展。模型主要包括两个过程:前向过程和反向过程,其中前向过程又称为扩散过程,扩散模型通过给图像增加高斯噪声破坏训练数据来学习,找出逆转噪声过程的方法,利用学习的去噪声方法实现从随机输入中合成新的图像。
Diffusion模型的优势在于生成的图像质量更高,不需要通过对抗性训练,在所需数据更少条件下,该模型图像生成效果有明显提升。
生成式AI场景应用篇
4.1 全球生成式AI典型应用概览
文本生成应用主要在四个领域:内容续写、文本风格迁移、摘要/标题生成及整段文本生成,与其相关的个性化文本生成及实时文本交互前景广阔。
总体来看,基于NLP技术的文本生成是生成式AI中发展较早的应用,全球知名科技企业先后推出文本生成类应用工具,如Microsoft、Xmind等相关产品在文案写作、数据分析、演示文稿、思维导图等方面均有相关应用案例。
图像生成的技术场景划分为图像属性编辑、图像局部生成及更改、端到端的图像生成。其中,前两者落地场景为图像编辑工具,端到端的图像生成则对应创意图像生成及功能性图像生成两大落地场景。
目前,图像编辑工具的使用已较为广泛,相关产品较为丰富;创意图像生成大多以NFT等形式呈现,功能性图像大多以营销类海报/界面、LOGO、模特图、用户头像为主。
音频生成在日常生活中已较为常见,其应用领域可进一步区分为语音合成和音乐创作,语音合成包括文本生成特定语音(TTS)和语音克隆领域。
TTS领域的技术成熟度较高,但在情感表现上仍有欠缺;语音克隆对电影、动画等行业意义重大值得关注;音乐创作可进一步细分为作词、作曲、编曲、录制、混音等多个方向,创作过程主要依托Transformer模型。
视频生成有望成为未来跨模态生成领域的中高潜力场景。视频生成主要对应三个领域:视频属性编辑、视频自动剪辑、视频部分生成。
视频属性编辑已广泛应用于视频创作领域,大幅提升视频剪辑效率;视频自动剪辑主要在技术尝试阶段;视频部分生成的原理本质与图像生成类似,强调将视频切割成帧,再对每一帧的图像进行处理,现阶段的技术在于提升修改精准度与修改实时性两方面。
数字人指存在于非物理世界(如图片、视频、直播、VR)中,并具有多重人类特征的综合。数字人代表着从文本/音频等低密度模态向图像/视频/实时交互等信息密度更高模态的转化,未来视频乃至元宇宙领域都将是数字人的重要应用场景。
在生成式AI领域,数字人生成可划分为数字人视频生成和数字人实时互动,数字人视频生成是目前应用最广泛的领域之一,而数字人实时互动多应用于可视化的智能客服,更强调实时交互功能。
生成式AI机遇挑战篇
5.1 生成式AI时代,行政类工作被替代性高,“问客”有望成为新职业
生成式AI对就业的影响挑战与机遇并存。一方面,生成式AI将促进岗位智能化升级,部分工作岗位将被替代。据高盛分析,生成式AI的智能自动化能力极大提升工作效率并降低运营成本,美国和欧洲的传统职位都将受到不同程度的AI自动化影响,生成式AI可以替代四分之一的工作岗位。
另一方面,生成式AI也会创造新职业:“问客”(Prompt Engineer)让人们能够利用自然语言作为提示词,通过与AI进行交互,得到信息或创造作品。除此之外,围绕人工智能的相关领域也将产生大量新的工作岗位。
生成式AI本质是机器学习的应用,其在模型学习阶段不可避免地会使用大量的数据集执行训练,但对训练后生成物的版权归属问题尚存争议。
由于法律主体才能享有权利,所以生成式AI作品的版权只能由对作品的生成具有贡献的人享有,相关人员包括软件开发者、所有者和使用者(主体身份可能重合),一般认为生成式AI软件开发者已从软件版权中得到补偿,生成式AI作品版权主要在软件所有者和使用者之间分配。
该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们。