大模型发展亟需高质量“教材”相伴

这些事件剑指同一个问题――大模型高质量语料短缺。“对于从头开始训练的模型,语料短缺会在非常大的程度上限制大模型发展。”近日,哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的边际效益正在减弱,高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”

1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。2023年12月27日,《****》起诉OpenAI和微软公司,指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。而早在2023年3月,就有消息显示谷歌Bard模型的部分训练数据来源于ChatGPT。

这些事件剑指同一个问题――大模型高质量语料短缺。“对于从头开始训练的模型,语料短缺会在非常大的程度上限制大模型发展。”近日,哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的边际效益正在减弱,高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”

大模型训练语料短缺问题严重

大模型发展亟需高质量“教材”相伴

科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。

虽然大模型发展如火如荼,但大模型高质量语料短缺已成为全球共性问题。公开资料显示,大模型对数据供给要求极高。比如,训练GPT-4和GeminiUltra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测,到2026年之前,机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示,最早在2024年,人类就可能会陷入训练数据荒,届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。

值得注意的是,当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。

中国工程院院士、鹏城实验室主任高文曾公开表示,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。

上海数据交易所市场发展部副总经理章健此前公开表示,当前大模型行业存在语料供应不足的问题,特别是在垂直细分领域,一些共享、免费下载的语料数量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量。”章健说。

高质量语料应具备七大特征

那么,何为高质量语料?记者采访时,包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案:高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害等七大特征。

邵睿表示,高质量语料应具有多样性高、句式流畅的特点。腾讯机器学习平台算法负责人康战辉认为,语料的多样性是保证语料质量的基础,要通过不同的途径采集新闻、小说、诗歌、科技文章等不同类型的语料。这有助于大模型学习到更丰富的语言表达。

同时,高质量语料要具有较大规模,因为大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足的语料,大模型才能更好地捕捉细微的语言特征。

此外,高质量语料应是合法且无害的。不合法或有害的语料可能导致模型产生不恰当的回答或建议,或无意中泄露他人隐私。

“高质量语料还应该具有真实性和连贯性,以便让大模型更好地理解语境并生成符合逻辑的回答。”康战辉说,语料库应该充分反映语料的多样性并避免偏见,这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。

完善相关机制提高语料质量

记者在采访中了解到,目前训练大模型的语料有一部分是从数据公司购买的,也有一部分是从网络公开语料或者公开数据集中获取并整理的。“从数据公司购买的语料质量较高,并且大多是垂域数据,但其数据量较少且价格较贵。”邵睿说,“网络公开语料通用性较好,数据量大,但数据质量无法保证,数据格式难以统一。”

“人类产生的有效信息,包括大量高价值信息可能不一定是互联网数据,而是沉散在各行各业里的数据。”商汤科技发言人说,“怎样更多汇聚数据,设计更多、更好的网络结构,用更多的计算资源去支撑更大容量的高质量语料,产生更强的智能,是一个至关重要的问题。”这位发言人认为,要解决语料问题,不仅要靠增加语料总量,还需要提高语料质量,甚至要考虑完善数据交换机制,推动人工智能数据基础设施化。

正如这位发言人所说,目前业界正在采取一些措施,推动数据交换机制的建设。记者梳理发现,2023年7月,深圳数据交易所联合近50家单位成立开放算料联盟。该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加与大模型相关的新品类和新专区。

同样是2023年7月,在2023世界人工智能大会现场,中国大模型语料数据联盟成立。同年8月,上海人工智能实验室宣布,联合中国大模型语料数据联盟成员单位共同开源发布“书生・万卷”1.0多模态预训练语料。这次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。

除了建设更为完善的体制机制,数据清洗等技术手段也能在一定程度上解决高质量语料短缺难题。但要看到,这些技术手段有较高门槛。商汤科技发言人透露,该公司在数据清洗的过程中投入了上千块GPU的算力。OpenAI在无数场合介绍过GPT-4训练的经验,但从未公开过数据清洗的经验。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 数据中心绿色设计白皮书

    随着新一代信息技术的蓬勃发展与广泛应用,数字产业的赋能作用进一步凸显,数据中心作为数字经济“底座”,在经济社会发展中扮演着至关重要的角色。截至2022年底,…

    2024年3月7日
  • 云集生态伙伴,服务健康中国――华为中国生态伙伴大会-2017在长沙隆重召开

    到2020年,国家要实现全员人口信息、电子健康档案和电子病历三大数据库基本覆盖全国人口;全面建成云联云通的人口健康信息平台、实现六大业务系统业务协同、推动远程医疗发展等等。要实现上述目标,就需要有一个先进的ICT基础架构进行支撑。作为全球领先的ICT厂商,近几年持续加大在医疗领域的投入,聚焦在ICT基础设施上,借助云计算、物联网、大数据、视联网等技术帮助医疗行业客户获得成功。

    2024年4月11日 资讯
  • 重庆市市政设施局完成大佛寺大桥视频监控升级改造

    本次新安装的视频监控系统全部改造成1080P高清数字摄像机,在全桥双向各布设8个点位,两桥头各增设一个全景点位,桥面共计18个摄像机;桥塔顶部各设2个点位,4个摄像机;桥墩各设2个点位,4个摄像机;桥梁保护区设8个点位,8个摄像机,全桥共计34个监控点。改造升级后的监控系统不但实现了全桥监视的全覆盖,而且图像清晰度大大提高。

    2024年9月15日
  • 王彦吉理事长出席上海安博会开幕式

    由公安部治安管理局和上海市公安局支持,并由上海安全防范报警协会主办的第十二届上海社会公共安全产品国际博览会(以下简称上海安博会)于2012年5月9-11日在上海世博展览馆(国展路1099号)举行。

    2024年1月31日
  • 浙江大华“王者归来”新品发布会全国巡展完美收官

    浙江大华“王者归来”新品发布会全国巡展完美收官
    ――谱写新安防时代新篇章(成都站)

    2024年1月30日 资讯
  • 广州校园安保工作较规范 无凭无证难出入

    记者走访越秀、海珠、天河等多区学校,获悉目前校园安保人员配备,有区统一驻派,也有学校自行招标外派,而想要进入校园,无凭无证基本行不通,而相比公办学校,部分民办学校存在安保人员不足问题。

    2024年2月2日