清华大学发布全球最大的公开人脸数据集含数百万ID和数亿图片

基于当前行业的现状,芯翌科技与清华大学的研究人员在FRVT参赛基础上,完全基于全球互联网公开人脸数据,联合推出了当前全球规模最大的人脸数据集WebFace260M,人脸ID数目首次达到数百万,图片数目首次达到数亿规模,将很大程度上推动以深度学习为基础的人脸识别相关技术发展。

【安防在线 www.anfang.cn】近年来,经过业界多年来在数据集构建、神经网络架构、损失函数设计等方面的详尽研究,人脸识别技术在识别精度上已经取得了长足进步,并实现了大规模落地。但当前人脸识别仍然面临公开数据规模小、标准混杂、测评无法对齐等问题。

其中,目前公开的人脸识别训练数据集中,规模最大的是MegaFace2和MS1M,分别仅拥有67.2万ID和470万图片,以及10万 ID和1000万图片,远远无法满足实际人脸识别系统的数据需求。可以说,公开数据规模与实际落地系统所需数据规模之间的巨大差距,已经较大程度上阻碍了当前人脸识别相关技术的持续发展。

另一方面,评测准则和测试集也是影响人脸识别技术进一步发展的重要制约因素。目前公开的人脸识别评测集在精度上基本已经比较饱和。同时这些测试集对于人脸识别不同场景下的分类测评不够细致,没有持续迭代、升级和维护,也没有根据实际应用限制搭建评测准则。

业界公认,NIST-FRVT是目前唯一符合现实应用的测评系统。然而,由于NIST-FRVT对提交频率和提交条件的严格要求,一定程度上也限制了人脸识别技术的发展。

基于当前行业的现状,芯翌科技与清华大学的研究人员在FRVT参赛基础上,完全基于全球互联网公开人脸数据,联合推出了当前全球规模最大的人脸数据集WebFace260M,人脸ID数目首次达到数百万,图片数目首次达到数亿规模,将很大程度上推动以深度学习为基础的人脸识别相关技术发展。

清华大学发布全球最大的公开人脸数据集含数百万ID和数亿图片

WebFace260M数据集和公开数据集在人脸ID和数量上的比较

同时在WebFace260M的基础上,芯翌科技和清华大学的研究人员采用自训练全自动迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST),得到WebFace42M,是目前全球规模最大的可直接用于训练的干净人脸数据集。该数据集包含200万ID和4200万图片,ID数目和图片数目相比目前使用最广泛、最受认可的公开数据集MS1MV2都提高了一个数量级以上。

针对目前人脸识别的评测问题,研究人员发布了更贴近实际应用的“时间受限人脸识别评测准则”-FRUITS (Face Recognition Under Inference Time conStraint)和分布更广泛、更具挑战性、分类更细致的人脸测试集,这将推动人脸识别评测更靠近真实场景。同时,研究人员将持续维护、迭代和升级该测试集以及评测系统,助力行业技术发展。

基于WebFace260M清洗得到的WebFace42M数据,能够在目前公开的、最具挑战性的IJBC测试集上,达到新的SOTA (State-Of-The-Art),并把相对错误率降低了40%。

清华大学发布全球最大的公开人脸数据集含数百万ID和数亿图片

基于WebFace42M,在IJBC测试集上取得了SOTA的性能

同时,仅基于WebFace42M的数据,芯翌科技在2020年10月NIST-FRVT的榜单上,取得了1:1人脸识别评测综合排名世界前三的成绩。

更进一步,以WebFace42M为基础,在2021年3月最新一期的NIST-FRVT榜单上,芯翌科技在戴口罩人脸识别评测中以绝对优势获得世界第一,并在1:1人脸识别评测综合排名世界前三。

然而目前,国内外普遍对数据资源这一重要的生产资料重视程度不够,行业规范不足,分享壁垒严重,缺乏长期规划。生产资料的匮乏,严重影响和制约了数字经济和智能化时代生产力的释放,限制了行业的发展。

芯翌科技和清华大学的研究人员合作推出了目前全球最大的公开人脸数据集――WebFace260M以及相应的Benchmark。通过这个数据集,希望能够助力AI时代科技创新,持续推动智能化产业落地。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 全球首个“RFID展示及体验中心”沪揭牌

    继3月12日中国领科与韩国JAVA正式签署战略合资合作协议后,2008年6月25日,在全球RFID产业蓄势待发的大背景下,中韩合资合作建成的全球首个“RFID展示及体验中心”在领科和JAVA的共同努力下成功开业了!

    2024年2月7日
  • 智能高清监控平台建设的解决方案分析

    导读:在视频监控领域,随着智能化、高清化、平台化三驾马车的发力,基于端到端的智能高清平台初具规模,大规模联网监控成为发展趋势,高清监控也在逐渐形成一套完善的解决方案。构成高清、智能、平台这三者桥梁的联网监控将如何适应新的市场需求,会为视频监控带来什么新变化?这些一直都是大家非常关注的焦点和热点。对于平台来说,联网监控从最初模拟时代的光端机加模拟矩阵开始逐步演变到现在的数字时代的服务器加数字网络矩阵的方式,而且随着技术的发展,一些新概念和新名词还会层出不穷。

    2024年1月28日
  • 中国兵工学会安全防范专业委员会第二届学术技术交流会举行

    2018年12月15日,由中国兵工学会、深圳市安全防范行业协会联合主办,南京理工大学、北京易华录信息技术股份有限公司、广东前海秋叶原集团、中库(北京)数据系统有限公司协办,中国兵工学会安全防范专业委员会承办的中国兵工学会安全防范专业委员会第二届学术技术交流会在深圳召开。

    2024年4月18日 资讯
  • 孝感:“一体化”构筑平安防火墙

    孝感市委市政府将“情指勤舆”一体化建设列入重点改革项目督办,在全市构建起了“党政领导、政府主责、公安主抓、部门协同、社区联动”的一体化工作格局。市公安局发挥市扫黑办、市反诈办、市禁毒办等机构作用,深化内外数据联勤、打治联勤、行刑对接。打造“公安+网格+N”治理体系,实现一体化推进基层社会治理。

    2024年2月10日
  • 通过新国标GB/T28181符合性检测硬盘录像机产品目录(十九)

    GB/T28181-2016版已于2017年6月1日正式发布实施,相关检测工具正在更新中。现将根据GB/T28181-2016版检测的硬盘录像机/网络硬盘录像机(DVR/NVR)产品目录公布如下:查询完整目录请点击“相关新闻”

    2024年9月15日
  • 千万级“雪亮工程”项目大幅增长,哪个省最多

    千万级“雪亮工程”及社会治安视频监控项目招标,一直都备受行业关注。 2023年上半年,千万级“雪亮工程”及社会治安视频监控项目市场有…

    2023年12月25日