寒武纪发布新款AI训练卡MLU370-X8

MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥AI训练加速中常见的FP32、FP16或BF16计算性能。寒武纪首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了两倍于标准思元370加速卡的内存、编解码资源,同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中, 8卡并行平均性能达350W RTX GPU的155%。

  3月21日,寒武纪正式发布新款训练加速卡MLU370-X8。MLU370-X8搭载双芯片四芯粒思元370,集成寒武纪MLU-Link?多芯互联技术,主要面向训练任务,在业界应用广泛的YOLOv3、Transformer等训练任务中, 8卡计算系统的并行性能平均达到350W RTX GPU的155%。
寒武纪发布新款AI训练卡MLU370-X8
  ▲ 寒武纪训练加速卡MLU370-X8
  双芯思元370架构
  MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥AI训练加速中常见的FP32、FP16或BF16计算性能。寒武纪首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了两倍于标准思元370加速卡的内存、编解码资源,同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中, 8卡并行平均性能达350W RTX GPU的155%。
  MLU-Link™多芯互联技术
  MLU370-X8智能加速卡支持MLU-Link?多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍,可高效执行多芯多卡训练和分布式推理任务。
  训推一体的Cambricon NeuWare交付优秀训练性能
  Cambricon NeuWare支持FP32、FP16混合精度、BF16混合精度和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉、语音、自然语言处理、搜索推荐和自动驾驶等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。
  在Cambricon NeuWare SDK上实测,在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和Cambricon NeuWare CNCL通讯库的优化,在8卡环境下达到更优的并行加速比。
寒武纪发布新款AI训练卡MLU370-X8
  ▲MLU370-X8 单机8卡部署配置
寒武纪发布新款AI训练卡MLU370-X8
  ▲单卡MLU370-X8性能对比
寒武纪发布新款AI训练卡MLU370-X8
  ▲8卡MLU370-X8性能对比
  测试环境
  250W MLU370-X8:NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0
  350W GPU:Supermicro AS-4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2
  MLU370-X8补全思元370系列产品线
  寒武纪长期秉承“云边端一体、训推一体、软硬件协同”的技术理念。MLU370-X8提供两倍思元370的内存带宽,结合MLUarch03架构和MLU-Link多芯互联技术,将思元370芯片在训练任务的优势充分发挥。MLU370-X8定位中高端,与高端训练产品思元290、玄思1000相互结合,进一步丰富了寒武纪的训练算力交付方式;并与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同,形成完整的云端训练、推理产品组合。
  MLU370-X8加速卡与国内主流服务器合作伙伴的适配工作已经完成,并已对客户实现小规模出货。
  浪潮信息人工智能和高性能产品线副总经理张强表示:“浪潮跟寒武纪目前在思元370系列产品上合作顺利,携手在互联网、金融、制造等领域逐步落地;MLU370-X8的性能优异,我们期待双方可以继续加强合作,为更多的行业和客户带来优秀的人工智能计算力。”
  寒武纪用产品向客户印证自己的初心与决心:为人工智能技术的大爆发提供卓越的AI芯片产品,让机器更好地理解和服务人类。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 5G技术将继续健全升级我国制造业

    3年前我说过,5G将来最重要的应用可能在工业物联网、车联网和智慧城市,企业可以在这三个领域有较大的发展。今天看来,5G技术对制造业的助力是很大的,而且不止于这三个领域。

    2024年2月13日
  • 中外科研人员合作开发出光量子计算芯片

    光量子计算机使用光子来编码量子比特,通过对光子的量子操控及测量来实现量子计算,有望解决密码破译、分子模拟、大数据处理等传统计算机难以解决或解决不好的计算任务。

    2024年7月12日
  • 世界互联网大会首设“人工智能”论坛 深鉴科技亮相展望AI未来

    从AlphaGo的人机对战到无人驾驶车辆上路,AI成为了多个领域和产业不可忽视的重要风口。本届世界互联网大会设立“人工智能”分论坛,邀请AI领域海内外顶尖力量发表主题演讲,并以“人工智能技术与产业”和“人工智能应用与伦理”展开两场专题讨论。

    2024年4月13日
  • 阿里达摩院2023十大科技趋势重磅发布

    【安防在线 www.anfang.cn】1月11日,阿里达摩院重磅发布了2023十大科技趋势,生成式AI、Chiplet 模块化设计封装、全新云计算体系架构等技术入选。 达摩院表示…

    2024年2月23日
  • 网络视频监控市场增长迅速

    中国视频监控市场是一个充满机会的市场。2007年,中国视频监控市场的总体规模达到了41亿美金,比2006年增长了24.2%。

    2024年2月7日
  • 实例剖析:大型医院智能智能一卡通应用

    导读:在医疗改革中,医院信息化、数字化建设与改造是其中的重点。医院一卡通的应用在满足员工、病人、病人亲属以及其它访客的多种需求的同时,简化了医院日常的管理,有效地提升了医院的服务水平和规避了可能存在的风险。

    2024年6月15日