寒武纪发布新款AI训练卡MLU370-X8

MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥AI训练加速中常见的FP32、FP16或BF16计算性能。寒武纪首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了两倍于标准思元370加速卡的内存、编解码资源,同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中, 8卡并行平均性能达350W RTX GPU的155%。

  3月21日,寒武纪正式发布新款训练加速卡MLU370-X8。MLU370-X8搭载双芯片四芯粒思元370,集成寒武纪MLU-Link?多芯互联技术,主要面向训练任务,在业界应用广泛的YOLOv3、Transformer等训练任务中, 8卡计算系统的并行性能平均达到350W RTX GPU的155%。
寒武纪发布新款AI训练卡MLU370-X8
  ▲ 寒武纪训练加速卡MLU370-X8
  双芯思元370架构
  MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥AI训练加速中常见的FP32、FP16或BF16计算性能。寒武纪首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了两倍于标准思元370加速卡的内存、编解码资源,同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中, 8卡并行平均性能达350W RTX GPU的155%。
  MLU-Link™多芯互联技术
  MLU370-X8智能加速卡支持MLU-Link?多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍,可高效执行多芯多卡训练和分布式推理任务。
  训推一体的Cambricon NeuWare交付优秀训练性能
  Cambricon NeuWare支持FP32、FP16混合精度、BF16混合精度和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉、语音、自然语言处理、搜索推荐和自动驾驶等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。
  在Cambricon NeuWare SDK上实测,在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和Cambricon NeuWare CNCL通讯库的优化,在8卡环境下达到更优的并行加速比。
寒武纪发布新款AI训练卡MLU370-X8
  ▲MLU370-X8 单机8卡部署配置
寒武纪发布新款AI训练卡MLU370-X8
  ▲单卡MLU370-X8性能对比
寒武纪发布新款AI训练卡MLU370-X8
  ▲8卡MLU370-X8性能对比
  测试环境
  250W MLU370-X8:NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0
  350W GPU:Supermicro AS-4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2
  MLU370-X8补全思元370系列产品线
  寒武纪长期秉承“云边端一体、训推一体、软硬件协同”的技术理念。MLU370-X8提供两倍思元370的内存带宽,结合MLUarch03架构和MLU-Link多芯互联技术,将思元370芯片在训练任务的优势充分发挥。MLU370-X8定位中高端,与高端训练产品思元290、玄思1000相互结合,进一步丰富了寒武纪的训练算力交付方式;并与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同,形成完整的云端训练、推理产品组合。
  MLU370-X8加速卡与国内主流服务器合作伙伴的适配工作已经完成,并已对客户实现小规模出货。
  浪潮信息人工智能和高性能产品线副总经理张强表示:“浪潮跟寒武纪目前在思元370系列产品上合作顺利,携手在互联网、金融、制造等领域逐步落地;MLU370-X8的性能优异,我们期待双方可以继续加强合作,为更多的行业和客户带来优秀的人工智能计算力。”
  寒武纪用产品向客户印证自己的初心与决心:为人工智能技术的大爆发提供卓越的AI芯片产品,让机器更好地理解和服务人类。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 中国芯如何在物联网时代并购浪潮中崛起

    芯片行业将随着越来越多的不同功能设备联网和运算需求,呈现出高度碎片化的状态。而芯片行业的竞争,也将由专利和技术的竞争,转为产业整合能力的竞争。同时,由于未来联网设备呈几何数量增长,将带动整个芯片行业产值的大幅提升,这也是我国芯片产业一次巨大机会。

    2024年4月8日
  • 全球首颗!扬州造人工智能芯片正式对外发布

    仅米粒大小的“迷你”芯片上,每秒钟可以完成190Gops(也就是1900亿次)操作运算,日前,这颗类视神经网络人工智能视觉芯片正式对外发布。

    2024年1月30日
  • 新华社分析突破“缺芯”困境

    在芯片产业的投资方向也需更有产业眼光的人掌控。在国家财政支持之外,还需要市场、社会资本等积极参与。有专家建议,中国证券监督管理委员会可为芯片企业提供一些如加速审批等便利通道,使企业有机会从市场筹得更多研发经费。

    2024年4月7日
  • 硅光子技术的前世今生

    光子计算一度被认为是最有希望的未来技术。与半导体芯片相比,光芯片用超微透镜取代晶体管、以光信号代替电信号进行运算。光芯片无需改变二进制计算机的软件原理,但可以轻易实现极高的运算频率,同时能耗非常低,不需要复杂的散热装置。与电脑对应,设想中的光学计算机被称作“光脑”。

    2024年4月10日 知识
  • 思必驰旗下深聪智能发布新一代人工智能芯片TH2608

    思必驰作为国内专业的对话式人工智能平台公司,不断推进着AI技术的研发与应用,思必驰旗下芯片公司深聪智能于2019年推出了AI芯片太行TH1520,搭载思必驰全链路人工智能语音技术,低功耗算法的优势使其广泛地应用于智能家居白电、黑电以及智能车载领域,推进传统行业的规模化和智能化升级。

    2024年1月28日
  • 山东产研院发布4K人工智能视觉处理芯片

    1月29日,山东产业技术研究院正式发布4K超高清人工智能视觉处理芯片,这也是山东产研院集成电路创新中心联合国科微基于泰山平台推出的第二颗高端芯片。

    2024年1月29日