最强 AI 训练集群华为 Atlas 900 首次在 AI 超算领域应用
时间:2019-12-02 13:10来源:雷锋网
摘要:这不仅代表着华为鲲鹏和昇腾双引擎计算战略的向前迈进,也是华为在5G+AI时代能否保持领先的关键。
两个月前的全联接大会上,华为发布了目前全球最快的训练集群Atlas 900。不过,设计和制造出强大的硬件对于硬件提供商而言并非最困难的事情,能否将其应用于不同领域体现出其价值才是成功的标志。本周五,鹏程实验室联合华为在深圳发布鹏城云脑Ⅱ基本型系统发布会,这是Atlas 900第一个外部应用案例。
这不仅代表着华为鲲鹏和昇腾双引擎计算战略的向前迈进,也是华为在5G+AI时代能否保持领先的关键。
Atlas 900落地鹏城云脑Ⅱ
Atlas 900由数千颗昇腾910 AI处理器互联构成,每颗昇腾910 AI处理器内置32个达芬奇AI Core,单芯片提供比业界高一倍的算力(256TFLOPS@FP16),总算力可达到256P~1024P FLOPS @FP16。Atlas 900发布时,华为给出的数据是在Fastest cluster ResNst-50@ImageNet测试中,华为成绩为59.8秒,比第二名70.2秒的成绩高出了10秒多。
峰值算力和测试成绩是判断硬件性能很好地指标,但实际中的应用效果更为关键。在Atlas 900发布之时,华为就介绍其联合上海天文台与SKA共同打造的,一张南半球的星空图有20万颗星星,当前条件下,天文学家要从这20万颗星星中,找出某种特征的星体,相当困难,需要169天的工作量。用上Atlas 900,只用10秒,就从20万颗星星中检索出了相应特征的星体。时间从169天缩减到10秒就是Atlas 900实际应用效果最直观地说明。
另外,全联接大会上,中国工程院院士、鹏城实验室主任高文院士也分享了鹏城实验室基于华为Atlas 900集群打造鹏城云脑Ⅱ的平台规划。两个月之后的2019年11月29日,鹏城云脑Ⅱ基本型系统正式发布。高文院士介绍,鹏城云脑Ⅱ原型系统实现了100 PFLOPS的算力,并计划到明年底扩展至1000 PFLOPS级AI算力。
据悉,双方目前正在联合攻坚AI集群的规模进化以及AI功能的进化,解决散热、组网等影响集群扩展的关键问题,为实现明年1000 PFLOPS级AI算力。1000PFLOPS是个什么概念?2019 年6月开始,超算 TOP500 的入门门槛超过 1PFLOPS(每秒一千万亿次浮点运算),这是全球超算 TOP500 榜单 26 年以来的又一历史性突破。根据TOP500本月发布的最新一期超算排行,排名第一的美国超算Summit(顶点)的性能为148.6 PFLOPS。接下来,超算的竞赛将进入Exascale计算(百万兆级的计算,也可称E级超算)时代,也就是1000PFLOPS级。
不过,以Atlas 900为基础的鹏城云脑Ⅱ是AI计算集群,虽然性能将达到E级,但主要是面向AI计算,与TOP500的超算系统还有所区别。需要补充的是,鹏城云脑是鹏程实验室的人工智能开放开源平台,鹏城云脑面向全国,为人工智能基础研究和应用基础研究提供多层次、多样化的资源环境支撑,服务我国人工智能领域创新发展。此前的2018年一期工程中,鹏城云脑初步建成上线运行了以“鹏城云脑-1”为核心的P级计算系统。
在鹏城云脑Ⅱ原型系统发布的当天,鹏城实验室与深圳市政府就一系列重大项目签约,向卫生健康、公安交警、巴士交通、政务等场景提供鹏城云脑强大的AI算力,支撑市政重大项目智慧升级。
不断进化、动态升级的鹏城云脑还将持续向国内外的科研机构、高等院校等组织提供云端AI算力,充分发挥华为Atlas 900集群的优势,搭好科学研究和探索的地基。
至此,Atlas 900已经在内部和外部都已经落地,但其可以更多地应用于科学研究与商业创新,如天文探索、气象预测、自动驾驶、石油勘探等领域。并且在实际应用中享受到高算力带来的优势。
做一个简单的对比,要实现256 PFLOPS的算力,经测算如果使用通用CPU需要6195个机柜,使用GPU需要208个机柜。而基于昇腾架构对深度学习业务的优化,以及芯片优化之外增加的如板级液冷、柜级密闭绝热等系统级优化, Atlas 900集群使用16个机柜就能实现256 PFLOPS的算力,并且将功耗从40000千瓦降低至736千瓦,实现更高性价比。
当然,将Atlas 900中既有昇腾系列AI处理器,也有鲲鹏系列CPU。华为在全联接大会上推出了鲲鹏和昇腾双引擎的计算战略。华为技术有限公司Cloud&AI产品与服务总裁侯金龙近日接受媒体采访时表示:“这两个计算引擎将会应用于向各个行业,我们认为AI+5G+云会使能各个行业,使各个行业进入智能时代。目前除了鹏城实验室的鹏城云脑外,金融、智慧城市、电力、交通、互联网等行业都采用了鲲鹏和昇腾这两个计算引擎。”
还需指出的是,硬件生态的强大还需要软件生态的协同,英特尔和英伟达在高性能计算领域的成功就是很好地例子。因此,在近一年的时间里,华为相继推出训练和推理框架MindSpore、芯片算子库和高度自动化算子开发工具CANN、一站式AI开发管理平台ModelArts。并且这些软件和硬件覆盖了云、边、端。
不仅如此,华为还计划打造强大的生态。侯金龙介绍,计算产业的核心就是开发者生态,华为计划在未来三年会投资15亿美元发展开发生态。希望和各个高校一起,基于鲲鹏和昇腾的计算架构体系联合各个高校开发教材,让学生至少可以学习我们这个体系。
他还透露,明年2月份鹏城云脑和华为会举办一个开发者大会,规模将超过两万人。
对于任何一家芯片提供商而言,设计出性能和功耗都具有优势的芯片只是迈向成功的第一步,只有获得用户的认可并且持续迭代芯片才能视为芯片的成功。对于华为而且,基于其技术和客户的积累,推出新的硬件更容易获得应用,所以我们看到Atlas 900发布两个月后就已经有两个应用案例。但正如Atlas 900是一个复杂的系统一样,华为要在5G和AI的时代胜出,除了硬件,强大的软件和开发者生态都至关重要,我们也看到了华为在这些方面的投入。至于结果会如何,我们将保持关注。
这不仅代表着华为鲲鹏和昇腾双引擎计算战略的向前迈进,也是华为在5G+AI时代能否保持领先的关键。
Atlas 900落地鹏城云脑Ⅱ
Atlas 900由数千颗昇腾910 AI处理器互联构成,每颗昇腾910 AI处理器内置32个达芬奇AI Core,单芯片提供比业界高一倍的算力(256TFLOPS@FP16),总算力可达到256P~1024P FLOPS @FP16。Atlas 900发布时,华为给出的数据是在Fastest cluster ResNst-50@ImageNet测试中,华为成绩为59.8秒,比第二名70.2秒的成绩高出了10秒多。
峰值算力和测试成绩是判断硬件性能很好地指标,但实际中的应用效果更为关键。在Atlas 900发布之时,华为就介绍其联合上海天文台与SKA共同打造的,一张南半球的星空图有20万颗星星,当前条件下,天文学家要从这20万颗星星中,找出某种特征的星体,相当困难,需要169天的工作量。用上Atlas 900,只用10秒,就从20万颗星星中检索出了相应特征的星体。时间从169天缩减到10秒就是Atlas 900实际应用效果最直观地说明。
另外,全联接大会上,中国工程院院士、鹏城实验室主任高文院士也分享了鹏城实验室基于华为Atlas 900集群打造鹏城云脑Ⅱ的平台规划。两个月之后的2019年11月29日,鹏城云脑Ⅱ基本型系统正式发布。高文院士介绍,鹏城云脑Ⅱ原型系统实现了100 PFLOPS的算力,并计划到明年底扩展至1000 PFLOPS级AI算力。
据悉,双方目前正在联合攻坚AI集群的规模进化以及AI功能的进化,解决散热、组网等影响集群扩展的关键问题,为实现明年1000 PFLOPS级AI算力。1000PFLOPS是个什么概念?2019 年6月开始,超算 TOP500 的入门门槛超过 1PFLOPS(每秒一千万亿次浮点运算),这是全球超算 TOP500 榜单 26 年以来的又一历史性突破。根据TOP500本月发布的最新一期超算排行,排名第一的美国超算Summit(顶点)的性能为148.6 PFLOPS。接下来,超算的竞赛将进入Exascale计算(百万兆级的计算,也可称E级超算)时代,也就是1000PFLOPS级。
不过,以Atlas 900为基础的鹏城云脑Ⅱ是AI计算集群,虽然性能将达到E级,但主要是面向AI计算,与TOP500的超算系统还有所区别。需要补充的是,鹏城云脑是鹏程实验室的人工智能开放开源平台,鹏城云脑面向全国,为人工智能基础研究和应用基础研究提供多层次、多样化的资源环境支撑,服务我国人工智能领域创新发展。此前的2018年一期工程中,鹏城云脑初步建成上线运行了以“鹏城云脑-1”为核心的P级计算系统。
在鹏城云脑Ⅱ原型系统发布的当天,鹏城实验室与深圳市政府就一系列重大项目签约,向卫生健康、公安交警、巴士交通、政务等场景提供鹏城云脑强大的AI算力,支撑市政重大项目智慧升级。
不断进化、动态升级的鹏城云脑还将持续向国内外的科研机构、高等院校等组织提供云端AI算力,充分发挥华为Atlas 900集群的优势,搭好科学研究和探索的地基。
华为高级副总裁、Cloud & AI产品与服务总裁侯金龙(左)与鹏城实验室主任高文(右)出席鹏城云脑Ⅱ发布会
Atlas 900与华为5G+AI的未来至此,Atlas 900已经在内部和外部都已经落地,但其可以更多地应用于科学研究与商业创新,如天文探索、气象预测、自动驾驶、石油勘探等领域。并且在实际应用中享受到高算力带来的优势。
做一个简单的对比,要实现256 PFLOPS的算力,经测算如果使用通用CPU需要6195个机柜,使用GPU需要208个机柜。而基于昇腾架构对深度学习业务的优化,以及芯片优化之外增加的如板级液冷、柜级密闭绝热等系统级优化, Atlas 900集群使用16个机柜就能实现256 PFLOPS的算力,并且将功耗从40000千瓦降低至736千瓦,实现更高性价比。
当然,将Atlas 900中既有昇腾系列AI处理器,也有鲲鹏系列CPU。华为在全联接大会上推出了鲲鹏和昇腾双引擎的计算战略。华为技术有限公司Cloud&AI产品与服务总裁侯金龙近日接受媒体采访时表示:“这两个计算引擎将会应用于向各个行业,我们认为AI+5G+云会使能各个行业,使各个行业进入智能时代。目前除了鹏城实验室的鹏城云脑外,金融、智慧城市、电力、交通、互联网等行业都采用了鲲鹏和昇腾这两个计算引擎。”
还需指出的是,硬件生态的强大还需要软件生态的协同,英特尔和英伟达在高性能计算领域的成功就是很好地例子。因此,在近一年的时间里,华为相继推出训练和推理框架MindSpore、芯片算子库和高度自动化算子开发工具CANN、一站式AI开发管理平台ModelArts。并且这些软件和硬件覆盖了云、边、端。
不仅如此,华为还计划打造强大的生态。侯金龙介绍,计算产业的核心就是开发者生态,华为计划在未来三年会投资15亿美元发展开发生态。希望和各个高校一起,基于鲲鹏和昇腾的计算架构体系联合各个高校开发教材,让学生至少可以学习我们这个体系。
他还透露,明年2月份鹏城云脑和华为会举办一个开发者大会,规模将超过两万人。
对于任何一家芯片提供商而言,设计出性能和功耗都具有优势的芯片只是迈向成功的第一步,只有获得用户的认可并且持续迭代芯片才能视为芯片的成功。对于华为而且,基于其技术和客户的积累,推出新的硬件更容易获得应用,所以我们看到Atlas 900发布两个月后就已经有两个应用案例。但正如Atlas 900是一个复杂的系统一样,华为要在5G和AI的时代胜出,除了硬件,强大的软件和开发者生态都至关重要,我们也看到了华为在这些方面的投入。至于结果会如何,我们将保持关注。
免责声明:本文若是转载新闻稿,转载此文目的是在于传递更多的信息,版权归原作者所有。文章所用文字、图片、视频等素材如涉及作品版权问题,请联系本网编辑予以删除。
我要投稿
近期活动
- 安森美汽车&能源基础设施白皮书下载活动时间:2024年04月01日 - 2024年10月31日[立即参与]
- 2023年安森美(onsemi)在线答题活动时间:2023年09月01日 - 2023年09月30日[查看回顾]
- 2023年安森美(onsemi)在线答题活动时间:2023年08月01日 - 2023年08月31日[查看回顾]
- 【在线答题活动】PI 智能家居热门产品,带您领略科技智慧家庭时间:2023年06月15日 - 2023年07月15日[查看回顾]
- 2023年安森美(onsemi)在线答题活动时间:2023年06月01日 - 2023年06月30日[查看回顾]
分类排行榜
- 汽车电子电源行业可靠性要求,你了解多少?
- 内置可编程模拟功能的新型 Renesas Synergy™ 低功耗 S1JA 微控制器
- Vishay 推出高集成度且符合 IrDA® 标准的红外收发器模块
- ROHM 发布全新车载升降压电源芯片组
- 艾迈斯半导体推出行业超薄的接近/颜色传感器模块,助力实现无边框智能手机设计
- 艾迈斯半导体与 Qualcomm Technologies 集中工程优势开发适用于手机 3D 应用的主动式立体视觉解决方案
- 维谛技术(Vertiv)同时亮相南北两大高端峰会,精彩亮点不容错过
- 缤特力推出全新商务系列耳机 助力解决开放式办公的噪音难题
- CISSOID 和泰科天润(GPT)达成战略合作协议,携手推动碳化硅功率器件的广泛应用
- 瑞萨电子推出 R-Car E3 SoC,为汽车大显示屏仪表盘带来高端3D 图形处理性能
编辑推荐
小型化和稳定性如何兼得?ROHM 推出超小型高输出线性 LED 驱动器 IC,为插座型 LED 驱动 IC 装上一颗强有力的 “心脏”
众所周知,LED的驱动IC担负着在输入电压不稳定的情况下,为LED提供恒定的电流,并控制恒定(可调)亮度的作用。无论是室内照明,还是车载应用,都肩负着极为重要的使命。
- 关于反激电源效率的一个疑问
时间:2022-07-12 浏览量:10165
- 面对热拔插阐述的瞬间大电流怎么解决
时间:2022-07-11 浏览量:8923
- PFC电路对N线进行电压采样的目的是什么
时间:2022-07-08 浏览量:9564
- RCD中的C对反激稳定性有何影响
时间:2022-07-07 浏览量:7183
- 36W单反激 传导7~10M 热机5分钟后超标 不知道哪里出了问题
时间:2022-07-07 浏览量:5958
- PFC电感计算
时间:2022-07-06 浏览量:4169
- 多相同步BUCK
时间:2010-10-03 浏览量:37862
- 大家来讨论 系列之二:开机浪涌电流究竟多大?
时间:2016-01-12 浏览量:43157
- 目前世界超NB的65W适配器
时间:2016-09-28 浏览量:60020
- 精讲双管正激电源
时间:2016-11-25 浏览量:128091
- 利用ANSYS Maxwell深入探究软磁体之----电感变压器
时间:2016-09-20 浏览量:107552
- 【文原创】认真的写了一篇基于SG3525的推挽,附有详细..
时间:2015-08-27 浏览量:100278