优化嵌入式系统的工作负载,专用硬件来处理真正的人工智能算法
时间:2018-06-01 13:19来源:CEVA
摘要:移动设备上的人工智能已经不再依赖于云端连接,今年CES最热门的产品演示和最近宣布的旗舰智能手机都论证了这一观点。
Liran Bar, Director of Product Marketing, CEVA
移动设备上的人工智能已经不再依赖于云端连接,今年CES最热门的产品演示和最近宣布的旗舰智能手机都论证了这一观点。人工智能已经进入终端设备,并且迅速成为一个市场卖点。包括安全、隐私和响应时间在内的这些因素,使得该趋势必将继续扩大到更多的终端设备上。为了满足需求,几乎每个芯片行业的玩家都推出了不同版本、不同命名的人工智能处理器,像“深度学习引擎”、“神经处理器”、“人工智能引擎”等等。
然而,并非所有的人工智能处理器都是一样的。现实是,许多所谓的人工智能引擎就是传统的嵌入式处理器(利用CPU和GPU)加上一个矢量向量处理单元(VPU)。VPU单元是专门为高效执行与计算机视觉及深度学习相关的繁重计算负载而设计的。虽然拥有一个强大的、低功耗的VPU是嵌入式人工智能的重要组成部分,但这不是故事的全部。VPU是组成一个出色的人工智能处理器的众多组件之一。VPU虽然经过精心设计,也确实提供了所需的灵活性,但它不是一个AI处理器。这里还有一些其它功能对于人工智能处理前端化至关重要。
在云计算处理过程中,采用浮点计算进行训练,定点计算进行推理,从而实现最大的准确性。用大型服务器群组进行数据处理,能耗和大小必须考虑,但他们相较于有边缘约束的处理几乎是无限的。在移动设备上,功耗、性能和面积(PPA)的可行性设计至关重要。因此在嵌入式SoC芯片上,优先采用更有效的定点计算。当将网络从浮点转换为定点时,会不可避免的损失掉一些精度。然而正确的设计可以最小化精度损失,可以达到与原始训练网络几乎相同的结果。
控制精度的方法之一是在8位和16位整数精度之间做出选择。虽然8位精度可以节省带宽和计算资源,但是许多商用的神经网络仍然需要采用16位精度以保证准确性。神经网络的每一层都有不同的约束和冗余,因此为每一层选择最佳的精度是至关重要的。
专用硬件来处理真正的人工智能算法
VPU使用灵活,但许多最常见的神经网络需要的大量带宽通道对标准处理器指令集提出了挑战。因此,必须有专门的硬件来处理这些复杂的计算。
例如NeuPro AI处理器包括专用的引擎处理矩阵乘法、完全连接层、激活层和汇聚层。这种先进的专用AI引擎结合完全可编程工作的NeuPro VPU,可以支持所有其它层类型和神经网络拓扑。这些模块之间的直接连接允许数据无缝交换,不再需要写入内存。此外,优化的DDR带宽和先进的DMA控制器采用动态流水线处理,可以进一步提高速度,同时降低功耗。
人工智能仍然是一个新兴且快速发展的领域。神经网络的应用场景快速增加,例如目标识别、语音和声音分析、5G通信等等。保持一种适应性的解决方案满足未来趋势是确保芯片设计成功唯一的途径。因此,满足现有算法的专用硬件肯定是不够的,还必须搭配一个完全可编程的平台。在算法一直不断改进的情况下,计算机模拟仿真是基于实际结果进行决策的关键工具,并且减少了上市时间。CDNN PC仿真包允许SoC设计人员在开发真实硬件之前,就可以使用PC环境权衡自己的设计。
另一个满足未来需求的宝贵特征是可扩展性。NeuPro AI产品家族可以应用于广泛的目标市场,从轻量型的物联网和可穿戴设备(2TOPs)到高性能的行业监控和自动驾驶应用(12.5 TOPs)。
在移动端实现旗舰AI处理器的竞赛已经开始。许多人快速赶上了这一趋势,使用人工智能作为自己产品的卖点,但并不是所有产品里都具备相同的智能水平。如果想要创建一个在不断发展的人工智能领域保持“聪明”的智能设备,应该确保在选择AI处理器时,检查上述提到的所有特性。
移动设备上的人工智能已经不再依赖于云端连接,今年CES最热门的产品演示和最近宣布的旗舰智能手机都论证了这一观点。人工智能已经进入终端设备,并且迅速成为一个市场卖点。包括安全、隐私和响应时间在内的这些因素,使得该趋势必将继续扩大到更多的终端设备上。为了满足需求,几乎每个芯片行业的玩家都推出了不同版本、不同命名的人工智能处理器,像“深度学习引擎”、“神经处理器”、“人工智能引擎”等等。
NeuProTM - CEVA人工智能(机器学习)整体解决方案’(图片来源于CEVA)
优化嵌入式系统的工作负载在云计算处理过程中,采用浮点计算进行训练,定点计算进行推理,从而实现最大的准确性。用大型服务器群组进行数据处理,能耗和大小必须考虑,但他们相较于有边缘约束的处理几乎是无限的。在移动设备上,功耗、性能和面积(PPA)的可行性设计至关重要。因此在嵌入式SoC芯片上,优先采用更有效的定点计算。当将网络从浮点转换为定点时,会不可避免的损失掉一些精度。然而正确的设计可以最小化精度损失,可以达到与原始训练网络几乎相同的结果。
控制精度的方法之一是在8位和16位整数精度之间做出选择。虽然8位精度可以节省带宽和计算资源,但是许多商用的神经网络仍然需要采用16位精度以保证准确性。神经网络的每一层都有不同的约束和冗余,因此为每一层选择最佳的精度是至关重要的。
以层为单位选择最佳精度(图片来源于 CEVA)
针对开发人员和SoC设计者,一个工具可以自动输出优化的图形编译器和可执行文件,例如CEVA网络生成器,从上市时间的角度来看是一个巨大的优势。此外,保持为每一层选择最佳精度(8位或16位)的灵活性也是很重要的。这使每一层都可以在优化精度和性能之间进行权衡,然后一键生成高效和精确的嵌入式网络推理。专用硬件来处理真正的人工智能算法
VPU使用灵活,但许多最常见的神经网络需要的大量带宽通道对标准处理器指令集提出了挑战。因此,必须有专门的硬件来处理这些复杂的计算。
例如NeuPro AI处理器包括专用的引擎处理矩阵乘法、完全连接层、激活层和汇聚层。这种先进的专用AI引擎结合完全可编程工作的NeuPro VPU,可以支持所有其它层类型和神经网络拓扑。这些模块之间的直接连接允许数据无缝交换,不再需要写入内存。此外,优化的DDR带宽和先进的DMA控制器采用动态流水线处理,可以进一步提高速度,同时降低功耗。
结合NeuPro 引擎和 NeuPro VPU的 NeuPro AI处理器框图(图片来源于:CEVA)
明天未知的人工智能算法人工智能仍然是一个新兴且快速发展的领域。神经网络的应用场景快速增加,例如目标识别、语音和声音分析、5G通信等等。保持一种适应性的解决方案满足未来趋势是确保芯片设计成功唯一的途径。因此,满足现有算法的专用硬件肯定是不够的,还必须搭配一个完全可编程的平台。在算法一直不断改进的情况下,计算机模拟仿真是基于实际结果进行决策的关键工具,并且减少了上市时间。CDNN PC仿真包允许SoC设计人员在开发真实硬件之前,就可以使用PC环境权衡自己的设计。
另一个满足未来需求的宝贵特征是可扩展性。NeuPro AI产品家族可以应用于广泛的目标市场,从轻量型的物联网和可穿戴设备(2TOPs)到高性能的行业监控和自动驾驶应用(12.5 TOPs)。
在移动端实现旗舰AI处理器的竞赛已经开始。许多人快速赶上了这一趋势,使用人工智能作为自己产品的卖点,但并不是所有产品里都具备相同的智能水平。如果想要创建一个在不断发展的人工智能领域保持“聪明”的智能设备,应该确保在选择AI处理器时,检查上述提到的所有特性。
免责声明:本文若是转载新闻稿,转载此文目的是在于传递更多的信息,版权归原作者所有。文章所用文字、图片、视频等素材如涉及作品版权问题,请联系本网编辑予以删除。
我要投稿
近期活动
- 安森美汽车&能源基础设施白皮书下载活动时间:2024年04月01日 - 2024年10月31日[立即参与]
- 2023年安森美(onsemi)在线答题活动时间:2023年09月01日 - 2023年09月30日[查看回顾]
- 2023年安森美(onsemi)在线答题活动时间:2023年08月01日 - 2023年08月31日[查看回顾]
- 【在线答题活动】PI 智能家居热门产品,带您领略科技智慧家庭时间:2023年06月15日 - 2023年07月15日[查看回顾]
- 2023年安森美(onsemi)在线答题活动时间:2023年06月01日 - 2023年06月30日[查看回顾]
分类排行榜
- 汽车电子电源行业可靠性要求,你了解多少?
- 内置可编程模拟功能的新型 Renesas Synergy™ 低功耗 S1JA 微控制器
- Vishay 推出高集成度且符合 IrDA® 标准的红外收发器模块
- ROHM 发布全新车载升降压电源芯片组
- 艾迈斯半导体推出行业超薄的接近/颜色传感器模块,助力实现无边框智能手机设计
- 艾迈斯半导体与 Qualcomm Technologies 集中工程优势开发适用于手机 3D 应用的主动式立体视觉解决方案
- 维谛技术(Vertiv)同时亮相南北两大高端峰会,精彩亮点不容错过
- 缤特力推出全新商务系列耳机 助力解决开放式办公的噪音难题
- CISSOID 和泰科天润(GPT)达成战略合作协议,携手推动碳化硅功率器件的广泛应用
- 瑞萨电子推出 R-Car E3 SoC,为汽车大显示屏仪表盘带来高端3D 图形处理性能
编辑推荐
小型化和稳定性如何兼得?ROHM 推出超小型高输出线性 LED 驱动器 IC,为插座型 LED 驱动 IC 装上一颗强有力的 “心脏”
众所周知,LED的驱动IC担负着在输入电压不稳定的情况下,为LED提供恒定的电流,并控制恒定(可调)亮度的作用。无论是室内照明,还是车载应用,都肩负着极为重要的使命。
- 关于反激电源效率的一个疑问
时间:2022-07-12 浏览量:10242
- 面对热拔插阐述的瞬间大电流怎么解决
时间:2022-07-11 浏览量:9001
- PFC电路对N线进行电压采样的目的是什么
时间:2022-07-08 浏览量:9648
- RCD中的C对反激稳定性有何影响
时间:2022-07-07 浏览量:7244
- 36W单反激 传导7~10M 热机5分钟后超标 不知道哪里出了问题
时间:2022-07-07 浏览量:6015
- PFC电感计算
时间:2022-07-06 浏览量:4222
- 多相同步BUCK
时间:2010-10-03 浏览量:37888
- 大家来讨论 系列之二:开机浪涌电流究竟多大?
时间:2016-01-12 浏览量:43186
- 目前世界超NB的65W适配器
时间:2016-09-28 浏览量:60046
- 精讲双管正激电源
时间:2016-11-25 浏览量:128200
- 利用ANSYS Maxwell深入探究软磁体之----电感变压器
时间:2016-09-20 浏览量:107592
- 【文原创】认真的写了一篇基于SG3525的推挽,附有详细..
时间:2015-08-27 浏览量:100349