边缘AI处理器拼的不仅是算力和功耗


来源:物联传媒   时间:2021-11-02 11:46:13


AI应用如同燃起的野火一般,从消费级的手机端,出现在了工业级的超级游轮和航空级的空间站上。然而在边缘端,这些应用遇上了传统应用也挣扎了数年的需求:更高的性能、更大的容量和更低的功耗。

更糟糕的是,机器学习模型正在以指数级的速度增长,每3到5个月就会翻一番。要想应用这些模型的话,传统的计算芯片已经难以利用有限的内存资源和功率提供高性能,连数据中心都在AI工作负载上感到吃力了,更不用说在边缘侧运行的大型模型。为此,边缘AI处理器成了不少芯片大厂和初创企业的发力方向。然而在处理器的选取上,并不是仅仅看算力、功耗和成本而已。

边缘AI处理器的选择

首先,AI芯片公司不仅要有硬件开发实力,也要具备强大的AI软件栈和工具。比如英特尔或英伟达之类的厂商,其CPU或GPU设计早已为TensorFlow、Caffe或Pytorch等框架提供了支持,但初创企业自研架构的AI处理器往往需要打造自己的编译器来支持这些框架。

其次,是处理器支持的神经网络精度。多数边缘AI处理器精度并不高,这是因为将神经网络转换为低精度简化了硬件设计,同时也极大地降低了功耗。要想保持高精度的话,往往需要重新训练神经网络。

Nvidia - Jetson Xavier NX

英伟达于2019年公布了一款名为“Jetson Xavier NX”的AI处理器,专门用于边缘系统和嵌入式应用。Jetson Xavier NX只有70mm x 45mm的大小,却可以在15W的功耗下提供21 TOPS(INT8)的AI算力。

mmexport1635820084253.jpg

Jetson Xavier NX / Nvidia

Jetson Xavier NX集成了6核CPU、384核GPU、48个Tensor核心、2个NVDLA深度学习加速器和7路VLIW视觉处理器加速器。其中CPU选用了英伟达Carmel Arm核心,GPU则是基于Volta架构。该处理器还配备了8GB 128位的LDDR4x内存,可提供59.7GB/s的带宽性能。

英伟达已经为用户提供了开发者套件,可以创建高性能的AI应用,并快速部署深度神经网络模型和常见的机器学习框架,比如Tensorflow和Pytorch等,除此之外也可以用到cuDNN、TensorRT和DeepStream等一系列软件库和加速工具。

Jetson Xavier NX最大的优势在于其Jetson产品线全部基于同一软件栈,所以可以直接套用更强大的Jetson AGX Xavier上的AI应用,只不过算力要稍低一截而已。凭借其21TOPS的AI算力,加上加速器提供的视频处理器性能,可以毫无压力地完成人体识别、自研语言处理、姿势检测和注视检测等AI应用,适用于自动光学检测和智能摄像头等一系列边缘IoT设备。

Hailo - Hailo-8

mmexport1635820087403.jpg

Hailo-8 / Hailo

Hailo是一家来自于以色列的AI芯片公司,不少核心开发成员来自于以色列国防科技部门,主要负责为边缘设备开发高性能的AI处理器。早在2019年,Hailo就公布了其自研的边缘AI处理器Hailo-8,其算力可达26TOPS(INT8),但该处理器的典型功耗仅有2.5W。在完成了多轮融资后,Hailo也在今年开始了Hailo-8的量产。

mmexport1635820089903.jpg

Hailo-8与Jetson产品的对比 / Hailo

与传统的CPU、GPU、DSP或硬件加速器的架构不同,Hailo在这款处理器上运用了自研的结构定义数据流架构。在ResNet-50的神经网络测试中,Hailo-8取得了[email protected]的成绩。Hailo还在官网晒出出了Hailo-8与英伟达Jetson Nano与Xavier NX在ResNet和SSD_MobileNet等模型下的预期表现对比,我们从上图可以看出,Hailo-8在性能上优势明显,能耗比更是让英伟达的两款Jetson处理器望尘莫及。

Hailo还准备好了开源的Model Zoo,其中囊括了物体识别、分类、人脸检测识别等60多种计算机视觉任务的深度学习模型。开发者利用这些预训练的Tensorflow和ONNX模型,只需用上自己的数据重新训练,即可在Hailo设备上迅速创建好原型。

Mythic - M1076

mmexport1635820092414.jpg

M1076模拟矩阵处理器 / Mythic

美国德州的初创公司Mythic推出了利用存内计算技术的M1076模拟矩阵处理器(AMP)。单个M1076芯片的面积只有360mm2,却可以在3W至4W的功耗下提供35 TOPS的算力,与常见的SoC或GPU方案相比,功耗低了10倍以上。

但这并不是M1076的最大特色,与传统数字计算方式不同,Mythic在M1076上运用了模拟计算。模拟计算虽然理论上要要与数字计算,但长久以来收到尺寸的限制,在速度与扩展性上一直提不上去。然而Mythic通过将模拟运算与嵌入式闪存结合,选择了存内计算的方式。

M1076同时支持INT4、INT8和INT16三种数据类型,非常适合作为TinyML的开发平台。Mythic也为客户提供了物体识别/分类、图像分割和姿势评估等模型,可用于AR/VR中的智能健身和游戏等应用。

小结

云计算在边缘端的弱势使得边缘AI处理器有了崛起的机会,在工业4.0、自动化系统和智能IoT的潮流下,边缘AI还需要继续开拓应用场景,而不仅仅是用于机器视觉任务。边缘AI处理器厂商也必须继续提供更多的模型,帮助开发者加速边缘AI应用的落地。

  版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“物联之家 - 物联观察新视角,国内领先科技门户”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场。

延伸阅读

最新文章

马斯克:特斯拉现已向其他电动汽车开放超级充电站的试验项目 马斯克:特斯拉现已向其他电动汽车开放超级充电站的试验项目

精彩推荐

产业新闻

腾讯视频:仍可能会向会员呈现广告或商业信息 腾讯视频:仍可能会向会员呈现广告或商业信息

热门推荐

版权所有:物联之家 - 物联观察新视角,国内领先科技门户