AMD:嵌入式边缘AI需要体现价值并便于部署
随着人工智能(AI)技术广泛应用于各行各业,从云到边缘的解决方案逐渐成为信息技术领域新的热点。嵌入式边缘AI在当今的各种边缘应用中能够大幅提升作业人员的生产力,带动整个AI技术在各个领域的全面落地。边缘AI的价值在于将计算和存储资源移动到网络边缘,缩短传输距离降低传输要求,大幅提升数据反馈的速度,降低了对系统云端计算能力的需求。边缘处理数据无需传输到远程服务器,从而大大减少了传输延迟,对于需要实时响应的应用场景至关重要。此外,嵌入式边缘AI结构相对处理效率更高,通过优化算法和硬件设计,可以大幅降低系统处理所需的功耗。目前的AI驱动型嵌入式系统实现端到端加速需要采用多芯片方法,为用户增加了很大的开销和设计复杂性。针对这一现状,AMD工业、视觉、医疗与科学市场视觉业务主管Yingyu Xia认为,全面采用嵌入式边缘AI 技术仍然存在障碍,包括技能人才短缺、AI系统的复杂性以及对失业的担忧。为了更广泛地推广此类应用,不仅需要展示AI在各个应用任务中的价值,而且还需要确保其便于部署,作为拥有多种嵌入式处理器产品的厂商,这恰是AMD最突出的竞争优势所在。
本文引用地址://www.cghlg.com/article/202405/458608.htm在边缘智能的应用中,需要重点关注的就是不同处理器发挥各自的处理优势从而更好地提升边缘智能系统的运行效率。为了支持嵌入式设备上的生成式AI模型,Yingyu Xia表示计算平台需要确保高算力的同时具有高效率,采用处理器异构计算平台以及一个编译器,能够高效地在应用处理器(PS)、图形处理单元(GPU)、神经处理单元(NPU)和现场可编程门阵列(FPGA)之间分配各种工作负载。此外,它们应该提供易于使用的软件开发工具套件(SDK),帮助嵌入式工程师将其模型无缝部署到硬件平台上。NPU对于高效处理标准AI模型至关重要,有助于加速 AI 任务并最大限度降低功耗;与此同时,PS和GPU对于处理尚未针对NPU进行优化的更高级别的模型也提供了必要支持;FPGA则有助于集成多种传感器模态,以利用多模态模型并确保传感器同步。此外,FPGA可以被编程以建立定制、优化的数据路径,从而实现系统组件之间的有效数据传输。
图1 2027 年营收前 10 的嵌入式AI应用(Alexander Harrowell, Omdia, 2022)
针对各个处理器在边缘AI 应用中的作用,AMD工业、视觉、医疗与科学市场机器人业务主管KVThanjavur Bhaaskar介绍,CPU一直以来都是功能强大的通用计算引擎,相对于许多其他计算平台,在可提供支持的广泛软件生态系统方面具有优势。嵌入式处理器集成了用于渲染、可视化和显示的CPU和图形。随着边缘智能的快速增长,近来的一种趋势是CPU除了通用计算和图形功能外,还具有专用的AI计算引擎。迄今为止,设计人员必须在设计中引入加速器才能实现高性能的AI推理。将专用的AI计算引擎引入到CPU中,可提供灵活的架构选择,减小占板面积并提高能效。就新应用而言,边缘智能已经无处不在,所以可以想象在以前只有CPU的地方现在都具备了AI功能,比如具有AI路径规划的机器人控制器、具有诊断或感兴趣区域功能的医学成像等。正在出现的主要设计要求是在满足整体解决方案需求的情况下选择正确的引擎进行正确的任务,因为计算工作负载的多样性、处理器以有效处理它们的方式、以及系统中这种处理能力的可用性都发生了显著变化。在为传统CPU增加AI功能之外,异构处理架构的出现能够更好的去提升边缘AI在功耗和效率方面的表现。KV Thanjavur Bhaaskar强调,处理器的选择取决于特定的系统级别,一个解决方案可能是选择适合特定任务的正确引擎,因为这将为解决系统中的特定计算任务提供最节能的方式。AMD 提供的器件结合了不同技术,包括 FPGA、处理子系统(包括 Arm 和RISC-V)、基于 x86 的 CPU、GPU、AI 引擎,构成了可扩展性很强的产品系列,从成本优化的嵌入式器件一直到针对数据中心市场的高端器件。
Omdia预测了到2027年预计将产生最高收入的前10个嵌入式AI应用(如图1 所示),这些应用通常展示了上述因素中的两个或更多,呈现出业界采用嵌入式AI的目标领域。以工厂自动化为例,工厂中的拾取和放置机器人,需要实现对目标对象的毫米级准确识别并最小化对机械臂的干扰,这需要结合 3D 视觉、点云处理、嵌入式AI和传感器致动器融合。最大限度降低时延对于保持高生产力至关重要,也有助于确保产量和整体效率的提升。这方面许多人所熟悉的另一个例子是智能结账系统,不仅可通过实时监控扫描商品来增强结账体验,而且还能检测购物者的不当行为,例如将较便宜的商品(如香蕉)替换为较昂贵的商品(如牛排)。这一功能不仅鼓励顾客使用自助结账,减少零售商的担忧,还解决了不断上升的劳动力成本问题。此外,还可以参考智能交通摄像头,其需要针对速度高达 200 公里/ 小时的车辆采集图像信息。要实现这一点,需要集成各种传感器。然而,全天候持续传输视频将产生极高的成本。
AMD工业、视觉、医疗与科学市场视觉业务主管Yingyu Xia
随着AI模型及其参数的复杂性日益提高,对系统内部更有效的数据传输机制的需求也在增长。统一AI模型是最突出的潜在发展趋势。与为同一背景下的各种任务管理多个专门的AI模型不同,统一模型可用于处理多种视觉任务。这种方法在嵌入式边缘中提供了更有效地资源利用的可能性,尤其是在分布式 AI 架构中更为明显。预计在这个领域会进行进一步的研究,以提高统一模型的准确性。Yingyu Xia特别提到了当前一个值得关注的趋势,即业界出现了能够在有限标记数据下进行有效泛化的模型。这一策略在数据采集不便和需要频繁数据训练的场景中具有极大的价值。由于仅需要最少量的数据进行重新训练,这一趋势降低了所需的技术专长,并节省了AI训练时间。此外,大型语言模型(LLM)的普及使得与AI的交互更类似于与人类对话。只需提出一个问题,AI就能够理解背景语义并像咨询专家一样作出回应。目前一种趋势是在嵌入式边缘部署的AI模型中提升对视觉场景的理解。这一发展有助于作业人员更清晰地理解视觉场景,在一次视频搜索的调查过程中,它能够以自然的人类语言提供洞察和建议。
除了评估AI引擎的能力外,Yingyu Xia认为嵌入式AI系统还在高速和大量数据涌入的实时环境中运行。确保实时操作需要硬件平台具备高效的数据同步和前后处理流水线,以有效地管理数据流。在选择嵌入式平台时,不仅要考虑AI引擎的效率,还要考虑它与其他关键部分的兼容性。AI引擎只是嵌入式系统的一个组成部分,为了实现最佳功能,必须通过其它重要因素进行补充,理想的平台应该是根据嵌入式用例需求可以满足下列大部分要求的平台。
AMD工业、视觉、医疗与科学市场机器人业务主管KV Thanjavur Bhaaskar
面向边缘AI应用市场,AMD最近发布了加速嵌入式边缘AI开发的Embedded+架构,该架构将AMDRyzen(锐龙)嵌入式处理器与AMD Versal AI Edge自适应SoC集成在一块板卡上。KV Thanjavur Bhaaskar强调,自适应计算在确定性、低时延处理方面表现出色,而AI引擎则能够提升高每瓦性能推理。在这种异构处理器架构中,Ryzen嵌入式处理器提供了Zen+ x86核心,并且具备广泛的软件生态系统支持,Radeon显卡用于渲染和显示功能。Versal AI Edge自适应SoC提供了基于Arm Cortex-A72内核处理器的子系统用于应用处理,R5-F用于实时处理,FPGA 用于低时延和确定性,AI引擎用于AI推理,最重要的是可编程I/O,支持用户将各种传感器直接连接到平台。在自动化系统中,传感器数据的价值会随时间推移而递减,而这些数据必须根据尽可能最新的信息运行,才能实现最低时延和确定性响应。在工业和医疗应用中许多决策需要在几毫秒内做出,这就是嵌入式边缘AI 最适合的方向。Embedded+能最大限度发挥合作伙伴和客户数据价值,其高能效和高性能算力使合作伙伴与客户能够专注于满足客户和市场需求。
AMD Embedded+架构将传统的嵌入式PC转变为优化的工业和医疗PC。低时延处理和高每瓦性能推理的结合可为关键任务实现高性能,包括将自适应计算与灵活的I/O、用于AI推理的AI引擎以及AMD Radeon显卡实时集成到单个解决方案中,发挥每项技术的最大优势。Embedded+架构作为一种可扩展的方法,可以通过AMD的任何器件组合进行更新,就在近期,AMD推出了具有专用AI引擎的锐龙8000G 系列CPU和第二代Versal AI Edge系列,这些产品可以用于新一代基于Embedded+的主板,以应对边缘智能不断变化的需求。KV Thanjavur Bhaaskar特别提到AMD 在边缘和云计算领域拥有广泛的产品组合。AMD不仅将AI功能添加到最新发布的相关器件中,同时还将提高已有器件的AI能力,考虑到功率效率与成本方面因素,预计这种趋势将持续下去。
AMD嵌入式行业解决方案可为工业和商业应用打造高性能、高性价比的系统。凭借一系列灵活、可扩展的处理器,AMD为客户带来更出色的计算性能、先进安全性和各种连接选项。AMD嵌入式行业解决方案可满足游戏、医疗、运输、自动化等工业和商业应用的苛刻需求。在针对嵌入式环境中实现 AI 的分布式架构中,Yingyu Xia总结的关键是考虑嵌入式边缘设备的限制性资源、功耗、实时要求和安全性等因素。考虑到每个AI参数需要4 字节(32 位)的数据,部署原始大小的32位浮点模型大多是不可行的。例如,如果有 1.7 万亿
个参数,嵌入式设备上的存储需求将达到1.7*10^12*4=6.8 TB。因此,采用 BFLOAT16、FLOAT16、INT8等新颖的数据格式以最小化所需的内存占用是至关重要的。通常,量化器可以帮助将来自浮点 32 模型的数据精度降低到量化模型。此外,可以利用 AI分析工具来识别导致最重要瓶颈的层,这有助于嵌入式 AI工程师在边缘优化其模型。而且,关键在于需要开发特定领域的模型以简化模型复杂性,从而减少模型层数,使其更容易部署到嵌入式 AI模型中。
作为一家可以同时提供x86、GPU、FPGA和自适应SoC技术的行业领导者,AMD的嵌入式边缘AI技术聚焦在汽车、工业、智能家居和智慧城市以及网络与存储等应用,帮助客户快速构建面向物联网网关、边缘基础设施、迷你电脑、瘦客户端等智能边缘应用的经济高效的产品和解决方案。
(本文来源于《EEPW》2024.5)
评论