人工智能推动在边缘提供更多智能以及云计算

作者:四川成都联想服务器总代理 来源:成都联想服务器总代理商 点击量:202

由于新硬件,边缘推理变得越来越重要


技术在循环中发展,现在没有比对边缘人工智能的强调更明显的循环了。特别是,我们发现边缘推理的巨大转变。NVIDIA 是这一推动力的重要组成部分,它希望推动其 GPU 在数据中心之外的应用。尽管如此,事实是企业需要更快地做出更多决策,因此人工智能基础设施需要更接近数据。


还记得 Hub-and-Spoke 吗?

在“过去”中,我们讨论了数据创建方面的优势,以及如何通过采用传统的轴辐式方法将数据快速有效地返回数据中心。该设计让位于分层设计,基于核心、访问和分布,具有大量冗余和硬件,唯一目的是将数据返回主数据中心。在边缘收集的所有数据只是为了传输回主数据中心进行处理,然后再推送回边缘设备,事实证明效率低下、成本高昂且耗时。

因此,也许这种轮辐式设计毕竟还不错。随着人工智能推动在边缘提供更多智能以及云计算的中断,设计似乎正在显着影响网络设计、边缘部署和数据处理位置。事实上,今年的HPE Discover会议有一个标语,如果您只是将核心换成云,那么在云热潮之前的任何一年都会非常熟悉,“边缘到云会议”。


跃跃欲试

HPE 并不是唯一一家意识到边缘到云计算对行业的重要性的供应商,戴尔科技集团在戴尔科技世界大会期间也提供了类似的故事。IBM、联想、NetApp 和 Supermicro 也一直表示需要在边缘做更多的事情,同时更有效地利用云资源。

是什么推动了边缘计算的激光焦点?客户正在从传感器、物联网设备和自动驾驶汽车数据集合中收集到的边缘数据量。在源头接近数据将带来商业利益,包括更快的洞察力和准确的预测,以及更快的响应时间和更好的带宽利用率。边缘的 AI 推理(使用 AI 技术的可操作智能)提高性能,减少时间(推理时间),并减少对网络连接的依赖,最终提高业务底线。


为什么不在云中进行边缘推理?

为什么不能在云端进行边缘推理?它可以,而且对于时间不敏感且被认为不重要的应用程序,云 AI 推理可能是解决方案。然而,实时推理有很多技术挑战,其中延迟是主要的。此外,随着物联网设备和需要在边缘处理的相关应用程序的持续增长,为所有设备提供高速云连接可能并不可行。

边缘计算带来了自身的挑战,包括现场支持、物理和应用程序安全,以及导致存储受限的有限空间。今天的边缘服务器为传统的边缘工作负载提供足够的计算能力,GPU 增加了更多的能力而不增加复杂性。


边缘选项的增长

有趣的是,较小的系统供应商主要主导边缘基础设施市场。例如,Supermicro 多年来一直在谈论 5G 和电线杆上的数据中心,而 Advantech 和许多其他专业服务器提供商也一直在做同样的事情。但随着 GPU 的改进,更重要的是支持它们的软件的改进,边缘人工智能的整个概念变得更加真实。

我们最近以几种不同的方式在我们的实验室中看到了这种转变。首先,新的服务器设计带来了 NVIDIA 的单插槽、低功耗 GPU,例如 A2 和广受欢迎的 T4。最近联想和超微都向我们发送了集成这些 GPU 的服务器进行评估,性能令人印象深刻。

其次,基础设施提供商非常重视提供边缘解决方案,其指标直接与数据中心的主要内容(如低延迟和安全性)相关联。我们最近使用Dell PowerVault ME5研究了其中一些用例。尽管 ME5 被定位为 SMB 存储解决方案,但由于其成本/性能比,ME5 引起了人们对边缘用例的极大兴趣。

最终,边缘推理的故事非常简单。它归结为 GPU 处理数据的能力,通常是在运行中。我们一直在努力扩展我们的测试,以更好地了解这些新服务器和 GPU 如何为边缘推理角色工作。具体来说,我们研究了流行的边缘工作负载,例如图像识别和自然语言处理模型。


测试背景

我们正在使用 MLPerf 推理:边缘基准测试套件。这套工具比较了各种现实世界边缘场景中流行的深度学习模型的推理性能。在我们的测试中,我们有 ResNet50 图像分类模型和用于问答任务的 BERT-Large NLP 模型的数字。两者都在 Offline 和 SingleStream 配置中运行。

离线场景以“批处理模式”评估推理性能,此时所有测试数据都立即可用,并且不考虑延迟。在这个任务中,推理脚本可以以任意顺序处理测试数据,目标是最大化每秒的查询数(QPS=吞吐量)。QPS 数越高越好。

相比之下,单流配置一次处理一个测试样本。一旦对单个输入(在 ResNet50 案例中,输入是单个图像)执行推理,就会测量延迟,并将下一个样本提供给推理工具。目标是最小化处理每个查询的延迟;延迟越低越好。为简洁起见,将查询流的第 90 个百分位延迟捕获为目标指标。



边缘推理——联想 ThinkEdge SE450

在审查了ThinkEdge SE450 之后,我们与联想合作,在系统中的 NVIDIA A2 和 T4 上运行 MLPerf。目标是了解 SE450 仅使用单个 GPU 可以做什么。应该注意的是,该系统最多可以支持四个低功耗 NVIDIA GPU,将这些数字外推到所需卡的数量是合乎逻辑的。

对于此测试,我们直接与联想合作,在我们的实验室中使用 NVIDIA A2 和 T4 测试各种配置。使用 MLPerf,供应商拥有针对其特定平台进行调整的特定测试工具。我们使用联想的测试工具进行边缘推理基准测试,以了解这些流行的 GPU 的出处。


我们实验室 SE450 中 A2 和 T4 的测试结果:

基准 NVIDIA A2 (40-60W TDP) 英伟达 T4 (70W TDP)

ResNet50 单流 0.714ms 延迟 0.867 延迟

ResNet50 离线 3,032.18 个样本/秒 5,576.01 个样本/秒

BERT 单流 8.986 毫秒延迟 8.527 毫秒延迟

BERT 离线 244.213 个样本/秒 392.285 个样本/秒

有趣的是,NVIDIA T4 在整个过程中都表现得非常好,这让一些人仅仅因为它的年龄而感到惊讶。T4 的性能配置是 T4 仍然广受欢迎的一个非常明显的原因。也就是说,在实时图像推理方面,A2 比 T4 具有显着的延迟优势。

最终,GPU 的决定是针对手头的特定任务进行调整的。较旧的 NVIDIA T4 消耗更多功率 (70W) 并使用 PCIe Gen3 x16 插槽,而较新的 A2 旨在以较低功率 (40-60W) 运行并使用 PCIe Gen4 x8 插槽。随着组织更好地掌握他们对边缘基础设施的要求,结果将更有意义,边缘推理项目将更有可能成功。


最后的想法

供应商正在竞相为边缘市场开发更小、更快、更坚固的服务器。从零售到工厂再到医疗保健的组织都在要求更快地洞察从源头收集的数据。改进推理时间、减少延迟、提高性能的选项以及利用新兴技术将迅速区分赢家和输家。

随着组织找到新的方法来利用从不断增加的物联网设备数量中收集的见解,边缘市场并没有停滞不前。我们的团队认为,对于那些能够在各自行业中快速行动的人来说,这是一个利用边缘人工智能的重要机会,其中包括这个边缘推理用例。





成都联想服务器总代理 - 成都强川科技有限公司专注企业IT服务需求,产品可按需定制。主营:联想ThinkSystem服务器、联想电脑(笔记本/台式机)、联想ThinkStation工作站、联想存储设备,以专业的IT解决方案和优质的服务体验赢得企业信赖。QQ:2851150694;服务热线:028-85024766  18215624006(微信同号)

热门文章