联想Neptune解决方案让天气超级计算机再次降温

作者:四川成都联想服务器总代理 来源:成都联想服务器总代理 点击量:497

【成都联想服务器总代理】世界顶级的气候和天气建模超级计算站点理所当然地应该引领更高效、可持续和绿色的数据中心实践。通过正确的方法,这些中心可以证明功率和性能不需要是一个权衡游戏,并且系统可以通过高效冷却实现根本的性能。

虽然电源和冷却是设施级别的问题,但 TOP500 中领先的超级计算机供应商联想和韩国气象局 (KMA) 正在证明服务器级液体冷却可以为尖端的 HPC 效率做些什么。

KMA 是韩国的国家气象局,提供天气预报并发布该地区恶劣天气状况的警告。政府还进行气候变化研究,以使韩国政府能够制定政策。为了完成这项工作,KMA 运营着国家计量超级计算机中心 (NCMS),这是韩国最大的超级计算机,支持重要的天气和气候预测。

KMA 最新系统“5 号超级计算机”的核心是联想的 Neptune 直接水冷 (DWC) 技术,这在韩国尚属首创。Neptune 技术是全球一些要求最严苛的 HPC 中心的领头羊,它利用通过铜回路直接输送到系统中的水来冷却机载服务器组件,包括处理器、内存和 PCIe 设备。

由于每个节点中计算能力的绝对密度,这种冷却的替代方法在像超级计算机 5 号这样的系统上变得越来越重要。这种计算能力由专注于 HPC 的英特尔第三代至强可扩展 CPU(又名“Ice Lake”)推动,专为液体冷却而设计。与之前的系统相比,8386Q CPU 使 KMA 的峰值性能潜力提高了 9 倍。

所有关键任务的天气预报超级计算机都是镜像的,这意味着有两个系统具有完全相同的备份配置,以防需要快速选取模型以避免预测失误。KMA 也不例外。“Maru”和“Guru”集群分别能够达到 25 petaflops 的峰值性能(足以单独跻身地球上更强大的前 25 名系统),并且与 50 petaflops 的理论峰值一起,足以跻身世界十大系统。

这种性能所需的服务器密度不仅仅与处理器有关:联想将领先的网络和内存技术(包括 HDR InfiniBand)集成到架构中。与特殊的 2.6GHz 处理器一起,这意味着注意冷却每个节点对于持续高效的性能至关重要。事实上,随着越来越多的超级计算机性能的提升,像 KMA 在其联想合作伙伴中选择的更直接的水冷将成为 TOP500 系统的标准,因为标准风冷系统将无法实现性能和密度的结合。两个独立的双插槽 Lenovo ThinkSystem SD650-V2 计算节点安装在一个托盘上,每个 6U n1200 机箱有六个托盘。一个机架可以容纳六个 n1200,每个机架总共有 72 个节点和 144 个处理器。

为什么KMA选择了直接温水冷却的联想ThinkSystem SD650-V2节点作为5号超级计算机的构建模块?因为采用温水冷却的 Neptune 实现可以从 CPU 中去除更多热量,支持高达 300W 的功率 —— 这是对风冷方法的巨大改进,风冷方法可以解决从 165W 到超过 200W 的任何问题,并经过特殊调整。所有服务器元件都处于更佳温度,性能得到保证,数据中心能源成本比传统空气冷却可降低 30-40%。

对于像 KMA 这样的气象中心,负责关键任务预测的备份系统是必不可少的。KMA 将 5 号超级计算机分成两个系统,命名为 Maru 和 Guru,以实现冗余。如果不采用高效冷却,热关机和性能受限会导致时间损失,甚至数据丢失也始终是一个威胁。除了提高其双超级计算机的效率和性能外,KMA 还具有使运营保持最高生产力的额外好处。

十多年来,联想一直在完善液体冷却技术的艺术和科学。该公司的 DWC 之旅始于 2012 年,当时他们面临着交付基于 x86 处理器技术的高密度超级计算机的挑战。当时,CPU 是系统内的主要热量产生器,因此这就是他们创新的铜水循环的目标。随着时间的推移,他们将环路的功能扩展到内存、存储、PCIe、电源和现在的加速。

在 KMA 可以看到这一长达十年的研究过程的最终结果。Lenovo ThinkSystem SD650 V2 的特点是将水直接输送到计算节点以散热。但海王星超越了直接冷却,包括后门热交换器技术,以及独特的热传递模块 (TTM) 和液气 (L2A) 热交换器,它们使用液体来增加风冷系统中的空气,并在不添加任何添加剂的情况下实现更高的性能到数据中心的管道。

NeXtScale n1200

一个 6U NeXtScale n1200 机柜最多可容纳 12 个 SD650 计算节点。该机箱最多可容纳 24 个处理器、9.2 TB 内存、24 个 SFF SSD 或 12 个 SFF NVMe 驱动器以及 24 个 M.2 引导驱动器。

与任何其他气象实体一样,KMA 面临的挑战是更快、更准确地为多个选区生成预测(农场使用的数据与机场不同)。

虽然在效率、性能和可靠性的如此显着改进中,这似乎是一个小点,但联想 ThinkSystem SD650 V2 节点要安静得多,因为它们没有系统风扇 —— 任何数据中心运营商都会告诉你这可能是一个主要的问题。而对于这些设施运营商来说,联想的 Neptune 技术带来的密度留下了充足的增长空间。

气候科学家和预测专业人员的模型具有更高的分辨率和更多的计算能力。由于高效排热(高达 90% 的来自服务器组件的热量),该中心可确保系统可靠性和最高性能,并且设施所有者在扩展中心时可以高枕无忧。

直接水冷是双赢的。KMA 与联想一路相伴,正在为超高密度超级计算铺平道路,从设施的角度关注可持续性、性能、效率和面向未来。

“联想致力于通过先进的技术和创新帮助世界上最聪明的人解决人类面临的最大挑战,”联想数据中心韩国区经理 Steve Shin 说。“这种战略合作伙伴关系不仅加速了 KMA 的天气预报精度和气候变化研究,而且将 KMA 置于 Exascale 计算的风口浪尖。”


成都联想服务器总代理 - 成都强川科技有限公司专注企业IT服务需求,产品可按需定制。主营:联想ThinkSystem服务器、联想电脑(笔记本/台式机)、联想ThinkStation工作站、联想存储设备,以专业的IT解决方案和优质的服务体验赢得企业信赖。QQ:2851150694;服务热线:028-85024766  18215624006(微信同号)

热门文章