如何让超级算力飞入“云数据中心”？ _架构

云计算的灵活、安全与超算的极致性能，能否完美融合到一起？
对于很多企业用户来说，由于技术架构方面的壁垒，长期以来，云和超级计算两种服务往往只能二选一，不能兼得。但近日， NVIDIA打破了这一说法。
NVIDIA网络事业部宋庆春表示：“通过NVIDIA云原生超级计算（Cloud Native Supercomputing）技术，可以让数据中心拥有了超算技术的高性能，同时把云数据中心的灵活性和安全性带进了超算平台。 ”

文章图片

NVIDIA网络事业部宋庆春
那么， NVIDIA如何将超算中心与云更好的结合在一起的呢？
会计算的网络，让数据在哪计算就在那
如何把各种云原生的设备高效的连接起来，是让超级算力走入千万数据中心首要解决的挑战。
NVIDIA提供了一个崭新的解决思路：“数据在哪，计算就在那” 。
要实现这一解题思路，就需要借助InfiniBand网络来实现。 InfiniBand是会计算的网络，不管是在InfiniBand的网卡上、DPU上还是交换机上，都赋予更强劲的针对不同业务的引擎，这样可以把不同的业务模型和通信模型的计算放到卡上或者交换机上。

文章图片

同时， InfiniBand网络可以很容易扩展到几万、几十万、上百万的节点，可以采用不同的拓扑方案而不需要担心拓扑中出现死锁和网络风暴的问题，而且InfiniBand的动态路由可以让网络的利用效率变得非常高。
并且InfiniBand网络可以即插即用。在InfiniBand网络中，你不用对交换机或网卡做任何特殊设置，不需要做IP设置等。可以说， InfiniBand网络天生就是非常适合云原生架构的网络。
为了给企业客户提供更好的应用InfiniBand网络支撑，NVIDIA推出了Quantum－2平台，宋庆春表示：“Quantum-2是一个会计算的网络，真正契合了超级计算和云原生对网络的需求，我们的目标是实现数据在哪里，计算就在那里。 ”

文章图片

据介绍， NVIDIA Quantum－2平台有三个非常重要的产品，分别是Quantum－2交换机、CONNECTX－7 InfiniBand网卡和基于BlueField－3的InfiniBand DPU ，这三款产品拥有多租户、性能隔离、拥塞控制、超高精度计时器等关键功能。
Quantum－2平台不但能够实现GPU Direct RDMA对AI业务至关重要的技术，增加了PDA （Programmable Datapath Acclerator）来对特定流量进行编程和加速，而且还对各种通信模型进行了专门优化，提高了Allreduce 和 All－to－All等通信时的通信效率。
在微软Azure公有云上的测试显示，因为采用了InfiniBand动态路由和拥塞控制技术，实现了云上性能的保障。同时，成功的将不同的业务之间进行性能隔离，让一个业务不会影响到其他的业务，实现了真正的完全的Bare-metal的性能。
3U一体，给云原生架构赋予无限算力资源
未来，随着数据中心的发展，需要将计算移至接近数据的位置。
DPU的出现，为用户提供了另外一个对业务性能进行优化的思路。通过更明细的分工来实现效率的提升、实现总体系统的成本最优化， DPU来运行通信框架， CPU和GPU执行浮点计算，通过DPU加速HPC业务中的通信，实现了计算和通信的重叠。
DPU是集数据中心基础架构于芯片的通用处理器。从DPU概念的提出者NVIDIA的现有技术发展趋势来看，未来的技术发展趋势将会是高度集成化的片上数据中心的模式（Data Center Infrastructure on a chip），即一个GPU、CPU、DPU共存的时代。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。