如何让超级算力飞入“云数据中心”？( 二 ) _架构

文章图片

NVIDIA布局的数据中心从核心到边缘（Edge）都采用了统一的一个计算架构——CPU、GPU、DPU ，如图所示，形成了“3U”一体架构。 3U一体的统一计算单元架构将会让管理程序、调度程序都会变得非常容易。
宋庆春解释说，在这种新的3U一体的数据中心架构之下，将传统Infrastructure的操作都放到了BlueField DPU上，由DPU执行通信框架、存储框架、安全框架和业务隔离等，将Host里面的CPU和GPU资源统统释放给应用，通过这一架构可以让业务性能得到更优的发挥，甚至比在Bare-metal状况下它的性能还会有更好的提升。

文章图片

比如iAlltoall是在HPC应用、AI做推荐时的经常会用到的通信模型。通过用DPU和CPU实现计算和通信的重叠，让iAlltoall性能得到44%的提升。 iAllgather是做大规模模型训练时用到的一个通信模型，通过DPU和CPU计算通信的Overlap ，能够让iAllgather性能提升36％。
宋庆春表示， DPU的出现弥补了数据中心Infrastructure加速能力不足的问题，让数据中心成为新的计算单元，给数据中心算力优化提供了全新的资源。因此， 3U一体已经成为数据中心的一个必然的架构，而且，在这样一个必然的架构中通过DPU、CPU和GPU的分工合作实现一个数据中心中最优的性能。
云原生软件定义安全为零信任提供安全保障
随着数据的传输越来越快，越来越复杂，传统的方式或者工具已经没有办法满足现在数据中心的安全需求。
在传统的数据中心，发现一个漏洞，可能需要超半年的时间，而要修复这个漏洞需要超过两个多月的时间，这个对于基于零信任（Zero-trust）的前提下是绝对不可接受的，这说明整个数据中心是非常不安全的。
如何解决这个问题？
在今年秋季GTC上， NVIDIA发布了 DOCA 1.2 。 DOCA 1.2是专门面向零信任（Zero-trust）的安全框架，提供了Load Balancers、DPI、 IPS、IDS、下一代防火墙，设计安全软件的用户或者安全软件的供应商，可以直接通过DOCA API调用在GPU里的硬件加速引擎，让数据中心更安全。

文章图片

黄仁勋专门针对Morpheus安全框架进行了讲解。他表示， Morpheus是对未来的数据中心提供了一个更新的思路，通过Morpheus可以利用AI的方式进行安全防御，而不必根据传统的安全顾问对于恶意攻击或者是其他安全特定模型的识别来进行有限的安全防御，利用AI深度学习的方式可以让数据中心得到全方的保护。
通过Morpheus、通过AI对于安全的保障，可以实现600倍快的数据处理的速度， Morpheus可以通过DPU抓取到的数据特征生成百万、千万级别的模型数量，然后在数据中心里面去进行匹配，实现数据中心的异常情况全面监控。

文章图片

而且用Morpheus时，不用去定义这个行为是恶意还是善意的，只看你这个行为是正常的还是异常的，只要是异常行为这时候就会去监控和识别，判断它到底是一个合理还是不合理的行为。
宋庆春表示，在跟Morpheus的整合上，不管是NVIDIA 的以太网还是InfiniBand网络都实现了和Morpheus的整合，特别在InfiniBand网络的UFM Cyber-AI和Morpheus的联合，不但实现了对网络中异常行为的识别处理，同时也实现了对于未来网络中有可能出现的异常情况进行推测，做一些预防性的保护。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。