AI算力池化的五大场景揭秘( 二 ) _软件

文章图片

图4: OrionX优化CPU和GPU资源配比示例
◆ ◆ ◆ ◆
场景五：显存超分
◆ ◆ ◆ ◆
要想利用资源碎片，一种思路是找到适合碎片的算力任务也运行到这张卡（未必好找）。运用软件定义的虚拟显存的技术，使用部分内存来补足显存，让两个任务同时运行在这张卡上。资源不变，通量达到1.8倍！
你可能还会想到，如果在跑一个训练任务的时候，模型所需的物理显存不够，是不是也可以用内存来补足加载？是的。可以加载运行，但是要付出一定的性能损耗。此方案在必须改模型或要采购大显存物理卡之外，又提供了一种可能的选择。

文章图片

图5: OrionX显存超分提升资源利用率示例
以上利用软件定义GPU的方法来优化AI算力的五大场景，只是我们看到的冰山一角。软件定义GPU所能带来的业务价值，还有待于企业客户在各个领域的不停探索。
除此之外，不得不提一下此项技术额外的 Bonus ，降低碳排放，保护地球家园！

文章图片

图6: OrionX关键效能指标收益对比示例
最后，做个小结。软件定义的核心是通过软件定义的方法，将各种硬件（CPU、内存、磁盘、I/0等）变成可以动态管理的“资源池” ，从而提升资源的利用率，简化系统管理，实现资源整合，让IT对业务的变化更具适应力。
软件定义的AI算力，一方面可以把一颗物理加速芯片（GPU或ASIC）变成几个或几十个互相隔离的小的计算单元，也可以把分布在不同物理服务器上的加速芯片聚合给一个操作系统（物理机/虚拟机）或容器，完成分布式任务。此外，没有加速芯片（GPU或ASIC）的CPU服务器也可以调用远程服务器上的加速卡(GPU或ASIC)完成AI运算，实现CPU与GPU设备的解耦。软件定义实质是通过软件的方法提供更有弹性的硬件。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。