文章图片
图4: OrionX优化CPU和GPU资源配比示例
◆ ◆ ◆ ◆
场景五:显存超分
◆ ◆ ◆ ◆
要想利用资源碎片 , 一种思路是找到适合碎片的算力任务也运行到这张卡(未必好找) 。 运用软件定义的虚拟显存的技术 ,使用部分内存来补足显存 , 让两个任务同时运行在这张卡上 。资源不变 ,通量达到1.8倍!
你可能还会想到 , 如果在跑一个训练任务的时候 , 模型所需的物理显存不够 , 是不是也可以用内存来补足加载?是的 。 可以加载运行 , 但是要付出一定的性能损耗 。 此方案在必须改模型或要采购大显存物理卡之外 , 又提供了一种可能的选择 。
文章图片
图5: OrionX显存超分提升资源利用率示例
以上利用软件定义GPU的方法来优化AI算力的五大场景 , 只是我们看到的冰山一角 。 软件定义GPU所能带来的业务价值 , 还有待于企业客户在各个领域的不停探索 。
除此之外 , 不得不提一下此项技术额外的 Bonus , 降低碳排放 , 保护地球家园!
文章图片
图6: OrionX关键效能指标收益对比示例
最后 , 做个小结 。 软件定义的核心是通过软件定义的方法 , 将各种硬件(CPU、内存、磁盘、I/0等)变成 可以动态管理的“资源池” , 从而提升资源的利用率 , 简化系统管理 , 实现资源整合 , 让IT对业务的变化更具适应力 。
软件定义的AI算力 , 一方面可以把一颗物理加速芯片(GPU或ASIC)变成几个或几十个 互相隔离的小的计算单元 , 也可以把分布在不同物理服务器上的加速芯片 聚合给一个操作系统(物理机/虚拟机)或容器 , 完成分布式任务 。 此外 , 没有加速芯片(GPU或ASIC)的CPU服务器也可以 调用远程服务器上的加速卡(GPU或ASIC)完成AI运算 , 实现CPU与GPU设备的解耦 。 软件定义实质是通过软件的方法 提供更有弹性的硬件 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
