以算力池化提升GPU利用率，这家公司要用软件定义算力

【以算力池化提升GPU利用率，这家公司要用软件定义算力｜REAL 100】
文章图片

图片来源：图虫

采访人员｜于浩

把自己想象成80岁的模样，并回望自己的一生，尽力把遗憾事件的数量降到最低。这是贝索斯所提出的遗憾最小化框架。在考虑是否创立亚马逊时，贝索斯也曾因创业的不确定性而犹豫。正是遗憾最小化框架使得他最终迈出了这一步。
在2018年底，王鲲也凭借着这一框架做出了创业的决定。经历过CPU虚拟化的技术浪潮后，时任Dell EMC中国研究院院长的王鲲意识到，当前数据中心里，与计算、存储、网络三个主要支柱相关的硬件资源都需要被很好地软件定义。
当时在软件定义CPU的赛道上，已经出现了如VMware的巨头公司，但同为算力来源的GPU方面，却并未出现足够优秀的虚拟化解决方案。截止2021年12月29日收盘， VMware的市值为493.02亿美元， 2021财年总收入为117.67亿美元。另一方面，随着AI、区块链等技术的发展与应用， GPU的应用场景正在加速扩展，对于虚拟化解决方案的需求也愈发强烈。
王鲲所看到的正是这样一个机会。在2018年底，他下定决心从Dell EMC中国研究院离职，创立了趋动科技。 12月27日，趋动科技宣布已完成数亿元人民币B+轮融资，由普罗资本旗下国开装备基金领投，老股东Prosperity7 Ventures、元禾重元、高瓴创投跟投。
据王鲲介绍，趋动科技的产品线包含OrionX猎户座AI算力资源池化软件与双子座GEMINI AI训练平台。其中， OrionX猎户座AI算力资源池化软件目标在于帮助用户提高资源利用率和降低TCO 。双子座GEMINI AI训练平台则是针对传统行业的客户，在OrionX的基础上为其提供AI算力管理、算法开发、训练支持等整套服务，并搭配图形化界面以降低使用门槛。
回归算力本身， AI领域内不断增长的算力需求与现有GPU的低利用率之间的矛盾一直存在。
一方面， GPU芯片公司英伟达公布其2022财年第3季度收入达71亿美元，最近4个季度增长率均超过65%；但在另一方面， AWS在AWS re:Invent 2018大会曾提及，在AWS上GPU利用率只有10%至30% 。
“用户如果直接访问硬件，那么硬件管理会变得非常复杂，效率也会很低。 ”王鲲将芯片比喻为大巴车，而要运用算力执行的任务被比喻为旅行团。 “如果团里只有三五个人还要派一辆大巴车，那么必然存在资源的浪费。 ”而被软件定义之后， GPU算力资源被虚拟化，用户由管理“大巴车”变为了管理“座位” ，可以依据任务需要调配适当的算力。
在完成了虚拟化之后，趋动科技也支持将GPU资源池化，其中远程调用算力的能力至关重要。通过这一能力，用户即便在未搭载GPU的服务器上，也能够远程调用外部被虚拟化的算力运行计算任务。也得益于这一能力，原先以物理节点形式分散分布的算力得以汇总成一个算力资源池，提升用户的管理效率的同时可降低其使用成本。
实现远程调用算力的同时确保计算效率并不容易。据王鲲介绍，因为计算量过大，运行一个程序一秒钟需要调用GPU的次数将超过100万次，数据循环往复的过程会极大影响性能，因此远程调用算力时需要在网络、GPU、底层操作系统等多方面进行优化。
这也是趋动科技的技术壁垒之一。 “按100分的基准来看，如果不做优化，可能只能得一分或两分，但我们做完优化后，趋动的方案可以得到98分甚至更高，几乎和直接使用硬件没什么区别。 ”王鲲在采访中强调。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。