作业帮受邀出席腾讯数字生态大会 与腾讯云等联合发布云原生“白皮书 ”( 二 )


在应用层 , 作业帮着手对典型场景进行重点攻克 。 对于模块数量最多的PHP业务进行优化运行态优化 , 对资源使用最多的检索服务进行架构优化 。 在部署调度上依托K8S , 实现了CPU、GPU、任务的自定义调度器 。 同时 , 使用在离线混部解决空间不均的问题 , 使用弹性扩缩+serverless解决时间不均的问题 。 而在资源这部分 , K8S通过CRI、CSI、CNI等实现了对应用的透明 , 便于选择更优的机型 。
作业帮受邀出席腾讯数字生态大会 与腾讯云等联合发布云原生“白皮书 ”
文章图片

董晓聪说 , 检索系统是一个复杂的系统 , 作为最底层且需要高性能的服务 , 一般是存储和计算耦合 。 随着数据量越来越大 , 就需要对数据进行切片 , 每个节点只存储一部分的数据 。 由于高并发高可用的要求 , 单片数据节点还需要有多个副本 。 由此形成的一个二维矩阵 。 当需要进行数据更新时 , 由于数据量比较大 , 几百TB 。
“作为容器改造最难啃的骨头 , 为了解决这些问题 , 我们决定进行计算和存储的分离 , 因为只有引入计算存储分离架构 , 才能从根本上解决系统复杂度的问题 。 ”董晓聪说 , 经过多方调研比对 , 作业帮最终选用Fluid作为整个新架构的关键纽带 , 并采用JindoRuntime作为缓存加速引擎 。
这一实践的收益是很可观的 。 董晓聪表示 , PHP框架经过一系列的优化 , 压测下单核可支撑800QPS , 较之前有倍数级别提升 。 应用在具体线上业务 , 带来43%的资源使用降低 。 数据同步周期从小时级别降低到分钟级别 , 一般在8分钟内就可以完成 。 运维成本也大幅度降低 , 交付周期从天级别讲到到小时级别 。 性能提升了30% , 节省了万核级别的资源使用 。
对于作业帮的云原生实践 , 董晓聪表示 , 现在定时任务、AI类业务都大量的使用serverless , 后面希望更大规模的在线业务也可以跑在serverless上 , 实现业务的真正削峰 。 未来 , 作业帮也将探索更多更优的机型 , 以及在部分特定场景下AMD机型的应用 。 此外 , 运营工作经历先靠人再靠运维平台的过程 , 其中涉及较多的数据分析工作 , 未来要将其BI化 , AI化 , 实现成本问题的自动发现 。
编辑:张圣琪
热榜

    长按二维码
    【作业帮受邀出席腾讯数字生态大会 与腾讯云等联合发布云原生“白皮书 ”】关注精彩内容

    特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。