华为OceanStor Pacific斩获IO500榜单第二,数据存储的“时”与“势”( 二 )


国际权威分析师机构Hyperion Research , 曾在2020年对全球HPC市场的增速做出预测:2019年到2024年的时间周期内 , 存储市场的复合增长率有望达到12.1% , 远高于服务器、中间件、应用、服务等市场 。
之所以给出这样的判断 , 离不开一个特定的产业共识:在自动驾驶、气象预测、宇宙探索等热门的应用场景中 , HPC和AI、大数据的融合越来越紧密 , HPC向HPDA(数据密集型超算)的演进 , 屡屡成为行业论坛上的主流议题 。
可以找到的例子有很多 。
过去地震勘探是二维的 , 从二维到三维的演进中 , 采集和处理的数据量增加了5—10倍;电影渲染逐渐从2K向4K乃至8K过渡 , 对应的数据量增加了16倍;卫星测绘领域的精度从20米缩小到2米 , 数据量同比增长了70倍……再加上数据分析处理的算法越来越复杂 , 采集、存储、处理、存档的数据量呈现出爆炸式增长 。
华为OceanStor Pacific斩获IO500榜单第二,数据存储的“时”与“势”
文章图片

然而传统的HPC存储主要用于建模和仿真 , 包括项目文件共享、搜索、归档等等 , 主要是结构化的数据 , 且通常是基于顺序的大I/O型 。 但人工智能的工作流程涉及到数据收集、注入、训练、推理和归档 , 不仅涵盖结构化和非结构化的数据 , 数据存取的场景也更加复杂 , AI负载需要顺序大I/O型和随机小I/O型的组合 , 特别是AI数据集标注的元数据管理 , 需要快速的随机小I/O型 。
也就是说 , 推动数据存储性能不断提升的因素 , 绝不只是IO500榜单 , 而是隐藏在榜单背后的市场需求 。 传统HPC的数据存储已经跟不上需求 , 能否打破数据存储、性能、效率的限制 , 已经是HPC产业革新的掣肘因素 。
按照Hyperion Research在《HPDA趋势白皮书》中的建议 , 针对HPDA负载中经常出现的非结构化数据 , 数据存储应该进行针对性的创新 , 包括支持不同的I/O模型、支持多协议访问、支持各种数据访问频率、高密度高效设计等等 , 不断提升数据利用率 , 进一步释放数据潜力 。
恰恰是数据存储的新一轮革命 , 为华为等企业提供了重拾话语权的机会 , 并趁机进行直线超车 。
03 华为越级的硬实力 也就解释了文初的一幕:几年前的IO500榜单还被Intel、DDN、IBM等企业占领 , 当HPC向HPDA演进的时候 , 华为OceanStor Pacific等新势力频频出现 , 而且就拿到了让人振奋的位次 。
如同中国超算力量的强势崛起 , 华为OceanStor Pacific斩获IO500榜单全球第二的消息并不令人意外 。 在这场技术硬实力的较量中 , 华为OceanStor Pacific的“越级”离不开4000多位研发人员夜以继日的努力 , 以及3000多项专利构成的技术创新 , 打破了HPC产业的三重壁垒:
一是多业务混合负载能力 。 传统HPC存储只支持单一负载 , 形成了性能上的孤岛 , 导致流程间的数据需要在不同存储间迁移 , 可以说是效率降低的“元凶” 。
华为OceanStor Pacific存储搭载了新一代并行文件系统 , 针对传统HPC的问题进行了对症下药:采用目录DHT分区、大IO直通小IO聚合、多粒度磁盘空间管理列技术 , 一套存储同时实现了大文件高带宽、小文件高IOPS , 配合分布式并行客户端技术 , 轻松满足了客户对多业务混合负载的需求 。
二是多协议无损互通方案 。 在数据处理过程中 , 多样性的数据转化、拷贝、加载等环节就占据了35%以上的时间 , 人为制造了阻碍效率升维的格式壁垒 。
华为OceanStor Pacific的切入点是协议互通 , 通过统一的数据管理系统和硬件资源池 , 文件、对象、大数据客户端可以同时读写同一个文件 , 不需要协议转换的过程 , 让数据分析的效率提升了30%以上 , 并且避免了数据拷贝产生的冗余副本 , 节省了端到端的存储资源 , 让硬件发挥出极限性能 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。