cardinality=28800991
avgRowSize=1.4884362
numNodes=0
PLAN FRAGMENT 2
OUTPUT EXPRS:
PARTITION: RANDOM
STREAM DATA SINK
EXCHANGE ID: 06
UNPARTITIONED
5:IcebergScanNode
TABLE: customer
cardinality=500000
avgRowSize=36.93911
numNodes=0
PLAN FRAGMENT 3
OUTPUT EXPRS:
PARTITION: RANDOM
STREAM DATA SINK
EXCHANGE ID: 02
UNPARTITIONED
1:IcebergScanNode
TABLE: date_dim
cardinality=73049
avgRowSize=4.026941
numNodes=0
三、基准测试 TPC-H 是美国交易处理效能委员会TPC(Transaction Processing Performance Council)组织制定的用来模拟决策支持类应用的测试集 。It consists of a suite of business oriented ad-hoc queries and concurrent data modifications.
TPC-H 根据真实的生产运行环境来建模 , 模拟了一套销售系统的数据仓库 。 该测试共包含8张表 , 数据量可设定从1 GB~3 TB不等 。 其基准测试共包含了22个查询 , 主要评价指标为各个查询的响应时间 , 即从提交查询到结果返回所需时间 。
测试结论
在 TPCH 100G规模的数据集上进行对比测试 , 共22个查询 , 结果如下:
文章图片
StarRocks 使用本地存储查询和 Hive 外表查询两种方式进行测试 。 其中 , StarRocks On Hive 和 Trino On Hive 查询的是同一份数据 , 数据采用 ORC 格式存储 , 采用 zlib 格式压缩 。 测试环境使用阿里云 EMR 进行构建 。
最终 , StarRocks 本地存储查询总耗时为21s , StarRocks Hive 外表查询总耗时92s 。 Trino 查询总耗时307s 。 可以看到 StarRocks On Hive 在查询性能方面远远超过 Trino , 但是对比本地存储查询还有不小的距离 , 主要的原因是访问远端存储增加了网络开销 , 以及远端存储的延时和 IOPS 通常都不如本地存储 , 后面的计划是通过 Cache 等机制弥补问题 , 进一步缩短 StarRocks 本地表和 StarRocks On Hive 的差距 。
具体测试过程请参考:StarRocks vs Trino TPCH 性能测试对比报告
四、未来规划 得益于全面向量化执行引擎 , CBO 优化器以及 MPP 执行框架等核心技术 , 目前 StarRocks 已经实现了远超其他同类产品的极速数据湖分析能力 。 从长远来看 ,StarRocks 在数据湖分析方向的愿景是为用户提供极其简单、易用和高速的数据湖分析能力 。 为了能够实现这一目标 , StarRocks 现在还有许多工作需要完成 , 其中包括:
- 集成 Pipeline 执行引擎 , 通过 Push Based 的流水线执行方式 , 进一步降低查询响应速度
- 自动的冷热数据分层存储 , 用户可以将频繁更新的热数据存储在 StarRocks 本地表上 , StarRocks 会定期自动将冷数据从本地表迁移到数据湖
- 去掉显式建立外表的步骤 , 用户只需要建立数据湖对应的 resource 即可实现数据湖库表全自动同步
- 进一步完善 StarRocks 对于数据湖产品特性的支持 , 包括支持 Apache Hudi 的 MOR 表和 Apache Iceberg 的 v2 表;支持直接写数据湖;支持 Time Travel 查询 , 完善 Catalog 的支持度等
- 通过层级 Cache 来进一步提升数据湖分析的性能
[1] https://help.aliyun.com/document_detail/404790.html
【EMR StarRocks 极速数据湖分析原理解析】[2] https://github.com/StarRocks/starrocks/issues/1030
[3] https://docs.dorisdb.com/zh-cn/main/using_starrocks/External_table#hive%E5%A4%96%E8%A1%A8
[4] https://github.com/StarRocks/starrocks/issues/2772
[5] StarRocks vs Trino TPCH 性能测试对比报告
本文为阿里云原创内容 , 未经允许不得转载 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
