华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发( 四 )


  • 创建 VPC、子网、安全组
  • 创建 OBS 桶 , 创建存储作业日志和脏数据目录
  • 购买 DGC 实例 , 并配置默认工作空间
  • 购买 CDM 集群 , 正式项目可考虑使用 ROMA
  • 购买 RDS 实例
  • 购买 DLI 队列实例
在购买完对应资源后 , 需对原始数据进行导入 , 即将数据 SQL 文件导入到 RDS MySQL 数据库中 , 这一操作只需进入 RDS 数据管理页面 , 上传脚本即可快速完成数据导入 。 数据源包含两张表 , 分别是门店表 (t_user_store_info) 和订单表(t_trade_order) 。
RDS MySQL 原始数据导入后 , 我们需要在 DLI 中建立相同的表结构进行贴源层数据导入 。 进入 DLI 库表管理新建一个 DLI 库 , 以此作为项目表存放 DLI 数据库 。
华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

随后在 DLI 的 SQL 编辑器中将建表脚本导入建表 , 表结构和表名称最好与 RDS MySQL 中原表一致 。
数据导入后 , 在 OBS 服务中完成 DGC 日志数据和脏数据文件夹建立 , 以便后续 DGC 正常使用 。
华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

接下来就需要对数据进行入湖处理 , 这里采用 DGC 的数据集成模块 , DGC 批量数据迁移 CDM 提供同构或异构数据元之间批量数据迁移服务 , 可以帮助企业实现数据的自由流动 , 支持关系型数据库、数据仓库、NoSQL、大数据云服务、对象存储等数据源 。
这些数据源涵盖华为云 DWS、华为云 DLI、FusionInsight LibrA、Hadoop、OBS、阿里云 OSS、FTP、SFTP、NAS、MySQL、HWSQL、PostgreSQL、SQL Server、DDM、Oracle、Db2、Redis、MongoDB、CSS、Apache Kafka 等 30 多种数据源 。
这些数据源可以作为源也可以作为迁移目的 , 租户可以按需付费 , 控制和租户之间是完全分离的 , 数据始终是在原始位置 , 后续的作业、对数据的操作都是与原始数据隔离 , 通过 CDM 可以更加安全的保护原始数据 。
之前我们导入的 RDS MySQL 云数据库服务作为源数据 , 另外一个则是数据湖探索 DLI 的连接 , 通过 CDM 服务我们快速生成 DLI 内贴源数据导入 。
华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

这里 , CDM 提供自动化的字段映射 , 对于不同数据源数据类型不同这样的情况 , CDM 支持数据类型一键转换 。 在 CDM 迁移之前 , 我们已经提前将对应的表在 DLI 中建好 , 分别是 t_trade_order 和 t_user_store 。 这样 CDM 就可以进行快速匹配 。
华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发
文章图片

通过 CDM 我们就快速实现了源数据导入贴源数据的数据迁移工作 , 由于原始数据可能存在不断生成的问题 , 这里 CDM 也提供周期作业以此对数据进行导入 。 接下里 , 我们再进行具体的业务场景设计和相关脚本的开发 。
轻开发:开发高度可视化 , SQL 脚本通用简单
华为云大数据轻量级解决方案最重要的特点是全流程的高度可视化 , 没有复杂的代码编写过程 , 对开发人员的技术要求不高 , 可以从业务层面需求出发进行系统化的建模 , 再通过建模实现对应开发脚本的生成 。 整个过程非常的快速高效 , 由于华为云大数据解决方案中的 DLI、DWS 等服务均支持标准 SQL 语句 , 因此各类脚本编写上难度不大 。 在本例中首先需要对业务进行建模 , 在形成对应的业务指标对贴源数据进行清洗加工并输出有实际指导意义的参数 。
华为云大数据轻量级解决方案将业务实体与实现细节紧密结合让需求方无需了解太多编程相关的细节 , 让开发方不必考虑业务实现的逻辑 。 通过这套解决方案的 DGC 规范设计模块就能初步实现各类业务的需求指标设计并对数据进行标准化 , 包含主题设计、数据标准设计、数据模型设计、数据指标设计 , 通过规范设计可以根据客户的业务需求 , 进行统一的数据分类、数据标准化、指标定义和数据模型体系建设 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。