MDW模块设计¶
- 版本1
- spark任务单个job的运行情况、描述、整体流程、数据量
- 规则。
- 数据结构
- 血缘,从·数据源头开始的一个数据流向,规则。
- 分析结果,存储路径
- 版本2
- 计划任务,全局任务管控,任务关系的一个说明
- 历史数据清理
- 版本3
- etl的元数据部分:包括数据源的配置,以及转换验证规则。
- 表之间关系应该在hive基础上创建。
- 存储格式,追加方式。
- 表结构,应该是读取的。
- 全局的检索,列字段
- kylo的可用性。
- 学习成本?
- 自定义功能。
- 总结
- 数据结构和血缘。wherehouse
- job监控 flume+es
- 流程定制 ooizen+spark+shell
- 验证规则 java
- etl sqoop+flume
- dashboard
- 周报日报
大家相互培训一下¶
ooizen+sqoop+flume+nifi+es+wherehouse