对数据仓库的理解¶
问题¶
- 王林问题
- ODS层的作用。
- 各层数据存在形式。弱化了etl的功能。和ods层到mid的时候清洗一下。
- 刘佼问题
- 元数据管理的混乱。
- kylo的feed和transform强大。
- 疑问点
- ods :处理实时数据与静态数据。
- 必须做成流程化的。
- 韩义问题
- ods数据不应该变更。
- 是否应该拉取全量数据。
总结¶
- DM就是app层,数据在仓库中是有时效的。
- ods中不是数据的备份。
- 是否全量的数据,根据主题的大小。
- 变更的问题,拉历史数据,变更根据业务来确定方案。考虑变更的清洗流程。
任务:¶
- 按层次去划分的命名规范。存储的目录,列族,topic等,表名。文件。
- 元数据系统应该管理啥?血缘,dataschme,job,日报
补充:kylo¶
- 数据湖:ETL+DW+BI
尝试实现每一层的主要技术:¶
- es+hbase+mysql,sparksql+kylin,hive,hdfs+kafka,kylo