对数据仓库的理解

问题

  • 王林问题
  1. ODS层的作用。
  2. 各层数据存在形式。弱化了etl的功能。和ods层到mid的时候清洗一下。
  • 刘佼问题
  1. 元数据管理的混乱。
  2. kylo的feed和transform强大。
  • 疑问点
  1. ods :处理实时数据与静态数据。
  2. 必须做成流程化的。
  • 韩义问题
  1. ods数据不应该变更。
  2. 是否应该拉取全量数据。

总结

  • DM就是app层,数据在仓库中是有时效的。
  • ods中不是数据的备份。
  • 是否全量的数据,根据主题的大小。
  • 变更的问题,拉历史数据,变更根据业务来确定方案。考虑变更的清洗流程。

任务:

  • 按层次去划分的命名规范。存储的目录,列族,topic等,表名。文件。
  • 元数据系统应该管理啥?血缘,dataschme,job,日报

补充:kylo

  • 数据湖:ETL+DW+BI

尝试实现每一层的主要技术:

  • es+hbase+mysql,sparksql+kylin,hive,hdfs+kafka,kylo