2018-08-13例会

爬虫的问题

  1. 问题:influxdb查不出数据 原因:influxdb结果超过6000条的查询会导致前端页面超时 解决:前端修改超时时间
  2. 问题:爬虫部分商品信息爬取不到 原因:seller类由于代理请求失败导致整条信息不完整被舍弃 解决:改进相关middleware类: 1).设置seller相关属性默认值 2).添加400编号至判断池以避免触发HttpError异常

数据仓库进度

  • 刘佼 在集群中添加了部分服务

任务安排

  • 刘佼 1.了解未知服务功能及在集群中的作用 2.周三完成HDP的组建
  • 王林 1.kylo配置文件及相关账户权限的配置 2.周三完成kylo的组建