如何采集10万数据

思考: 

采集的本质-从站外数据源获取数据后导入本地系统

采集的目标-完整列表、完整数据、失败记录、重试支持、速度快

采集的步骤:

  1. 建立目标数据表,找到对应数据和html元素的对应关系
  2. 写采集脚本
  3. 采集数据
  4. 错误队列处理
  5. 优化脚本
  6. 检查数据量

目标表:

  1. goods_type 汽车类型
  2. brand_category 汽车分类
  3. brand 汽车品牌
  4. attribute 参数
  5. goods 车型
  6. brand_cat_series 车系
  7. goods_attr 车属性存储表 goods_id 关联 attr_id 和 attribute 关联

之间的关联关系:

good > goods_type 、goods_attr

goods_type <-> attribute  通过 cat_id 关联

brand > brand_category分类、brand_cat_series车系


采集顺序

标签:<a href="/?tag=采集">采集</a>