如何采集10万数据
思考:
采集的本质-从站外数据源获取数据后导入本地系统
采集的目标-完整列表、完整数据、失败记录、重试支持、速度快
采集的步骤:
- 建立目标数据表,找到对应数据和html元素的对应关系
- 写采集脚本
- 采集数据
- 错误队列处理
- 优化脚本
- 检查数据量
目标表:
- goods_type 汽车类型
- brand_category 汽车分类
- brand 汽车品牌
- attribute 参数
- goods 车型
- brand_cat_series 车系
- goods_attr 车属性存储表 goods_id 关联 attr_id 和 attribute 关联
之间的关联关系:
good > goods_type 、goods_attr
goods_type <-> attribute 通过 cat_id 关联
brand > brand_category分类、brand_cat_series车系
采集顺序