数据采集清洗的基本步骤和办法

数据分析前大多都需要按需采集数据,并按照数据分析的需要进行清洗整理,来做到有数用。这个工作耗时耗力,但是总体有规律可循。我们将这个部分持续总结,提高数据采集和清洗的效率。

从采集方式看,有增量和全量:

  • 增量是将上一个处理周期内新产生的数据抽取,累加到抽取结果表中。适合持续增长,数量庞大的事务性数据处理。每次处理的消耗量小,数据持久。但是需要考虑抽取前后的数据标记,历史数据变化等问题。
  • 全量是将目标数据全部抽取,完整覆盖结果表数据。适合数据量小或变化过于频繁(但是以最新为主)的数据。每次处理消耗量大、耗时长。但是不需要特别考虑历史逻辑。

从采集频率看,有批、实时:

实时的综合成本显著高于批,如非必要无需实时。实时需要全链路的确保实时,包括数据源、链路、目标数据库,包括开发、处理、维护。从能力看,由于实时的数据要求,难以进行复杂的运算。从维护看,需要对数据链路上的源、目的存储的确保实时不出故障。

数据采集通路建好后,对于采集的数据要进行数据清洗,按照顺序主要分为以下几个步骤:

  1. 列名定义:清晰定义列含义,比如user id转换为应用可理解的描述。这也是理解数据的过程。后面的操作都需要在理解数据的基础上开展。是数据资产的基本步骤。
  2. 选择数据范围(行、列):原数据集中数据量庞大,按照按需取数的原则,获取特定行列的数据。比如按照分析所需选取其中的100万条数据,前20列进行分析。
  3. 删除重复值:思考重复的事务的含义,并设定重复规则。比如将用户ID,商品ID,时间戳三个字段定为联合主键,查询是否存在重复的记录。
  4. 删除异常值:定义数据异常,将异常数据删除。因为此次数据研究的时间范围是2017年11月25日至2017年12月3日,所以需要将不满足这个时间范围的数据删除。
  5. 处理缺失值:是否存在列值缺失的错误数据。比如删除关键字段缺失的数据,也可以使用差值补全的方式来处理。
  6. 一致化处理:各列数据格式是否统一。对于格式不统一的数据,进行统一或删除。
—— 完 ——
相关推荐
评论

立 为 非 似

中 谁 昨 此

宵 风 夜 星

。 露 , 辰

文章点击榜

细 无 轻 自

如 边 似 在

愁 丝 梦 飞

。 雨 , 花