3.1 数据清洗:缺失值、异常值和重复值的处理-1

说明:本文是《Python数据分析与数据化运营》中的“3.1 数据清洗:缺失值、异常值和重复值的处理”第一部分。

-----------------------------下面是正文内容--------------------------

在数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集通过丢弃、填充、替换、去重等操作,实现去除异常、纠正错误、补足缺失的目的。

3.1.1 遇到缺失值就要补全吗

数据缺失分为两种:一是行记录的缺失,这种情况也定义为数据记录丢失;二是数据列值的缺失,指由于各种原因导致的数据记录中某些列的值空缺,不同的数据存储和环境中对于缺失值的表示结果不同,例如数据库中是Null、Python返回对象是None、Pandas或Numpy中是NaN。 继续阅读3.1 数据清洗:缺失值、异常值和重复值的处理-1