3.1 数据清洗:缺失值、异常值和重复值的处理-1

说明:本文是《Python数据分析与数据化运营》中的“3.1 数据清洗:缺失值、异常值和重复值的处理”第一部分。

-----------------------------下面是正文内容--------------------------

在数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集通过丢弃、填充、替换、去重等操作,实现去除异常、纠正错误、补足缺失的目的。

3.1.1 遇到缺失值就要补全吗

数据缺失分为两种:一是行记录的缺失,这种情况也定义为数据记录丢失;二是数据列值的缺失,指由于各种原因导致的数据记录中某些列的值空缺,不同的数据存储和环境中对于缺失值的表示结果不同,例如数据库中是Null、Python返回对象是None、Pandas或Numpy中是NaN。 继续阅读3.1 数据清洗:缺失值、异常值和重复值的处理-1

Python基础数据处理库-Pandas

最近更新:2018-01-11


pandas是Python数据工作的基础库之一,它和numpy、scipy共成为Python数据处理的三剑客。pandas在数据录入、查看、预处理、统计分析、时间序列等方面具有非常强大的能力。尤其它里面的数据框跟R中的数据框类似,其具有的交互性以及对非结构化、非数值型数据的处理能力让Python的基础数据处理事半功倍。 继续阅读Python基础数据处理库-Pandas