3.1 数据清洗:缺失值、异常值和重复值的处理-2代码实操

说明:本文是《Python数据分析与数据化运营》中的“3.1 数据清洗:缺失值、异常值和重复值的处理-2 代码实操部分”。

-----------------------------下面是正文内容--------------------------

缺失值处理

对于缺失值的处理上,主要配合使用sklearn.preprocessing中的Imputer类、Pandas和Numpy。其中由于Pandas对于数据探索、分析和探查的支持较为良好,因此围绕Pandas的缺失值处理较为常用。
继续阅读3.1 数据清洗:缺失值、异常值和重复值的处理-2代码实操

3.1 数据清洗:缺失值、异常值和重复值的处理-1

说明:本文是《Python数据分析与数据化运营》中的“3.1 数据清洗:缺失值、异常值和重复值的处理”第一部分。

-----------------------------下面是正文内容--------------------------

在数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集通过丢弃、填充、替换、去重等操作,实现去除异常、纠正错误、补足缺失的目的。

3.1.1 遇到缺失值就要补全吗

数据缺失分为两种:一是行记录的缺失,这种情况也定义为数据记录丢失;二是数据列值的缺失,指由于各种原因导致的数据记录中某些列的值空缺,不同的数据存储和环境中对于缺失值的表示结果不同,例如数据库中是Null、Python返回对象是None、Pandas或Numpy中是NaN。 继续阅读3.1 数据清洗:缺失值、异常值和重复值的处理-1

2.4 本章小结

说明:本文是《Python数据分析与数据化运营》中的“2.4 本章小结”。

-----------------------------下面是正文内容--------------------------

内容小结:本章的内容较多,主要涉及到企业数据化运营可能产生数据的方方面面,包括数据来源的类型、通过不同方式获得运营数据以及对非结构化数据的获取等方面。不同的企业由于其行业和企业背景不同,通常不会全部覆盖其中的所有数据场景,读者可根据自身情况和需求选择。另外,大多数读者所在的企业,应该以结构化的数据为主,内容延展里面的知识作为课外补充和了解即可,真正到需要用到这些知识时,再学习和查阅更多。本书所有示例中的原始代码,在“附件-chapter2”中chapter2_code.py中可以找到,同时在该文件夹下存储了所有示例用到的本地数据。 继续阅读2.4 本章小结

2.3 内容延展:读取非结构化网页、文本、图像、视频、语音

说明:本文是《Python数据分析与数据化运营》中的“2.3 内容延展:读取非结构化网页、文本、图像、视频、语音”。

在前面的章节中,我们介绍的内容是企业常见的数据来源和获取方式,本节将拓展数据来源方式和格式的获取,主要集中在非结构化的网页、文本、图像、视频和语音。 继续阅读2.3 内容延展:读取非结构化网页、文本、图像、视频、语音