3.4 解决样本类别分布不均衡的问题

说明:本文是《Python数据分析与数据化运营》中的“3.4 解决样本类别分布不均衡的问题”。

-----------------------------下面是正文内容--------------------------

所谓的不平衡指的是不同类别的样本量异非常大。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种。 继续阅读3.4 解决样本类别分布不均衡的问题

3.2 将分类数据和顺序数据转换为标志变量

说明:本文是《Python数据分析与数据化运营》中的“3.2 将分类数据和顺序数据转换为标志变量”。

-----------------------------下面是正文内容--------------------------

分类数据和顺序数据是常见的数据类型,这些值主要集中在围绕数据实体的属性和描述的相关字段和变量中。 继续阅读3.2 将分类数据和顺序数据转换为标志变量

3.1 数据清洗:缺失值、异常值和重复值的处理-2代码实操

说明:本文是《Python数据分析与数据化运营》中的“3.1 数据清洗:缺失值、异常值和重复值的处理-2 代码实操部分”。

-----------------------------下面是正文内容--------------------------

缺失值处理

对于缺失值的处理上,主要配合使用sklearn.preprocessing中的Imputer类、Pandas和Numpy。其中由于Pandas对于数据探索、分析和探查的支持较为良好,因此围绕Pandas的缺失值处理较为常用。
继续阅读3.1 数据清洗:缺失值、异常值和重复值的处理-2代码实操

1.2 数据化运营所需的Python相关工具和组件

说明:本文是《Python数据分析与数据化运营》中的“1.2 数据化运营所需的Python相关工具和组件”。

本书将以Python为主要数据工作工具,本节将重点介绍Python相关工具,包括Python程序、IDE、Python第三方库、数据库和客户端、SSH远程客户端、OCR工具和机器学习框架等。 继续阅读1.2 数据化运营所需的Python相关工具和组件

Python基础数据处理库-Pandas

最近更新:2018-01-11


pandas是Python数据工作的基础库之一,它和numpy、scipy共成为Python数据处理的三剑客。pandas在数据录入、查看、预处理、统计分析、时间序列等方面具有非常强大的能力。尤其它里面的数据框跟R中的数据框类似,其具有的交互性以及对非结构化、非数值型数据的处理能力让Python的基础数据处理事半功倍。 继续阅读Python基础数据处理库-Pandas