3.10 离散化,对运营数据做逻辑分层

说明:本文是《Python数据分析与数据化运营》中的“3.10 离散化,对运营数据做逻辑分层”。

-----------------------------下面是正文内容--------------------------

所谓离散化,就是把无限空间中有限的个体映射到有限的空间中。数据离散化操作大多是针对连续数据进行的,处理之后的数据值域分布将从连续属性变为离散属性,这种属性一般包含2个或2个以上的值域。离散化处理的必要性: 继续阅读3.10 离散化,对运营数据做逻辑分层

3.4 解决样本类别分布不均衡的问题

说明:本文是《Python数据分析与数据化运营》中的“3.4 解决样本类别分布不均衡的问题”。

-----------------------------下面是正文内容--------------------------

所谓的不平衡指的是不同类别的样本量异非常大。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种。 继续阅读3.4 解决样本类别分布不均衡的问题

3.2 将分类数据和顺序数据转换为标志变量

说明:本文是《Python数据分析与数据化运营》中的“3.2 将分类数据和顺序数据转换为标志变量”。

-----------------------------下面是正文内容--------------------------

分类数据和顺序数据是常见的数据类型,这些值主要集中在围绕数据实体的属性和描述的相关字段和变量中。 继续阅读3.2 将分类数据和顺序数据转换为标志变量

3.1 数据清洗:缺失值、异常值和重复值的处理-2代码实操

说明:本文是《Python数据分析与数据化运营》中的“3.1 数据清洗:缺失值、异常值和重复值的处理-2 代码实操部分”。

-----------------------------下面是正文内容--------------------------

缺失值处理

对于缺失值的处理上,主要配合使用sklearn.preprocessing中的Imputer类、Pandas和Numpy。其中由于Pandas对于数据探索、分析和探查的支持较为良好,因此围绕Pandas的缺失值处理较为常用。
继续阅读3.1 数据清洗:缺失值、异常值和重复值的处理-2代码实操

1.2 数据化运营所需的Python相关工具和组件

说明:本文是《Python数据分析与数据化运营》中的“1.2 数据化运营所需的Python相关工具和组件”。

本书将以Python为主要数据工作工具,本节将重点介绍Python相关工具,包括Python程序、IDE、Python第三方库、数据库和客户端、SSH远程客户端、OCR工具和机器学习框架等。 继续阅读1.2 数据化运营所需的Python相关工具和组件