3.5 如何解决运营数据源的冲突问题

说明:本文是《Python数据分析与数据化运营》中的“3.5 如何解决运营数据源的冲突问题”。

-----------------------------下面是正文内容--------------------------

多运营数据源冲突指的是来自于多个或同一个系统、环境、平台和工具中,相同业务逻辑的数据其结果不同。根据冲突的差异特征,可分为以下几种类型: 继续阅读3.5 如何解决运营数据源的冲突问题

3.4 解决样本类别分布不均衡的问题

说明:本文是《Python数据分析与数据化运营》中的“3.4 解决样本类别分布不均衡的问题”。

-----------------------------下面是正文内容--------------------------

所谓的不平衡指的是不同类别的样本量异非常大。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种。 继续阅读3.4 解决样本类别分布不均衡的问题

3.3 大数据时代,数据化运营还需要降维吗

说明:本文是《Python数据分析与数据化运营》中的“3.3 大数据时代,数据化运营还需要降维吗”。

-----------------------------下面是正文内容--------------------------

数据降维就是降低数据的维度数量,数据降维是维数归约的一个重要课题。 继续阅读3.3 大数据时代,数据化运营还需要降维吗

3.2 将分类数据和顺序数据转换为标志变量

说明:本文是《Python数据分析与数据化运营》中的“3.2 将分类数据和顺序数据转换为标志变量”。

-----------------------------下面是正文内容--------------------------

分类数据和顺序数据是常见的数据类型,这些值主要集中在围绕数据实体的属性和描述的相关字段和变量中。 继续阅读3.2 将分类数据和顺序数据转换为标志变量

3.1 数据清洗:缺失值、异常值和重复值的处理-2代码实操

说明:本文是《Python数据分析与数据化运营》中的“3.1 数据清洗:缺失值、异常值和重复值的处理-2 代码实操部分”。

-----------------------------下面是正文内容--------------------------

缺失值处理

对于缺失值的处理上,主要配合使用sklearn.preprocessing中的Imputer类、Pandas和Numpy。其中由于Pandas对于数据探索、分析和探查的支持较为良好,因此围绕Pandas的缺失值处理较为常用。
继续阅读3.1 数据清洗:缺失值、异常值和重复值的处理-2代码实操

3.1 数据清洗:缺失值、异常值和重复值的处理-1

说明:本文是《Python数据分析与数据化运营》中的“3.1 数据清洗:缺失值、异常值和重复值的处理”第一部分。

-----------------------------下面是正文内容--------------------------

在数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集通过丢弃、填充、替换、去重等操作,实现去除异常、纠正错误、补足缺失的目的。

3.1.1 遇到缺失值就要补全吗

数据缺失分为两种:一是行记录的缺失,这种情况也定义为数据记录丢失;二是数据列值的缺失,指由于各种原因导致的数据记录中某些列的值空缺,不同的数据存储和环境中对于缺失值的表示结果不同,例如数据库中是Null、Python返回对象是None、Pandas或Numpy中是NaN。 继续阅读3.1 数据清洗:缺失值、异常值和重复值的处理-1