分类标签归档:数据标准化

3.10 离散化,对运营数据做逻辑分层


说明:本文是《Python数据分析与数据化运营》中的“3.10 离散化,对运营数据做逻辑分层”。 -----------------------------下面是正文内容--------------------------

所谓离散化,就是把无限空间中有限的个体映射到有限的空间中。数据离散化操作大多是针对连续数据进行的,处理之后的数据值域分布将从连续属性变为离散属性,这种属性一般包含2个或2个以上的值域。

离散化处理的必要性:

  • 节约计算资源,提高计算效率。
  • 算法模型(尤其是分类模型)的计算需要。虽然很多模型,例如决策树可以支持输入连续型数据,但是决策树本身会先将连续型数据转化为离散型数据,因

继续阅读

3.9 标准化,让运营数据落入相同的范围


说明:本文是《Python数据分析与数据化运营》中的“3.9 标准化,让运营数据落入相同的范围”。 -----------------------------下面是正文内容--------------------------

数据标准化是一个常用的数据预处理操作,目的是将不同规模和量纲的数据经过处理,缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化后的数据还具有了直接计算并生成复合指标的意义,是加权指标的必要步骤。

3.9.1 实现中心化和正态分布的Z-Score

Z-Score标准化是基于原始数据的均值和标准差进行的标准化,假设原转换的数据为x,

继续阅读

3.5 如何解决运营数据源的冲突问题


说明:本文是《Python数据分析与数据化运营》中的“3.5 如何解决运营数据源的冲突问题”。 -----------------------------下面是正文内容--------------------------

多运营数据源冲突指的是来自于多个或同一个系统、环境、平台和工具中,相同业务逻辑的数据其结果不同。根据冲突的差异特征,可分为以下几种类型:

  • 数据类型冲突。同一数据对象的数据格式不同,例如会员注册时间这一字段其存储格式有日期、时间戳两种。
  • 数据结构冲突。对于同一个数据主体的描述结构有冲突,典型代表是关联主键ID值有不同的逻辑结构,导致后期多源数据匹配和关联尤其复杂。
  • 记录粒度不

继续阅读

3.2 将分类数据和顺序数据转换为标志变量


说明:本文是《Python数据分析与数据化运营》中的“3.2 将分类数据和顺序数据转换为标志变量”。 -----------------------------下面是正文内容-------------------------- 分类数据和顺序数据是常见的数据类型,这些值主要集中在围绕数据实体的属性和描述的相关字段和变量中。

3.2.1 分类数据和顺序数据是什么

在数据建模过程中,很多算法无法直接处理非数值型的变量。例如KMeans算法是基于距离的相似度计算,而字符串则无法直接计算距离。另外,即使算法本身支持,很多算法实现包也无法直接基于字符串做矩阵运算,例如Numpy以及基于Numpy的skl

继续阅读