3.10 离散化,对运营数据做逻辑分层

说明:本文是《Python数据分析与数据化运营》中的“3.10 离散化,对运营数据做逻辑分层”。

-----------------------------下面是正文内容--------------------------

所谓离散化,就是把无限空间中有限的个体映射到有限的空间中。数据离散化操作大多是针对连续数据进行的,处理之后的数据值域分布将从连续属性变为离散属性,这种属性一般包含2个或2个以上的值域。离散化处理的必要性: 继续阅读3.10 离散化,对运营数据做逻辑分层

3.9 标准化,让运营数据落入相同的范围

说明:本文是《Python数据分析与数据化运营》中的“3.9 标准化,让运营数据落入相同的范围”。

-----------------------------下面是正文内容--------------------------

数据标准化是一个常用的数据预处理操作,目的是将不同规模和量纲的数据经过处理,缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化后的数据还具有了直接计算并生成复合指标的意义,是加权指标的必要步骤。 继续阅读3.9 标准化,让运营数据落入相同的范围

3.8 有关相关性分析的混沌

说明:本文是《Python数据分析与数据化运营》中的“3.8 有关相关性分析的混沌”。

-----------------------------下面是正文内容--------------------------

相关性分析是指对多个具备相关关系的变量进行分析,从而衡量变量间的相关程度或密切程度。相关性可以应用到所有数据的分析过程中,任何事物之间都是存在一定的联系。相关性用R(相关系数)表示,R的取值范围是[-1,1]。 继续阅读3.8 有关相关性分析的混沌

因子分析(Factor Analysis)

在之前的文章中,我们介绍了数据降维的几种方法,包括PCALDAICA等,另外还有一种常用的降维方法就是因子分析。

因子分析(Factor Analysis)是指研究从变量群中提取共性因子的统计技术,这里的共性因子指的是不同变量之间内在的隐藏因子。例如,一个学生的英语、数据、语文成绩都很好,那么潜在的共性因子可能是智力水平高。因此,因子分析的过程其实是寻找共性因子和个性因子并得到最优解释的过程。

继续阅读因子分析(Factor Analysis)

独立成分分析Independent component analysis(ICA)

传统的降维方法,包括PCA、LDA等都是以观测数据点呈高斯分布模型为基本假设前提的,在已经先验经验知道观测数据集为非高斯分布模型的前提下,PCA和LDA的降维效果并不好;而本文介绍的ICA将适用于非高斯分析数据集,它是CIA,是主成分分析(PCA)和因子分析(Factor Analysis)的一种有效扩展。

独立成分分析(Independent component analysis,简称ICA)是一种利用统计原理进行计算的方法,它是一个线性变换,这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。

继续阅读独立成分分析Independent component analysis(ICA)