分类标签归档:因子分析

3.3 大数据时代,数据化运营还需要降维吗


说明:本文是《Python数据分析与数据化运营》中的“3.3 大数据时代,数据化运营还需要降维吗”。 -----------------------------下面是正文内容-------------------------- 数据降维就是降低数据的维度数量,数据降维是维数归约的一个重要课题。

3.3.1 什么情况下需要降维

数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。是否进行降维主要考虑以下方面:

  • 维度数量。降维的基本前提是高维

继续阅读

因子分析(Factor Analysis)


在之前的文章中,我们介绍了数据降维的几种方法,包括[PCA]、[LDA]、[ICA]等,另外还有一种常用的降维方法就是因子分析。

因子分析(Factor Analysis)是指研究从变量群中提取共性因子的统计技术,这里的共性因子指的是不同变量之间内在的隐藏因子。

例如,一个学生的英语、数据、语文成绩都很好,那么潜在的共性因子可能是智力水平高。因此,因子分析的过程其实是寻找共性因子和个性因子并得到最优解释的过程。

因子分析有两个核心问题:一是如何构造因子变量,二是如何对因子变量进行命名解释。因子分析有下面4个基本步骤:

  1. 确定原有若干变量是否适合于因子分析。因子分析的基本逻辑是从原始变量中构造

继续阅读

主成分分析Principal component analysis(PCA)


在面对海量数据或大数据进行数据挖掘时,通常会面临“维度灾难”,原因是数据集的维度可以不断增加而无穷多,但计算机的处理能力和速度却不是无限的;

另外,数据集的大量维度之间可能存在共线性的关系,这会直接导致学习模型的健壮性不够,甚至很多时候会失效。因此,我们需要一种可以降低维度数量并降低维度间共线性影响的方法——这就是降维的意义所在。

主成分分析是一种降维方法。主成分分析Principal component analysis(PCA)也称主分量分析,旨在利用降维的思想,把多维指标转化为少数几个综合维度,然后利用这些综合维度进行数据挖掘和学习,以代替原来利用所有维度进行挖掘学习的方法。

主成分分析

继续阅读