分类标签归档:数据分析

《网站数据挖掘与分析 系统方法与商业实践》-写在2017年


这是一本2015年初出版的“老书”了,实话讲,这本书还是有点出乎我的意料。

出版书籍是2014年出版社的杨总编在一次活动上找到我的,在这之前网站数据分析领域已经有一些出版物了,例如《流量的秘密:Google Analytics网站分析与优化技巧(第3版)》、《网站分析实战:如何以数据驱动决策,提升网站价值》等,这些对于普及网站分析知识和方法都有非常重要的意义和里程碑式的价值。

但是,出乎意料的一地点在于,中国当时从业者(包括很多大牛)对于网站分析的认知。

从知识认知上,网站分析其实不是一门单纯的“网站分析”,而是围绕网站展开的数据分析工作。

这其中的差别在于数据分析的思路和方法要远远大于网站分

继续阅读

混合高斯模型Gaussian Mixture Model(GMM)


混合高斯模型(Gaussian Mixture Model,简称GMM)是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。通俗点讲,无论观测数据集如何分布以及呈现何种规律,都可以通过多个单一高斯模型的混合进行拟合。

如下图是一个观测数据集,数据集明显分为两个聚集核心,我们通过两个单一的高斯模型混合成一个复杂模型来拟合数据。这就是一个混合高斯模型。

QQ截图201505081402351111

既然混合高斯模型是由n个(或多个)单高斯模型组成,那么首先了解下单高斯模型(Single Mixture Model,简称SMM)。

最常见的单高斯模型(或者叫单高斯分布)就是

继续阅读

数据预处理-清洗转换


当数据质量校验完成后,针对有问题的数据要进行的是数据清洗和转换,另外还包括对正常数据的转换。数据清洗的主要作用包括:纠正错误、删除重复项、统一规格、修正逻辑、转换构造和数据压缩。

1. 纠正错误

错误数据是数据源环境中经常出现的一类问题。数据错误的形式包括:

  • 数据值错误:数据直接是错误的,例如超过固定域集、超过极值、拼写错误、属性错误、源错误等。
  • 数据类型错误:数据的存储类型不符合实际情况,如日期类型的以数值型存储,时间戳存为字符串等。
  • 数据编码错误:数据存储的编码错误,例如将UTF-8写成UTF-80。
  • 数据格式错误:数据的存储格式问题,如半角全角字符、中英文字符等。
  • 数据异常错误:如数值

继续阅读

企业大数据的数据源内容


数据源指的是企业内、外部数据的来源。数据源是大数据工作流的起点,一个完整的、需要不断迭代更新的数据工作都应该从数据源开始。这些数据源由于各自生产、存储环境的不同可分为日志/文件、数据库、网络爬虫、第三方API等。

1日志/文件

在企业内部数据源中,会存在各种日志或文件类型的数据,可能包括以下几类:

  • 日志数据,包括机器日志、用户访问日志、监控日志等,这些日志通常都是以半结构化的文本文件进行存储。
  • 视频数据,主要是动态影像数据,比如宣传视频、操作视频、监控视频、医疗视频、记录视频等,这些大多是非结构化的数据并以文件的形式进行存储。
  • 音频数据,主要集中在客服坐席录音领域,以非结构化的文件的形式进行

继续阅读

线性判别分析Linear Discriminant Analysis (LDA)


判别分析(DiscriminantAnalysis)是一种分类方法,它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。线性判别式分析(Linear Discriminant Analysis,简称为LDA)是其中一种,也是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。LDA以Bayes判别思想为基础,当分类只有两种且总体服从多元正态分布条件下,Bayes判别与Fisher判别、距离判别是等价的。

基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有

继续阅读

因子分析(Factor Analysis)


在之前的文章中,我们介绍了数据降维的几种方法,包括[PCA]、[LDA]、[ICA]等,另外还有一种常用的降维方法就是因子分析。

因子分析(Factor Analysis)是指研究从变量群中提取共性因子的统计技术,这里的共性因子指的是不同变量之间内在的隐藏因子。

例如,一个学生的英语、数据、语文成绩都很好,那么潜在的共性因子可能是智力水平高。因此,因子分析的过程其实是寻找共性因子和个性因子并得到最优解释的过程。

因子分析有两个核心问题:一是如何构造因子变量,二是如何对因子变量进行命名解释。因子分析有下面4个基本步骤:

  1. 确定原有若干变量是否适合于因子分析。因子分析的基本逻辑是从原始变量中构造

继续阅读

独立成分分析Independent component analysis(ICA)


传统的降维方法,包括PCA、LDA等都是以观测数据点呈高斯分布模型为基本假设前提的,在已经先验经验知道观测数据集为非高斯分布模型的前提下,PCA和LDA的降维效果并不好;而本文介绍的ICA将适用于非高斯分析数据集,它是CIA,是主成分分析(PCA)和因子分析(Factor Analysis)的一种有效扩展。 独立成分分析(Independent component analysis,简称ICA)是一种利用统计原理进行计算的方法,它是一个线性变换,这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。

独立成分分析的最重要的假设就是信号源统计独立,并且这个假设在大多数盲信号分离(blin

继续阅读

二次判别分析Quadratic Discriminant Analysis(QDA)


与线性判别分析类似,二次判别分析是另外一种线性判别分析算法,二者拥有类似的算法特征,区别仅在于:当不同分类样本的协方差矩阵相同时,使用线性判别分析;当不同分类样本的协方差矩阵不同时,则应该使用二次判别。

为了清楚的了解LDA和QDA的应用差异,下图显示了在固定协方差矩阵以及不同协方差矩阵下LDA和QDA的表现差异: plot_lda_qda_00111

由图中可以看出,在固定协方差矩阵下,LDA和QDA是没有分类结果差异的(上面两张图);但在不同的协方差矩阵下,LDA和QDA的分类边界明显存在差异,而且LDA已经不能准确的划分数据(下面两张图)。

那么,协方差矩阵是什么?

在统计学中,有几个描述样本分布的基本指标,例如均值、方差

继续阅读

核密度估计Kernel Density Estimation(KDE)


在介绍核密度评估Kernel Density Estimation(KDE)之前,先介绍下密度估计的问题。

由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。

参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。在参数判别分析中,人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法

继续阅读