分类标签归档:数据化运营

使用Python从Excel获取运营数据


现有的Excel分为两种格式:xls(Excel 97-2003)和xlsx(Excel 2007及以上)。

Python处理Excel文件主要是第三方模块库xlrd、xlwt、pyexcel-xls、xluntils和pyExcelerator,以及win32com和openpyxl模块,此外Pandas中也带有可以读取Excel文件的模块(read_excel)。

基于扩展知识的目的,我们使用xlrd模块读取Excel数据。 首先安装该库,在系统终端命令行输入命令pip install xlrd。 然后我们以“附件-chapter2”文件夹demo.xlsx数据文件为例,介绍该库的具体应用

继续阅读

二次判别分析Quadratic Discriminant Analysis(QDA)


与线性判别分析类似,二次判别分析是另外一种线性判别分析算法,二者拥有类似的算法特征,区别仅在于:当不同分类样本的协方差矩阵相同时,使用线性判别分析;当不同分类样本的协方差矩阵不同时,则应该使用二次判别。

为了清楚的了解LDA和QDA的应用差异,下图显示了在固定协方差矩阵以及不同协方差矩阵下LDA和QDA的表现差异: plot_lda_qda_00111

由图中可以看出,在固定协方差矩阵下,LDA和QDA是没有分类结果差异的(上面两张图);但在不同的协方差矩阵下,LDA和QDA的分类边界明显存在差异,而且LDA已经不能准确的划分数据(下面两张图)。

那么,协方差矩阵是什么?

在统计学中,有几个描述样本分布的基本指标,例如均值、方差

继续阅读