分类目录归档:机器学习&数据挖掘

新奇检测Novelty Detection


大多数数据挖掘或数据工作中,异常值都会在数据的预处理过程中被认为是“噪音”而剔除,以避免其对总体数据评估和分析挖掘的影响。但某些情况下,如果数据工作的目标就是围绕异常值,那么这些异常值会成为数据工作的焦点。

数据集中的异常数据通常被成为异常点、离群点或孤立点等,典型特征是这些数据的特征或规则与大多数数据不一致,呈现出“异常”的特点,而检测这些数据的方法被称为异常检测。

> > “噪音”的出现有多种原因,例如业务操作的影响(典型案例如网站广告费用增加10倍,导致流量激增)、数据采集问题(典型案例如数据缺失、不全、溢出、格式匹配等问题)、数据同步问题(异构数据库同步过程中的丢失、连接错

继续阅读

使用sklearn中的决策树tree 库做分类分析


sklearn中没有一个专门的分类算法库,分类算法分散在不同的方法库中,例如ensemble、svm、tree等,在使用时需要分别导入不同的库来使用其中的分类算法。

示例模拟的是针对一批带有标签的数据集做分类模型训练,然后使用该模型对新数据集做分类预测;主要使用sklearn做分类、用matplotlib做图形展示

另外,本节会用到两个新的图形和表格展示库:prettytable和pydotplus,以及配合pydotplus的GraphViz程序。

prettytable是用来做表格格式化输出展示的,它的好处是可以非常容易的对行、列进行控制,并且输出带有分割线的可视化table。

第一次使用

继续阅读

机器学习/数据挖掘/深度学习数据集—音频数据集


大型音乐分析数据集FMA

该数据集是免费音乐存档(FMA)的转储,这是一个高质量的合法音频下载的互动库。这些数据集中包含歌曲名称、音乐类型、曲目计数等信息,共计689种歌曲和68种类型。该数据集可用于音乐分析。

推荐度:★★★,推荐应用方向:音乐分析挖掘 介绍和下载地址:https://lts2.epfl.ch/datasets/fma/

音频数据集AudioSet 谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的

2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以

继续阅读

机器学习/数据挖掘/深度学习数据集—自然语言数据集


MS MARCO MS MARCO是一种新的大规模阅读理解和问答数据集。

在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用先进的Bing搜索引擎版本,从实际的Web文档中提取数据集中的答案的上下文段落。

推荐度:★★★,推荐应用方向:自然语言理解、智能问答 介绍和下载地址:http://www.msmarco.org/

Question Pairs

第一个来源于 Quora的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。

推荐度:★★★,推荐应用方向:自然语言理解、智能

继续阅读

机器学习/数据挖掘/深度学习数据集—综合数据集


UCI 数据集

UCI数据集中包括了众多用于监督式和非监督式学习的数据集,数量大概400多个,其中很多数据集在其他众多数据工具中被反复引用,例如Iris、Wine、Adult、Car Evaluation、Forest Fires等。

每个数据集中都有关于数据实例数、数据产生领域、值域分布、特征数量、数据产生时间、模型方向、是否有缺失值等详细数据介绍,可用于分类、回归、聚类、时间序列、推荐系统等。

推荐度:★★★,推荐应用方向:监督式、非监督式机器学习,数据挖掘 介绍和下载地址:http://archive.ics.uci.edu/ml/

UCI KDD 数据集

UCI KDD(知识发现)

继续阅读

机器学习/数据挖掘/深度学习数据集—图像和视频数据集


MNIST 数据集

机器学习领域内用于手写字识别的数据集,数据集中包含6个万训练集、10000个示例测试集。,每个样本图像的宽高为28*28。这些数据集的大小已经归一化,并且形成固定大小,因此预处理工作基本已经完成。在机器学习中,主流的机器学习工具(包括sklearn)很多都使用该数据集作为入门级别的介绍和应用。

推荐度:★★★,推荐应用方向:机器学习入门

介绍和下载地址:http://yann.lecun.com/exdb/mnist/

CIFAR 10 & CIFAR 100 数据集

CIFAR-10数据集由10个类别的60000 32x32彩色图像组成,每个类别有6000张

继续阅读

使用sklearn库中的SVR做回归分析


sklearn中的回归有多种方法,广义线性回归集中在linear_model库下,例如普通线性回归、Lasso、岭回归等;另外还有其他非线性回归方法,例如核svm、集成方法、贝叶斯回归、K近邻回归、决策树回归等,这些不同回归算法分布在不同的库中。

本示例主要使用sklearn的多个回归算法做回归分析、用matplotlib做图形展示。

本示例模拟的是针对一批训练集做多个回归模型的训练和评估,从中选择效果较好的模型并对新数据集做回归预测。本示例主要使用sklearn的多个回归算法做回归分析、用matplotlib做图形展示。

完整代码如下:

# 导入库
import numpy as np # 

继续阅读

《网站数据挖掘与分析 系统方法与商业实践》-写在2017年


这是一本2015年初出版的“老书”了,实话讲,这本书还是有点出乎我的意料。

出版书籍是2014年出版社的杨总编在一次活动上找到我的,在这之前网站数据分析领域已经有一些出版物了,例如《流量的秘密:Google Analytics网站分析与优化技巧(第3版)》、《网站分析实战:如何以数据驱动决策,提升网站价值》等,这些对于普及网站分析知识和方法都有非常重要的意义和里程碑式的价值。

但是,出乎意料的一地点在于,中国当时从业者(包括很多大牛)对于网站分析的认知。

从知识认知上,网站分析其实不是一门单纯的“网站分析”,而是围绕网站展开的数据分析工作。

这其中的差别在于数据分析的思路和方法要远远大于网站分

继续阅读

《企业大数据系统构建实战:技术、架构、实施与应用》


为什么要写这本书

随着2013年大数据元年的开启,各行各业都已经将大数据视为推动企业发展、推进行业进步、加快产业升级、促进民生繁荣、巩固社会安全甚至提升国家竞争力的核心武器。从个性化推荐、关联销售到精准营销,从云平台、云服务、云计算到大数据产业链,从百度迁徙、高考预测到冬季流感预测,从机器学习、图像识别到智能交通,从奥巴马总统竞选到美国中央情报局反恐,从美国的大数据研究和发展计划到中国的促进大数据发展行动纲要等一系列事实说明了大数据正受到来自政治、经济、社会、文化、军事等各个领域的广泛关注,并越来越彰显其巨大价值。

大数据不仅是一个技术名词,更是当下企业资产、核心竞争力、完整产业链和先进生产力

继续阅读

混合高斯模型Gaussian Mixture Model(GMM)


混合高斯模型(Gaussian Mixture Model,简称GMM)是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。通俗点讲,无论观测数据集如何分布以及呈现何种规律,都可以通过多个单一高斯模型的混合进行拟合。

如下图是一个观测数据集,数据集明显分为两个聚集核心,我们通过两个单一的高斯模型混合成一个复杂模型来拟合数据。这就是一个混合高斯模型。

QQ截图201505081402351111

既然混合高斯模型是由n个(或多个)单高斯模型组成,那么首先了解下单高斯模型(Single Mixture Model,简称SMM)。

最常见的单高斯模型(或者叫单高斯分布)就是

继续阅读