2.1 数据化运营的数据来源类型


说明:本文是《Python数据分析与数据化运营》中的“2.1 数据化运营的数据来源类型”。 数据化运营的数据来源类型包括数据文件、数据库、API、流式数据、外部公开数据和其他来源等。

2.1.1 数据文件

数据文件就是存储数据的文件,广义上,任何文件中存储的信息都可以称为数据;狭义上,数据文件中存储的是以数字或文本形式存储的结构化的数据记录,本节的范围指的是后者。

  • 结构化数据文件大多来源于数据库,例如从MySQL中导出2017-01-04到2017-10-21的订单明细数据并存储为csv文件;
  • 也有来源于系统或工具的工作过程或返回结果,例如Windows版本的Tesseract文字识别后的结

继续阅读

1.4 第一个用Python实现的数据化运营分析实例-销售预测


说明:本文是《Python数据分析与数据化运营》中的“1.4 第一个用Python实现的数据化运营分析实例-销售预测”。

1. 案例概述

本节通过一个简单的案例,来介绍下如何使用Python进行数据化运营分析。

案例场景:每个销售型公司都有一定的促销费用,促销费用可以带来销售量的显著提升;当给出一定的促销费用时,预计会带来多大的商品销售量? 在“附件-chapter1”中data.txt存储了建模所需的原始数据,get_started_example.py是案例完整代码。以下是原始数据概况:

  • 来源:生成的模拟数据,非真实数据
  • 用途:用来做第一个销售预测案例
  • 维度数量:1
  • 记录数:100
  • 字段

继续阅读

案例-基于自动PDQ值的ARIMA时间序列预测应用


Python的科学计算和数据挖掘相关库中,pandas和statsmodels都提供了时间序列相关分析功能,本示例使用的是statsmodels做时间序列预测应用。有关时间序列算法的选择,实际场景中最常用的是ARIMA或ARMA了,因此本示例将使用ARIMA/ARMA来做时间序列分析。

对于这两种时间序列方法而言,应用的难点是如何根据不同的场景判断参数值(即p、d、q)。本示例将设置判断阀值,通过自动化的程序方式来完成自动的ARIMA/ARMA的参数(p、d、q)选择以及模型训练,降低时间序列算法应用的难度。

示例中模拟的是针对具有时间序列特征的数据集做未来时间序列的预测,数据源文件time_

继续阅读

案例-基于自动K值的KMeans广告效果聚类分析


案例背景

某企业由于投放的广告渠道比较多,需要对其做广告效果分析以实现有针对性的广告效果测量和优化工作。跟以应用为目的的案例不同的是,由于本案例是一个分析型案例,该过程的输出其实是不固定的,因此需要跟业务运营方具体沟通需求。

以下是在开展研究之前的基本预设条件:

  • 广告渠道的范畴是什么?具体包括哪些渠道?——所有站外标记的广告类渠道(以ad_开头)。
  • 数据集时间选择哪个时间段?——最近90天的数据。
  • 数据集选择哪些维度和指标?——渠道代号、日均UV、平均注册率、平均搜索量、访问深度、平均停留时间、订单转化率、投放总时间、素材类型、广告类型、合作方式、广告尺寸、广告卖点。
  • 专题分析要解决什么问题

继续阅读

使用sklearn中的决策树tree 库做分类分析


sklearn中没有一个专门的分类算法库,分类算法分散在不同的方法库中,例如ensemble、svm、tree等,在使用时需要分别导入不同的库来使用其中的分类算法。

示例模拟的是针对一批带有标签的数据集做分类模型训练,然后使用该模型对新数据集做分类预测;主要使用sklearn做分类、用matplotlib做图形展示

另外,本节会用到两个新的图形和表格展示库:prettytable和pydotplus,以及配合pydotplus的GraphViz程序。

prettytable是用来做表格格式化输出展示的,它的好处是可以非常容易的对行、列进行控制,并且输出带有分割线的可视化table。

第一次使用

继续阅读

机器学习/数据挖掘/深度学习数据集—音频数据集


大型音乐分析数据集FMA

该数据集是免费音乐存档(FMA)的转储,这是一个高质量的合法音频下载的互动库。这些数据集中包含歌曲名称、音乐类型、曲目计数等信息,共计689种歌曲和68种类型。该数据集可用于音乐分析。

推荐度:★★★,推荐应用方向:音乐分析挖掘 介绍和下载地址:https://lts2.epfl.ch/datasets/fma/

音频数据集AudioSet 谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的

2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以

继续阅读

机器学习/数据挖掘/深度学习数据集—自然语言数据集


MS MARCO MS MARCO是一种新的大规模阅读理解和问答数据集。

在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用先进的Bing搜索引擎版本,从实际的Web文档中提取数据集中的答案的上下文段落。

推荐度:★★★,推荐应用方向:自然语言理解、智能问答 介绍和下载地址:http://www.msmarco.org/

Question Pairs

第一个来源于 Quora的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。

推荐度:★★★,推荐应用方向:自然语言理解、智能

继续阅读

机器学习/数据挖掘/深度学习数据集—综合数据集


UCI 数据集

UCI数据集中包括了众多用于监督式和非监督式学习的数据集,数量大概400多个,其中很多数据集在其他众多数据工具中被反复引用,例如Iris、Wine、Adult、Car Evaluation、Forest Fires等。

每个数据集中都有关于数据实例数、数据产生领域、值域分布、特征数量、数据产生时间、模型方向、是否有缺失值等详细数据介绍,可用于分类、回归、聚类、时间序列、推荐系统等。

推荐度:★★★,推荐应用方向:监督式、非监督式机器学习,数据挖掘 介绍和下载地址:http://archive.ics.uci.edu/ml/

UCI KDD 数据集

UCI KDD(知识发现)

继续阅读

机器学习/数据挖掘/深度学习数据集—图像和视频数据集


MNIST 数据集

机器学习领域内用于手写字识别的数据集,数据集中包含6个万训练集、10000个示例测试集。,每个样本图像的宽高为28*28。这些数据集的大小已经归一化,并且形成固定大小,因此预处理工作基本已经完成。在机器学习中,主流的机器学习工具(包括sklearn)很多都使用该数据集作为入门级别的介绍和应用。

推荐度:★★★,推荐应用方向:机器学习入门

介绍和下载地址:http://yann.lecun.com/exdb/mnist/

CIFAR 10 & CIFAR 100 数据集

CIFAR-10数据集由10个类别的60000 32x32彩色图像组成,每个类别有6000张

继续阅读

使用sklearn库中的SVR做回归分析


sklearn中的回归有多种方法,广义线性回归集中在linear_model库下,例如普通线性回归、Lasso、岭回归等;另外还有其他非线性回归方法,例如核svm、集成方法、贝叶斯回归、K近邻回归、决策树回归等,这些不同回归算法分布在不同的库中。

本示例主要使用sklearn的多个回归算法做回归分析、用matplotlib做图形展示。

本示例模拟的是针对一批训练集做多个回归模型的训练和评估,从中选择效果较好的模型并对新数据集做回归预测。本示例主要使用sklearn的多个回归算法做回归分析、用matplotlib做图形展示。

完整代码如下:

# 导入库
import numpy as np # 

继续阅读