案例-基于自动K值的KMeans广告效果聚类分析

案例背景

某企业由于投放的广告渠道比较多,需要对其做广告效果分析以实现有针对性的广告效果测量和优化工作。跟以应用为目的的案例不同的是,由于本案例是一个分析型案例,该过程的输出其实是不固定的,因此需要跟业务运营方具体沟通需求。

以下是在开展研究之前的基本预设条件:

  • 广告渠道的范畴是什么?具体包括哪些渠道?——所有站外标记的广告类渠道(以ad_开头)。
  • 数据集时间选择哪个时间段?——最近90天的数据。
  • 数据集选择哪些维度和指标?——渠道代号、日均UV、平均注册率、平均搜索量、访问深度、平均停留时间、订单转化率、投放总时间、素材类型、广告类型、合作方式、广告尺寸、广告卖点。
  • 专题分析要解决什么问题?——将广告分类并找出其重点特征,为接下来的业务讨论和数据分析提供支持。

明确了上述具体需求后,下面开始案例的主要工作部分。本节案例的输入源数据ad_performance.txt和源代码chapter7_code2.py位于“附件-chapter7”中,默认工作目录为“附件-chapter7”(如果不是,请cd切换到该目录下,否则会报“IOError: File ad_performance.txt does not exist”)。程序的输出为不同聚类类别的详细信息数据以及雷达图。 继续阅读案例-基于自动K值的KMeans广告效果聚类分析

使用sklearn中的决策树tree 库做分类分析

sklearn中没有一个专门的分类算法库,分类算法分散在不同的方法库中,例如ensemble、svm、tree等,在使用时需要分别导入不同的库来使用其中的分类算法。

示例模拟的是针对一批带有标签的数据集做分类模型训练,然后使用该模型对新数据集做分类预测;主要使用sklearn做分类、用matplotlib做图形展示,数据源文件classification.csv位于“附件-chapter4”中,默认工作目录为“附件-chapter4”(如果不是,请cd切换到该目录下,否则会报“IOError: File classification.csv does not exist”)。

另外,本节会用到两个新的图形和表格展示库:prettytable和pydotplus,以及配合pydotplus的GraphViz程序。 继续阅读使用sklearn中的决策树tree 库做分类分析

机器学习/数据挖掘/深度学习数据集—音频数据集

大型音乐分析数据集FMA

该数据集是免费音乐存档(FMA)的转储,这是一个高质量的合法音频下载的互动库。这些数据集中包含歌曲名称、音乐类型、曲目计数等信息,共计689种歌曲和68种类型。该数据集可用于音乐分析。 继续阅读机器学习/数据挖掘/深度学习数据集—音频数据集

机器学习/数据挖掘/深度学习数据集—自然语言数据集

MS MARCO

MS MARCO是一种新的大规模阅读理解和问答数据集。 在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用先进的Bing搜索引擎版本,从实际的Web文档中提取数据集中的答案的上下文段落。 继续阅读机器学习/数据挖掘/深度学习数据集—自然语言数据集

机器学习/数据挖掘/深度学习数据集—综合数据集

UCI数据集

UCI数据集中包括了众多用于监督式和非监督式学习的数据集,数量大概400多个,其中很多数据集在其他众多数据工具中被反复引用,例如Iris、Wine、Adult、Car Evaluation、Forest Fires等。

每个数据集中都有关于数据实例数、数据产生领域、值域分布、特征数量、数据产生时间、模型方向、是否有缺失值等详细数据介绍,可用于分类、回归、聚类、时间序列、推荐系统等。 继续阅读机器学习/数据挖掘/深度学习数据集—综合数据集

机器学习/数据挖掘/深度学习数据集—图像和视频数据集

MNIST数据集

机器学习领域内用于手写字识别的数据集,数据集中包含6个万训练集、10000个示例测试集。,每个样本图像的宽高为28*28。这些数据集的大小已经归一化,并且形成固定大小,因此预处理工作基本已经完成。在机器学习中,主流的机器学习工具(包括sklearn)很多都使用该数据集作为入门级别的介绍和应用。

推荐度:★★★,推荐应用方向:机器学习入门 继续阅读机器学习/数据挖掘/深度学习数据集—图像和视频数据集