Python基础数据处理库-Pandas

最近更新:2018-01-11


pandas是Python数据工作的基础库之一,它和numpy、scipy共成为Python数据处理的三剑客。pandas在数据录入、查看、预处理、统计分析、时间序列等方面具有非常强大的能力。尤其它里面的数据框跟R中的数据框类似,其具有的交互性以及对非结构化、非数值型数据的处理能力让Python的基础数据处理事半功倍。 继续阅读Python基础数据处理库-Pandas

《Python数据分析与数据化运营》第一版勘误

由于本书的作者水平有限并受限于有限的撰稿时间,以及整个出版环节众多可能会出现信息不对称,书中难免会出现一些错误或者不准确的地方,在此陈列出来供读者参考。这些已经发现的“错误”,会在下一次重印或再版时修正,有关修正的部分,会额外做标记,请读者朋友留意。

特别提示:由于第一版采用的仍然是Python2代码,因此在Python2下能正常工作,但是Python3下会出现的问题,不在此看勘误列表内。

最近更新时间:2019-04-22 继续阅读《Python数据分析与数据化运营》第一版勘误

案例-基于自动PDQ值的ARIMA时间序列预测应用

Python的科学计算和数据挖掘相关库中,pandas和statsmodels都提供了时间序列相关分析功能,本示例使用的是statsmodels做时间序列预测应用。有关时间序列算法的选择,实际场景中最常用的是ARIMA或ARMA了,因此本示例将使用ARIMA/ARMA来做时间序列分析。 继续阅读案例-基于自动PDQ值的ARIMA时间序列预测应用

案例-基于自动K值的KMeans广告效果聚类分析

案例背景

某企业由于投放的广告渠道比较多,需要对其做广告效果分析以实现有针对性的广告效果测量和优化工作。跟以应用为目的的案例不同的是,由于本案例是一个分析型案例,该过程的输出其实是不固定的,因此需要跟业务运营方具体沟通需求。

以下是在开展研究之前的基本预设条件:

  • 广告渠道的范畴是什么?具体包括哪些渠道?——所有站外标记的广告类渠道(以ad_开头)。
  • 数据集时间选择哪个时间段?——最近90天的数据。
  • 数据集选择哪些维度和指标?——渠道代号、日均UV、平均注册率、平均搜索量、访问深度、平均停留时间、订单转化率、投放总时间、素材类型、广告类型、合作方式、广告尺寸、广告卖点。
  • 专题分析要解决什么问题?——将广告分类并找出其重点特征,为接下来的业务讨论和数据分析提供支持。

明确了上述具体需求后,下面开始案例的主要工作部分。本节案例的输入源数据ad_performance.txt和源代码chapter7_code2.py位于“附件-chapter7”中,默认工作目录为“附件-chapter7”(如果不是,请cd切换到该目录下,否则会报“IOError: File ad_performance.txt does not exist”)。程序的输出为不同聚类类别的详细信息数据以及雷达图。 继续阅读案例-基于自动K值的KMeans广告效果聚类分析