《Python数据分析与数据化运营》第二版 常见问题

在该文章中,仅总结第二版相关的问题,有关第一版的问题,请到“《Python数据分析与数据化运营》第一版常见问题”查看。

最近更新时间:2019-07-05

1. 问题:第二版的书籍配套源代码下载地址?
2. 问题:第二版和第一版比有哪些变化?
3. 问题:为什么第五章5.7 案例-基于RFM的精细化用户管理中的from pyecharts import Bar3D导入错误?
4. 问题:第2章P55 "对于纯文本……,Python默认的3种方法更为合适"中的3种方法指的是什么?
5. 问题:P96 中位数做兜底策略? 兜底策略是什么技术?
6. 问题:第三章P91 维度行是什么意思呢?
7. 问题:get_dummies 和 onehotEncode使用上的场合或者是区别是什么?

1. 问题:第二版的书籍配套源代码下载地址?

链接: https://pan.baidu.com/s/1tJGZcMUbMu0wYTrZrRoyuA

提取码: iy9k

另,部分读者反映百度网盘限制下载速度(尤其是曾经是会员的读者,成为非会员后下载非常慢),在此提供另外一个地址:

代码下载:http://www.dataivy.cn/book/python_v2.zip

 

2. 问题:第二版和第一版比有哪些变化?

本书在第一版上市后,得到来自于各行各业很多好友和读者的支持和反馈,在此致以感谢!第二版在第一版基础上做了很多优化甚至重写,另外新增了很多内容。

优化以及重写的内容

  • 全部代码基于Python3做优化或重写,书中的Python版本是7。
  • 基于Jupyter做调试、分析和应用,更适合数据分析师的应用场景,包括探索性分析、数据预处理、结果可视化展示、交互式演示等。
  • 网页数据解析中基于Class做功能封装和处理,更方便以网页对象为主体的数据工作。
  • PIL/Pollow的替换和方法应用介绍,应用于图像处理工作
  • 第四章数据挖掘的案例部分,每一部分的案例都经过重写,并增加了很多知识点,并以实际案例为需求,实际应用数据挖掘算法做建模和分析应用。
  • Matplotlib调用3D图形展示多个维度的信息,并可通过拖拽展示不同角度下数据的分布情况。
  • 第五章第一个案例RFM代码的重构,以及针对不同分组的精细化运营策略的制定。
  • 第五章第二个案例基于嵌套Pipeline和FeatureUnion复合数据工作流的营销响应预测,基于复合(两层管道)的pipeline做数据工作流管理。
  • 第六章第二个案例基于基于集成算法GBDT和RandomForest的投票组合模型的异常检测,将基础算法改为GBDT和RF,这两个是典型的代表模型“准确度”和“稳定度”的代表算法,这种兼顾“准”和“稳”的模型搭配更符合实际需求。
  • 第七章基于自动节点树的数据异常原因下探分析的树形图的内容和可视化,优化了代码和样式,可视化效果更好并能获得更多信息,包括维度分解过程、主因子、其他因子和潜在因子等。

新增的内容

  • 基于Anaconda的Python环境的安装和配置,更方便初学者快速搭建Python应用环境。
  • Jupyter基础工具的用法,包括安装、启动、基础操作、魔术命令、新内核安装和使用、执行shell命令、扩展和插件使用、系统基础配置等。
  • 基于Pandas的get_dummies做标志转换,即OneHotEncode转换。
  • 特征选择的降维中新增feature_selection配合SelectPercentile、VarianceThreshold、RFE、SelectFromModel做特征选择。
  • 特征转换的降维中新增PCA、LDA、FA、ICA数据转换和降维的具体方法。
  • 特征组合的降维中新增基于GBDT、PolynomialFeatures、gplearn的genetic方法做组合特征。
  • 第四章分类算法中新增使用XGboost做分类应用,以及配合graphviz输出矢量图形。
  • pyecharts的数据可视化的应用和操作,尤其是关联关系图的应用。
  • python通过rpy2调用R程序,实现关联算法的挖掘,包括直接执行程序文件、代码段、变量使用等。
  • python通过rpy2调用airma实现自动ARIMA的应用,降低Python在时间序列算法应用时的门槛。
  • 自动化学习:增加了对于自动化数据挖掘与机器学习的理论、流程、知识和应用库介绍,并基于TPOT做自动化回归和分类学习案例演示。

3. 问题:为什么第五章5.7 案例-基于RFM的精细化用户管理中的from pyecharts import Bar3D导入错误?

在pyecharts库中,pyecharts 分为 v0.5.X 和 v1 两个大版本,v0.5.X 和 v1 间不兼容,v1 是一个全新的版本。对应的语法也发生了较大的改变。

如果读者的环境是最新版(v1及之后),那么按照书中的
from pyecharts import Bar3D 就会报错无法导入。

在v1版本之后,需要使用 from pyecharts.charts import Bar3D 方法导入Bar3D库。

所以,读者需要留意自己的pyecharts版本,然后选择对应的语法。

4. 问题:第2章P55 "对于纯文本……,Python默认的3种方法更为合适"中的3种方法指的是什么?
3种方法
这里指的是使用open方法获得读取对象后,调用read、readline或readline读取的方法。

5. 问题:P96 中位数做兜底策略? 兜底策略是什么技术?
中位数
这里的“兜底策略”指在任意情况下,都能保障数据的一种方式,不是一种技术。如书中所讲,如果使用均值填充,那么当数据中存在inf时,无法计算其均值,而中位数则可以计算。这样可以保证填充的数值的有效性。例如:
QQ截图20190701132020

6. 问题:第三章P91 维度行是什么意思呢?
在第三章P91中介绍变化维度表时,提到了维度行是什么意思呢?
新的维度行
该意思是,将每个变化的维度都记录下来,并形成新的记录,这样每次在匹配时,只需要匹配当时使用的维度即可。例如:

ID 修改日期 KEY CATE1 CATE2
1 2019-07-01 9009109998 家装建材 家装
2 2019-08-08 9009109998 服饰家装 家装

上面的表是一个变化维度表,里面的对的KEY是关联产品信息的键值,用来标记产品ID。在这个表中,基于ID可以匹配出产品类别。

在不同时期,该ID所属的一级分类(CATE1)有变化,例如2019年7月1日的值和2019年8月8日的属性值不同,这时可同时记录两个属性信息。这样后续可以基于修改日期判断,在不同周期下应该匹配哪个模式。

7. 问题:get_dummies 和 onehotEncode使用上的场合或者是区别是什么?
pandas的get_dummies 和 sklearn中的onehotEncode都能实现亚编码转换(书中称为标志转换),二者的使用区别在于:

  • pandas的get_dummies 是“一次性”的,即用于单次的数据分析场景;
  • sklearn中的onehotEncode 是“可复用”的,即在每次fit之后,一般后续继续其他与处理和模型训练;而如果在预测性应用中,例如分类或回归,则需要对新的数据再次做fit,这时候需要保证前面训练时的规则与后面对预测数据的规则保持一致,所以必须要用持久化的处理对象才能实现。这个原理跟模型训练和预测是相同的。

====================【好书推荐,我为自己代言】====================

《Python数据分析与数据化运营》第二版上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • Python调用R的rpy2
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 数据挖掘和算法:XGboost、gplearn、TPOT
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL/Pollow
  • 数据读取:xlrd、pymongo、pymysql
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、pyecharts、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
  • 如何使用Python调用R实现数据挖掘
  • 自动化学习:增加了对于自动化数据挖掘与机器学习的理论、流程、知识和应用库介绍,并基于TPOT做自动化回归和分类学习案例演示
有关这本书的写作感受、详细内容介绍、附件(含数据和代)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》第二版出版了!要购买此书,可以去京东当当天猫等查看。

《《Python数据分析与数据化运营》第二版 常见问题》有2个想法

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>