《Python数据分析与数据化运营》常见问题

在这边文章中,我会把读者反馈给我的常见问题总结出来,供更多读者参考。里面会涉及到各种疑问或混淆知识点,希望能给大家解惑。如果大家有什么疑问,可以直接在这里留言,我会将一些跟本书相关的知识性问题总结出来并在此回答。

最近更新时间:2018-01-18


 

1.问题:对于一维数据而言,reshape之后仍然是一维,为什么还要做reshape操作?
2.问题:我看书里面好像很多图的原图应该是彩色的,但是印刷确实黑白的,有些图看不清楚啊
3.问题:这本书基本都能会的话,在数据分析中属于什么段位水准呢?
4.问题:为什么我下载的附件压缩包不可用或提示错误?
5.问题:书里面有没有类似R里面的auto.arima的实现逻辑?自动寻找最优的P、D、Q的方法?

 

1.问题:对于一维数据而言,reshape之后仍然是一维,为什么还要做reshape操作?

在第一章的代码示例中,有一段如下代码:

  1. x = numpy.array(x).reshape([100,1])

为什么需要对x对reshape?即使是reshape,x仍然是1维数据啊(只有一列)?

回答:对于sklearn中的fit方法而言,对输入的x的要求一般都是一个二维空间矩阵,即shape是一个m×n的矩阵。对于案例中的x而言,在使用numpy.array(x)方法后,其shape是[100,],这是一个一维空间数据

  1. x = numpy.array(x)# 这是一个一维空间数据
  2. print(x.shape) #查看shape
  3. print(x[:5]) # 查看前5条数据

上述代码输出如下:

  1. (100L,)
  2. [ 28192.  39275.  34512.  24430.  23811.]

而reshape之后的shape是[100,1],这是一个二维空间下的矩阵。

  1. x = x.reshape((100,1)) #这是一个二维空间数据
  2. print(x.shape) #查看shape
  3. print(x[:5]) # 查看前5条数据

上述代码返回如下:

  1. (100L, 1L)
  2. [[ 28192.]
  3.  [ 39275.]
  4.  [ 34512.]
  5.  [ 24430.]
  6.  [ 23811.]]

注意:x的前5条数据跟上面的不同,因此里面多了一个维度。

再推广下,如果shape后是[100,1,1],那么这是1个三维空间矩阵。

  1. x = x.reshape((100,1,1)) # 这是一个三维空间数据
  2. print(x.shape) #查看shape
  3. print(x[:5]) # 查看前5条数据

上述代码返回结果如下:

  1. (100L, 1L, 1L)
  2. [[[ 28192.]]
  3.  [[ 39275.]]
  4.  [[ 34512.]]
  5.  [[ 24430.]]
  6.  [[ 23811.]]]

这里面其实有一个关于维度的概念容易混淆。在sklearn中的维度指的是维度空间,而不是列。为了更好的区分这两个概念,前者通常称为dimension,后者称为feature,这样就容易区分了。对于二维(dimension)空间下的数据而言,无论有多少个feature,都是一个二维空间数据。例如[3,4],[100,10000],这些都是二维空间下的矩阵,只是feature的数量不同而已。

日常情况下,由于大家会将feature理解为dimension,所以会产生混淆。


 

2.问题:我看书里面好像很多图的原图应该是彩色的,但是印刷确实黑白的,有些图看不清楚啊

回答:的确,受限于成本原因,出版社在对每本书做定位的时候都会有一个相对合理的成本标准。本书也不例外。我查看了下本书的图像,把其中可能涉及到的会混淆原图意义的图放在这里,供读者参考。

P126 图3-4

其中第二排,第一个图由于是黄色,纸质书上看不清楚。

python数据分析与数据化运营-图3-4

P162 图4-2

python数据分析与数据化运营-图4-2

P170 图4-3

python数据分析与数据化运营-图4-3

P180 图4-4

书中黑白色的印刷,难以区分不同模型的线条,如下是原图

python数据分析与数据化运营-图4-4

P194 图4-8

决策树规则输出树形图中由于没有颜色,很难区分不同的分裂项的属性,如下是原图。

python数据分析与数据化运营-图4-8

P239 图4-17

用户点击热力图,黑白色是无法展示热力图的效果的。

python数据分析与数据化运营-图4-16

P249 图4-18

输出的字符云,不同区域的颜色是跟原始图像对应的。如原图。

python数据分析与数据化运营-图4-17

 

P339 图6-2

书中对于不同月份的颜色无法区分,原图如下:

python数据分析与数据化运营-图6-4

 

P350 图6-6

书中预测数据和实际数据的线条无法区分,原图如下:

python数据分析与数据化运营-图6-6

P415 图7-17

书中对于左右两侧的分裂颜色区分不明显,原图如下:

python数据分析与数据化运营-图7-17

 

P446 图7-22

书中4个类别的线条颜色无法区分,原图如下:

python数据分析与数据化运营-图7-22

P449 图7-23

书中对于不同类别的区分也不明显,原图如下:

python数据分析与数据化运营-图7-23


3.问题:这本书基本都能会的话,在数据分析中属于什么段位水准呢?

回答:对分析师而言,这个角色的要求一般包括数据类技能和业务类技能两方面。本书中尽量将我过往的经历总结出来,希望能给读者参考。

就这两方面的技能而言,数据类技能上,由于里面考虑到兼顾更多读者的现有知识水平和状态,因此涉及到了多种“参差不齐”的知识点和技能点,但读者会发现,越往后的综合数据技能应用的难度越高。整体上,如果都能掌握的话,数据类技能属于高级分析师的水平。

但就业务类技能而言,这种经验的培养其实很难在一朝一夕内掌握的,更不是在看了一本书之后就能完全体会的。这类业务技能决定了在面对一个命题(例如数据分析、专项分析甚至报表数据)时的思维状态、发散点和思维方式,这些都需要时间来沉淀。本书总结的这些,需要读者跟实际运营业务相结合去体会才能有真正的感觉,否则里面的经验点很难体现出价值。因此,整体上,如果读者已经是一个中级分析师的水平,那么配合本书的内容,达到高级分析师的水平;如果读者是初级分析师的水平,那么在理解本书内容的基础上,可以到达中级分析师的水平。

 


4.问题:为什么我下载的附件压缩包不可用或提示错误?

回答:本书的源代码文件以及数据,可通过如下两种方式下载:

附件的两份压缩包我已经在windows电脑上测试过是可以用的,但由于某些未知的原因,可能导致读者下载后不可用,例如网络问题、压缩包本身的问题、系统兼容等。

一般情况下,读者尝试上面的两种方式是可以下载到能用的压缩包的。如果确实还是不可用的,可直接扫描加我微信,我微信直接压缩包发过去。

 


5.问题:书里面有没有类似R里面的auto.arima的实现逻辑?自动寻找最优的P、D、Q的方法?

回答:在本书的“4.6.4 代码实操:Python时间序列分析”一节中的实现方式,就是类似于R的auto.arima的实现方法。里面使用的是BIC最小的原则得到的最优P和Q,而D是在做差分时候已经确定的。


====================【好书推荐,我为自己代盐】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>