《Python数据分析与数据化运营》第二版 勘误


本书默认已经修正了第一版遇到的所有问题,因此以下勘误仅限于第二版。有关第一版的勘误,请见“《Python数据分析与数据化运营》第一版勘误”。

> 说明:由于第二版的出版时间为2019年,我已经将最新版本的代码更新到博客中,地址为:《Python数据分析与数据化运营》第二版新老版本代码对比。安装和使用最新版本的读者可参照该链接的代码。**

最近更新时间:2021-10-14


最近一次新书重印更新为2020-11(第2版第4次)重印,读者可查看“前言”的前1页找到相关信息,如下:

1.P108 第二段文字中,英语、数据、语文成绩……中的“数据”应为“数学”。

解释:如图圆圈处文字

2

继续阅读

《Python数据分析与数据化运营》第二版 老代码与新代码对照信息


由于第二版是2019年出版,某些库或方法可能已经过时,在此汇总新版本和之前书中的老版本的差异,供大家了解。

在遇到类似于“没有找到方法”、“无法找到库”、“不存在”等类似问题时,可先在这里查看下是否存在现成解决方案。

更新时间:2021-06-12


第一章

1.1 第一章最后的“销售预测应用”部分中的代码需要更新。

原始代码为:

new_x = 84610   
pre_y = model.predict(new_x) # 老版本

print(pre_y)

新版本中,需要改为:

new_x = 84610   
pre_y = model.predict([[new_x]]) # 

继续阅读

《Python数据分析与数据化运营》第二版 常见问题


在该文章中,仅总结第二版相关的问题,有关第一版的问题,请到“《Python数据分析与数据化运营》第一版常见问题”查看。

> 说明:由于第二版的出版时间为2019年,我已经将最新版本的代码更新到博客中,地址为:《Python数据分析与数据化运营》第二版新老版本代码对比。安装和使用最新版本的读者可参照该链接的代码。

最近更新时间:2021-06-15


1. 问题:第二版的书籍配套源代码下载地址?

代码下载: 《Python数据分析与数据化运营》第二版 附件

2. 问题:第二版和第一版比有哪些变化?

本书在第一版上市后,得到来自于各行各业很多好友和读者的支持和反馈,在此致以感谢!第二版在第一

继续阅读

《Python数据分析与数据化运营》第一版 常见问题


在这边文章中,我会把读者反馈给我的常见问题总结出来,供更多读者参考。里面会涉及到各种疑问或混淆知识点,希望能给大家解惑。如果大家有什么疑问,可以直接在这里留言,我会将一些跟本书相关的知识性问题总结出来并在此回答。

最近更新时间:2021-07-05


1.问题:对于一维数据而言,reshape之后仍然是一维,为什么还要做reshape操作?

在第一章的代码示例中,有一段如下代码:

x=numpy.array(x).reshape([100,1])

为什么需要对x对reshape?即使是reshape,x仍然是1维数据啊(只有一列)?

回答:对于sklearn中的fit方法而言,对输入的x的

继续阅读

《电商流量数据化运营》第一版勘误


最近更新时间:2021-11-09


1. P111中,第4章的Excel中4-1数据源标题有误

第4章4-1中,原始Excel数据源中,预测数据集的标题与原始训练集的标题不一致,这会导致在预测过程中,出现训练集和预测集由于输入特征名称不一致,而导致ColumnTransformer过程报错。

名称不一致在我写书时的版本中执行并没有问题,目前的sklearn版本中会报错。

因此,我更新了数据源,保持Excel中训练集和预测集的特征名称一致。主要修改如下图:

图中,左侧是Excel修改的名称,右侧是对应到P111打印输出的结果中,列名的变化,请读者注意区别。

> 提示:如果上图看不清楚,

继续阅读

《电商流量数据化运营》第一版常见问题


最近更新时间:2021-11-14


问题1:本书的附件在哪里下载?

下载地址为:《电商流量数据化运营》附件

问题2:《电商流量数据化运营》与《Python数据分析与数据化运营》有什么区别和关系??

《电商流量数据化运营》与《Python数据分析与数据化运营》的区别与联系如下:

  • 逻辑上, 《Python数据分析与数据化运营》 是总,它包含了更广泛的运营话题;而《电商流量数据化运营》是分,它是其中的关于流量运营的分支。后续还会陆续把会员运营、内容运营、商品运营、活动运营、网站运营等主题再分别出书。 当然,《Python数据分析与数据化运营》这本书会在继续改版,以适应新时代的发展需求,所以内

继续阅读

《电商流量数据化运营》上市了!


《电商流量数据化运营》这本书我定义为是一本“拿来用”的书。

熟悉我的朋友们知道,长久以来,我都是做数据相关工作的。但无论是数据分析、建模、机器学习,还是数据产品、智能应用开发,其核心数据价值都体现在“在什么地方用”、“有多大用”这些环节上。

在我超过10年的数据工作中,我深感“数据”的价值是模糊不清的,原因之一就在于数据是没法直接落地的!也就是数据工作与业务工作是分离的!

想想,常见数据分析师、数据工程师的基本工作思维是什么?是先拿到一批数据,然后通过各种方法、算法得到一些结果,最后再想想这些数据结论能用在哪呢?——这种先有数据结果再找应用场景的工作方法,在大多数场景下都得不到很好的价值体现

继续阅读

3.12.4 自然语言文本预处理


说明:本文是《Python数据分析与数据化运营》中的“3.12.4 自然语言文本预处理”。 -----------------------------下面是正文内容--------------------------

与数据库中的结构化数据相比,文本具有有限的结构,某些类型的数据源甚至没有数据结构。因此,预处理就是要对半结构化或非结构化的文本进行格式和结构的转换、分解和预处理等,以得到能够用于进一步处理的基础文本。不同环境下,文本所需的预处理工作内容有所差异,大体上分为以下几个部分:

基本处理

根据不同的文本数据来源,可能涉及到的基本文本处理包括去除无效标签、编码转换、文档切分、基本纠错、去除

继续阅读

3.12.3 图像的基本预处理


说明:本文是《Python数据分析与数据化运营》中的“2.2 使用Python获取运营数据”中的第二部分,由于本节内容较多,这里分几个文章。

2.2.2 从Excel获取运营数据

现有的Excel分为两种格式:xls(Excel 97-2003)和xlsx(Excel 2007及以上)。

Python处理Excel文件主要是第三方模块库xlrd、xlwt、pyexcel-xls、xluntils和pyExcelerator,以及win32com和openpyxl模块,此外Pandas中也带有可以读取Excel文件的模块(read_excel)。

基于扩展知识的目的,我们使用xlrd模块读取Ex

继续阅读

3.11 数据处理应该考虑哪些运营业务因素


说明:本文是《Python数据分析与数据化运营》中的“3.11 数据处理应该考虑哪些运营业务因素”。 -----------------------------下面是正文内容-------------------------- 数据处理工作不仅依赖于数据工作者的数据经验,也需要考虑实际的运营业务因素。这种兼顾两种工作逻辑的工作方式会帮助数据工作少走弯路并降低数据项目失败的可能性,还有利于提高数据工作的效率和产出效果,真正让运营理解数据、应用数据并驱动业务。 数据处理时应该考虑的运营业务因素包括固定和突发运营周期、运营需求的有效性、交付时要贴合运营落地场景、专家经验、业务需求的变动因素等。

3.

继续阅读