《Python数据分析与数据化运营》第二版 常见问题

在该文章中,仅总结第二版相关的问题,有关第一版的问题,请到“《Python数据分析与数据化运营》第一版常见问题”查看。

说明:由于第二版的出版时间为2019年,我已经将最新版本的代码更新到博客中,地址为:《Python数据分析与数据化运营》第二版新老版本代码对比。安装和使用最新版本的读者可参照该链接的代码。

最近更新时间:2021-06-15

继续阅读《Python数据分析与数据化运营》第二版 常见问题

3.12.4 自然语言文本预处理

说明:本文是《Python数据分析与数据化运营》中的“3.12.4 自然语言文本预处理”。

-----------------------------下面是正文内容--------------------------

与数据库中的结构化数据相比,文本具有有限的结构,某些类型的数据源甚至没有数据结构。因此,预处理就是要对半结构化或非结构化的文本进行格式和结构的转换、分解和预处理等,以得到能够用于进一步处理的基础文本。不同环境下,文本所需的预处理工作内容有所差异,大体上分为以下几个部分: 继续阅读3.12.4 自然语言文本预处理

3.12.3 图像的基本预处理

说明:本文是《Python数据分析与数据化运营》中的“3.12.3 图像的基本预处理”。

-----------------------------下面是正文内容--------------------------

本示例中,将使用OpenCV来做图像基本预处理操作,基本处理内容包括图像缩放、平移、旋转、透视变换、图像色彩模式转换、边缘检测、二值化操作、平滑处理、形态学处理。 继续阅读3.12.3 图像的基本预处理

3.12.1 网页数据解析

说明:本文是《Python数据分析与数据化运营》中的“3.12.1 网页数据解析”。

-----------------------------下面是正文内容--------------------------

本节通过一个稍微复杂一点的示例,来演示如何抓取并解析网页数据。之所以说复杂,是因为本节中会出现几个本书中未曾提及的知识和方法,从代码数量来看也会比之前的示例稍微长一点。 继续阅读3.12.1 网页数据解析

2.4 本章小结

说明:本文是《Python数据分析与数据化运营》中的“2.4 本章小结”。

-----------------------------下面是正文内容--------------------------

内容小结:本章的内容较多,主要涉及到企业数据化运营可能产生数据的方方面面,包括数据来源的类型、通过不同方式获得运营数据以及对非结构化数据的获取等方面。不同的企业由于其行业和企业背景不同,通常不会全部覆盖其中的所有数据场景,读者可根据自身情况和需求选择。另外,大多数读者所在的企业,应该以结构化的数据为主,内容延展里面的知识作为课外补充和了解即可,真正到需要用到这些知识时,再学习和查阅更多。本书所有示例中的原始代码,在“附件-chapter2”中chapter2_code.py中可以找到,同时在该文件夹下存储了所有示例用到的本地数据。 继续阅读2.4 本章小结

2.3 内容延展:读取非结构化网页、文本、图像、视频、语音

说明:本文是《Python数据分析与数据化运营》中的“2.3 内容延展:读取非结构化网页、文本、图像、视频、语音”。

在前面的章节中,我们介绍的内容是企业常见的数据来源和获取方式,本节将拓展数据来源方式和格式的获取,主要集中在非结构化的网页、文本、图像、视频和语音。 继续阅读2.3 内容延展:读取非结构化网页、文本、图像、视频、语音

2.2 使用Python获取运营数据-2

说明:本文是《Python数据分析与数据化运营》中的“2.2 使用Python获取运营数据”中的第二部分,由于本节内容较多,这里分几个文章。 继续阅读2.2 使用Python获取运营数据-2