3.12.4 自然语言文本预处理

说明:本文是《Python数据分析与数据化运营》中的“3.12.4 自然语言文本预处理”。

-----------------------------下面是正文内容--------------------------

与数据库中的结构化数据相比,文本具有有限的结构,某些类型的数据源甚至没有数据结构。因此,预处理就是要对半结构化或非结构化的文本进行格式和结构的转换、分解和预处理等,以得到能够用于进一步处理的基础文本。不同环境下,文本所需的预处理工作内容有所差异,大体上分为以下几个部分: 继续阅读3.12.4 自然语言文本预处理

3.12.3 图像的基本预处理

说明:本文是《Python数据分析与数据化运营》中的“3.12.3 图像的基本预处理”。

-----------------------------下面是正文内容--------------------------

本示例中,将使用OpenCV来做图像基本预处理操作,基本处理内容包括图像缩放、平移、旋转、透视变换、图像色彩模式转换、边缘检测、二值化操作、平滑处理、形态学处理。 继续阅读3.12.3 图像的基本预处理

3.12.2 网络用户日志解析

说明:本文是《Python数据分析与数据化运营》中的“3.12.2 网络用户日志解析”。

-----------------------------下面是正文内容--------------------------

网络用户日志属于非结构化数据的一种,其解析方法根据不同的服务器配合和跟踪实施需要自定义模块,本节将以一个示例来演示如何进行日志解析。 继续阅读3.12.2 网络用户日志解析

3.12.1 网页数据解析

说明:本文是《Python数据分析与数据化运营》中的“3.12.1 网页数据解析”。

-----------------------------下面是正文内容--------------------------

本节通过一个稍微复杂一点的示例,来演示如何抓取并解析网页数据。之所以说复杂,是因为本节中会出现几个本书中未曾提及的知识和方法,从代码数量来看也会比之前的示例稍微长一点。 继续阅读3.12.1 网页数据解析

3.11 数据处理应该考虑哪些运营业务因素

说明:本文是《Python数据分析与数据化运营》中的“3.11 数据处理应该考虑哪些运营业务因素”。

-----------------------------下面是正文内容--------------------------

数据处理工作不仅依赖于数据工作者的数据经验,也需要考虑实际的运营业务因素。这种兼顾两种工作逻辑的工作方式会帮助数据工作少走弯路并降低数据项目失败的可能性,还有利于提高数据工作的效率和产出效果,真正让运营理解数据、应用数据并驱动业务。 继续阅读3.11 数据处理应该考虑哪些运营业务因素

3.9 标准化,让运营数据落入相同的范围

说明:本文是《Python数据分析与数据化运营》中的“3.9 标准化,让运营数据落入相同的范围”。

-----------------------------下面是正文内容--------------------------

数据标准化是一个常用的数据预处理操作,目的是将不同规模和量纲的数据经过处理,缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化后的数据还具有了直接计算并生成复合指标的意义,是加权指标的必要步骤。 继续阅读3.9 标准化,让运营数据落入相同的范围