分类标签归档:数据处理

3.12.4 自然语言文本预处理


说明:本文是《Python数据分析与数据化运营》中的“3.12.4 自然语言文本预处理”。 -----------------------------下面是正文内容--------------------------

与数据库中的结构化数据相比,文本具有有限的结构,某些类型的数据源甚至没有数据结构。因此,预处理就是要对半结构化或非结构化的文本进行格式和结构的转换、分解和预处理等,以得到能够用于进一步处理的基础文本。不同环境下,文本所需的预处理工作内容有所差异,大体上分为以下几个部分:

基本处理

根据不同的文本数据来源,可能涉及到的基本文本处理包括去除无效标签、编码转换、文档切分、基本纠错、去除

继续阅读

3.12.3 图像的基本预处理


说明:本文是《Python数据分析与数据化运营》中的“2.2 使用Python获取运营数据”中的第二部分,由于本节内容较多,这里分几个文章。

2.2.2 从Excel获取运营数据

现有的Excel分为两种格式:xls(Excel 97-2003)和xlsx(Excel 2007及以上)。

Python处理Excel文件主要是第三方模块库xlrd、xlwt、pyexcel-xls、xluntils和pyExcelerator,以及win32com和openpyxl模块,此外Pandas中也带有可以读取Excel文件的模块(read_excel)。

基于扩展知识的目的,我们使用xlrd模块读取Ex

继续阅读

3.11 数据处理应该考虑哪些运营业务因素


说明:本文是《Python数据分析与数据化运营》中的“3.11 数据处理应该考虑哪些运营业务因素”。 -----------------------------下面是正文内容-------------------------- 数据处理工作不仅依赖于数据工作者的数据经验,也需要考虑实际的运营业务因素。这种兼顾两种工作逻辑的工作方式会帮助数据工作少走弯路并降低数据项目失败的可能性,还有利于提高数据工作的效率和产出效果,真正让运营理解数据、应用数据并驱动业务。 数据处理时应该考虑的运营业务因素包括固定和突发运营周期、运营需求的有效性、交付时要贴合运营落地场景、专家经验、业务需求的变动因素等。

3.

继续阅读

3.12.1 网页数据解析


说明:本文是《Python数据分析与数据化运营》中的“3.12.1 网页数据解析”。 -----------------------------下面是正文内容--------------------------

本节通过一个稍微复杂一点的示例,来演示如何抓取并解析网页数据。之所以说复杂,是因为本节中会出现几个本书中未曾提及的知识和方法,从代码数量来看也会比之前的示例稍微长一点。

本示例中,将使用requests、bs4、re、time库进行网页数据读取、解析和相关处理。

示例的目标是抓取亚马逊中国网站苹果手机和配件的价格,用于做竞争对手的标杆商品价格监控。注意:本示例仅做学习之用。

在抓取和解

继续阅读

3.12.2 网络用户日志解析


说明:本文是《Python数据分析与数据化运营》中的“3.12.2 网络用户日志解析”。 -----------------------------下面是正文内容--------------------------

网络用户日志属于非结构化数据的一种,其解析方法根据不同的服务器配合和跟踪实施需要自定义模块,本节将以一个示例来演示如何进行日志解析。

本示例中,将使用正则表达式配合自定义函数模块实现日志解析功能。数据源文件traffic_log_for_dataivy位于“附件-chapter3”中,默认工作目录为“附件-chapter3”(如果不是,请cd切换到该目录下,否则会报“IOError

继续阅读

3.10 离散化,对运营数据做逻辑分层


说明:本文是《Python数据分析与数据化运营》中的“3.10 离散化,对运营数据做逻辑分层”。 -----------------------------下面是正文内容--------------------------

所谓离散化,就是把无限空间中有限的个体映射到有限的空间中。数据离散化操作大多是针对连续数据进行的,处理之后的数据值域分布将从连续属性变为离散属性,这种属性一般包含2个或2个以上的值域。

离散化处理的必要性:

  • 节约计算资源,提高计算效率。
  • 算法模型(尤其是分类模型)的计算需要。虽然很多模型,例如决策树可以支持输入连续型数据,但是决策树本身会先将连续型数据转化为离散型数据,因

继续阅读

3.9 标准化,让运营数据落入相同的范围


说明:本文是《Python数据分析与数据化运营》中的“3.9 标准化,让运营数据落入相同的范围”。 -----------------------------下面是正文内容--------------------------

数据标准化是一个常用的数据预处理操作,目的是将不同规模和量纲的数据经过处理,缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化后的数据还具有了直接计算并生成复合指标的意义,是加权指标的必要步骤。

3.9.1 实现中心化和正态分布的Z-Score

Z-Score标准化是基于原始数据的均值和标准差进行的标准化,假设原转换的数据为x,

继续阅读

3.7 解决运营数据的共线性问题


说明:本文是《Python数据分析与数据化运营》中的“3.7 解决运营数据的共线性问题”。 -----------------------------下面是正文内容-------------------------- 所谓共线性(也称为多重共线性)问题指的是输入的自变量之间存在较高的线性相关度。共线性问题会导致回归模型的稳定性和准确性大大降低,另外,过多无关的维度参与计算也会浪费计算资源和时间。

共线性问题是否常见取决于具体业务场景,常见的具有明显的共线性的维度或变量包括:

  • 访问量和页面浏览量
  • 页面浏览量和访问时间
  • 订单量和销售额
  • 订单量和转化率
  • 促销费用和销售额
  • 网络展示广告费用和访客数

继续阅读

3.6 数据化运营要抽样还是全量数据


说明:本文是《Python数据分析与数据化运营》中的“3.6 数据化运营要抽样还是全量数据”。 -----------------------------下面是正文内容--------------------------

抽样是从整体样本中通过一定的方法选择一部分样本,抽样是数据处理的基本步骤之一,也是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

3.6.1 什么时候需要抽样

抽样工作在数据获取较少或处理大量数据比较困难的时代非常流行,主要有以下几方面背景:

  • 数据计算资源不足。计算机软硬件的限制是导致抽样产生的基本原因之一,尤其是在数据密集的生物、科学工程等领域,不抽

继续阅读

3.5 如何解决运营数据源的冲突问题


说明:本文是《Python数据分析与数据化运营》中的“3.5 如何解决运营数据源的冲突问题”。 -----------------------------下面是正文内容--------------------------

多运营数据源冲突指的是来自于多个或同一个系统、环境、平台和工具中,相同业务逻辑的数据其结果不同。根据冲突的差异特征,可分为以下几种类型:

  • 数据类型冲突。同一数据对象的数据格式不同,例如会员注册时间这一字段其存储格式有日期、时间戳两种。
  • 数据结构冲突。对于同一个数据主体的描述结构有冲突,典型代表是关联主键ID值有不同的逻辑结构,导致后期多源数据匹配和关联尤其复杂。
  • 记录粒度不

继续阅读