说明：本文是《Python数据分析与数据化运营》中的“3.11 数据处理应该考虑哪些运营业务因素”。 -----------------------------下面是正文内容-------------------------- 数据处理工作不仅依赖于数据工作者的数据经验，也需要考虑实际的运营业务因素。这种兼顾两种工作逻辑的工作方式会帮助数据工作少走弯路并降低数据项目失败的可能性，还有利于提高数据工作的效率和产出效果，真正让运营理解数据、应用数据并驱动业务。数据处理时应该考虑的运营业务因素包括固定和突发运营周期、运营需求的有效性、交付时要贴合运营落地场景、专家经验、业务需求的变动因素等。

3.

继续阅读

3.12.1 网页数据解析

发表评论

2209 浏览量

说明：本文是《Python数据分析与数据化运营》中的“3.12.1 网页数据解析”。 -----------------------------下面是正文内容--------------------------

本节通过一个稍微复杂一点的示例，来演示如何抓取并解析网页数据。之所以说复杂，是因为本节中会出现几个本书中未曾提及的知识和方法，从代码数量来看也会比之前的示例稍微长一点。

本示例中，将使用requests、bs4、re、time库进行网页数据读取、解析和相关处理。

示例的目标是抓取亚马逊中国网站苹果手机和配件的价格，用于做竞争对手的标杆商品价格监控。注意：本示例仅做学习之用。

在抓取和解

继续阅读

3.12.2 网络用户日志解析

发表评论

2005 浏览量

说明：本文是《Python数据分析与数据化运营》中的“3.12.2 网络用户日志解析”。 -----------------------------下面是正文内容--------------------------

网络用户日志属于非结构化数据的一种，其解析方法根据不同的服务器配合和跟踪实施需要自定义模块，本节将以一个示例来演示如何进行日志解析。

本示例中，将使用正则表达式配合自定义函数模块实现日志解析功能。数据源文件traffic_log_for_dataivy位于“附件-chapter3”中，默认工作目录为“附件-chapter3”（如果不是，请cd切换到该目录下，否则会报“IOError

继续阅读

3.10 离散化，对运营数据做逻辑分层

2个评论

2535 浏览量

说明：本文是《Python数据分析与数据化运营》中的“3.10 离散化，对运营数据做逻辑分层”。 -----------------------------下面是正文内容--------------------------

所谓离散化，就是把无限空间中有限的个体映射到有限的空间中。数据离散化操作大多是针对连续数据进行的，处理之后的数据值域分布将从连续属性变为离散属性，这种属性一般包含2个或2个以上的值域。

离散化处理的必要性：

节约计算资源，提高计算效率。
算法模型（尤其是分类模型）的计算需要。虽然很多模型，例如决策树可以支持输入连续型数据，但是决策树本身会先将连续型数据转化为离散型数据，因

继续阅读

3.9 标准化，让运营数据落入相同的范围

发表评论

2496 浏览量

说明：本文是《Python数据分析与数据化运营》中的“3.9 标准化，让运营数据落入相同的范围”。 -----------------------------下面是正文内容--------------------------

数据标准化是一个常用的数据预处理操作，目的是将不同规模和量纲的数据经过处理，缩放到相同的数据区间和范围，以减少规模、特征、分布差异等对模型的影响。除了用作模型计算，标准化后的数据还具有了直接计算并生成复合指标的意义，是加权指标的必要步骤。

3.9.1 实现中心化和正态分布的Z-Score

Z-Score标准化是基于原始数据的均值和标准差进行的标准化，假设原转换的数据为x，

继续阅读

3.8 有关相关性分析的混沌

发表评论

1439 浏览量

说明：本文是《Python数据分析与数据化运营》中的“3.8 有关相关性分析的混沌”。 -----------------------------下面是正文内容--------------------------

相关性分析是指对多个具备相关关系的变量进行分析，从而衡量变量间的相关程度或密切程度。相关性可以应用到所有数据的分析过程中，任何事物之间都是存在一定的联系。相关性用R（相关系数）表示，R的取值范围是[-1,1]。

3.8.1 相关和因果是一回事吗

相关性不等于因果，用x1和x2作为两个变量进行解释，相关意味着x1和x2是逻辑上的并列相关关系，而因果联系可以解释为因为x1所以x2（或因为

继续阅读

3.7 解决运营数据的共线性问题

发表评论

2625 浏览量

说明：本文是《Python数据分析与数据化运营》中的“3.7 解决运营数据的共线性问题”。 -----------------------------下面是正文内容-------------------------- 所谓共线性（也称为多重共线性）问题指的是输入的自变量之间存在较高的线性相关度。共线性问题会导致回归模型的稳定性和准确性大大降低，另外，过多无关的维度参与计算也会浪费计算资源和时间。

共线性问题是否常见取决于具体业务场景，常见的具有明显的共线性的维度或变量包括：

访问量和页面浏览量
页面浏览量和访问时间
订单量和销售额
订单量和转化率
促销费用和销售额
网络展示广告费用和访客数

继续阅读

数据常青藤

数据智能应用与落地才是数据的未来！

《电商流量数据化运营》上市了！

3.12.4 自然语言文本预处理

3.12.3 图像的基本预处理

2.2.2 从Excel获取运营数据

3.11 数据处理应该考虑哪些运营业务因素

3.

3.12.1 网页数据解析

3.12.2 网络用户日志解析

3.10 离散化，对运营数据做逻辑分层

3.9 标准化，让运营数据落入相同的范围

3.9.1 实现中心化和正态分布的Z-Score

3.8 有关相关性分析的混沌

3.8.1 相关和因果是一回事吗

3.7 解决运营数据的共线性问题