分类目录归档:Python数据分析与数据化运营

3.1 数据清洗:缺失值、异常值和重复值的处理-2代码实操


说明:本文是《Python数据分析与数据化运营》中的“3.1 数据清洗:缺失值、异常值和重复值的处理-2 代码实操部分”。 -----------------------------下面是正文内容--------------------------

缺失值处理

对于缺失值的处理上,主要配合使用sklearn.preprocessing中的Imputer类、Pandas和Numpy。

其中由于Pandas对于数据探索、分析和探查的支持较为良好,因此围绕Pandas的缺失值处理较为常用。

import pandas as pd # 导入pandas库
import numpy as np # 导

继续阅读

3.1 数据清洗:缺失值、异常值和重复值的处理-1


说明:本文是《Python数据分析与数据化运营》中的“3.1 数据清洗:缺失值、异常值和重复值的处理”第一部分。 -----------------------------下面是正文内容-------------------------- 在数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集通过丢弃、填充、替换、去重等操作,实现去除异常、纠正错误、补足缺失的目的。

3.1.1 遇到缺失值就要补全吗

数据缺失分为两种: 1. 一是行记录的缺失,这种情况也定义为数据记录丢失; 2. 二是数据列值的缺失,指由于各种原因导致的数据记录中某些列的值空缺,不同的数据存储和环境中对于缺

继续阅读

2.3 内容延展:读取非结构化网页、文本、图像、视频、语音


说明:本文是《Python数据分析与数据化运营》中的“2.3 内容延展:读取非结构化网页、文本、图像、视频、语音”。 在前面的章节中,我们介绍的内容是企业常见的数据来源和获取方式,本节将拓展数据来源方式和格式的获取,主要集中在非结构化的网页、文本、图像、视频和语音。

2.3.1 从网页中爬取运营数据

要从网页中爬虫数据,可使用Python内置标准库或第三方库,例如urllib、urllib2、httplib、httplib2、requests等。本节使用requests方法获取网页数据。

import requests # 导入库
url = 'http://www.dataivy.c

继续阅读

2.2 使用Python获取运营数据-2


说明:本文是《Python数据分析与数据化运营》中的“2.2 使用Python获取运营数据”中的第二部分,由于本节内容较多,这里分几个文章。

2.2.2 从Excel获取运营数据

现有的Excel分为两种格式:xls(Excel 97-2003)和xlsx(Excel 2007及以上)。

Python处理Excel文件主要是第三方模块库xlrd、xlwt、pyexcel-xls、xluntils和pyExcelerator,以及win32com和openpyxl模块,此外Pandas中也带有可以读取Excel文件的模块(read_excel)。

基于扩展知识的目的,我们使用xlrd模块读取Ex

继续阅读

2.2 使用Python获取运营数据-1


说明:本文是《Python数据分析与数据化运营》中的“2.2 使用Python获取运营数据”中的第一部分,由于本节内容较多,这里分几个文章。

2.2.1 从文本文件读取运营数据

1. 使用read、readline、readlines读取数据

Python可以读取任何格式的文本数据,使用Python读取文本数据的基本步骤是:

  • 定义数据文件
  • 获取文件对象
  • 读取文件内容
  • 关闭文件对象

定义数据文件 定义数据文件即定义要读取的文件,该步骤不是必须的,可以跟“获取文件对象”整合。但为了后续操作的便捷性、全局数据对象的可维护性以及减少代码冗余,建议读者养成习惯,将数据文件预先赋值给一个对象。

定义文

继续阅读

2.1 数据化运营的数据来源类型


说明:本文是《Python数据分析与数据化运营》中的“2.1 数据化运营的数据来源类型”。 数据化运营的数据来源类型包括数据文件、数据库、API、流式数据、外部公开数据和其他来源等。

2.1.1 数据文件

数据文件就是存储数据的文件,广义上,任何文件中存储的信息都可以称为数据;狭义上,数据文件中存储的是以数字或文本形式存储的结构化的数据记录,本节的范围指的是后者。

  • 结构化数据文件大多来源于数据库,例如从MySQL中导出2017-01-04到2017-10-21的订单明细数据并存储为csv文件;
  • 也有来源于系统或工具的工作过程或返回结果,例如Windows版本的Tesseract文字识别后的结

继续阅读

1.4 第一个用Python实现的数据化运营分析实例-销售预测


说明:本文是《Python数据分析与数据化运营》中的“1.4 第一个用Python实现的数据化运营分析实例-销售预测”。

1. 案例概述

本节通过一个简单的案例,来介绍下如何使用Python进行数据化运营分析。

案例场景:每个销售型公司都有一定的促销费用,促销费用可以带来销售量的显著提升;当给出一定的促销费用时,预计会带来多大的商品销售量? 在“附件-chapter1”中data.txt存储了建模所需的原始数据,get_started_example.py是案例完整代码。以下是原始数据概况:

  • 来源:生成的模拟数据,非真实数据
  • 用途:用来做第一个销售预测案例
  • 维度数量:1
  • 记录数:100
  • 字段

继续阅读

案例-基于自动PDQ值的ARIMA时间序列预测应用


Python的科学计算和数据挖掘相关库中,pandas和statsmodels都提供了时间序列相关分析功能,本示例使用的是statsmodels做时间序列预测应用。有关时间序列算法的选择,实际场景中最常用的是ARIMA或ARMA了,因此本示例将使用ARIMA/ARMA来做时间序列分析。

对于这两种时间序列方法而言,应用的难点是如何根据不同的场景判断参数值(即p、d、q)。本示例将设置判断阀值,通过自动化的程序方式来完成自动的ARIMA/ARMA的参数(p、d、q)选择以及模型训练,降低时间序列算法应用的难度。

示例中模拟的是针对具有时间序列特征的数据集做未来时间序列的预测,数据源文件time_

继续阅读

案例-基于自动K值的KMeans广告效果聚类分析


案例背景

某企业由于投放的广告渠道比较多,需要对其做广告效果分析以实现有针对性的广告效果测量和优化工作。跟以应用为目的的案例不同的是,由于本案例是一个分析型案例,该过程的输出其实是不固定的,因此需要跟业务运营方具体沟通需求。

以下是在开展研究之前的基本预设条件:

  • 广告渠道的范畴是什么?具体包括哪些渠道?——所有站外标记的广告类渠道(以ad_开头)。
  • 数据集时间选择哪个时间段?——最近90天的数据。
  • 数据集选择哪些维度和指标?——渠道代号、日均UV、平均注册率、平均搜索量、访问深度、平均停留时间、订单转化率、投放总时间、素材类型、广告类型、合作方式、广告尺寸、广告卖点。
  • 专题分析要解决什么问题

继续阅读