分类标签归档:数据化运营

《电商流量数据化运营》上市了!


《电商流量数据化运营》这本书我定义为是一本“拿来用”的书。

熟悉我的朋友们知道,长久以来,我都是做数据相关工作的。但无论是数据分析、建模、机器学习,还是数据产品、智能应用开发,其核心数据价值都体现在“在什么地方用”、“有多大用”这些环节上。

在我超过10年的数据工作中,我深感“数据”的价值是模糊不清的,原因之一就在于数据是没法直接落地的!也就是数据工作与业务工作是分离的!

想想,常见数据分析师、数据工程师的基本工作思维是什么?是先拿到一批数据,然后通过各种方法、算法得到一些结果,最后再想想这些数据结论能用在哪呢?——这种先有数据结果再找应用场景的工作方法,在大多数场景下都得不到很好的价值体现

继续阅读

3.11 数据处理应该考虑哪些运营业务因素


说明:本文是《Python数据分析与数据化运营》中的“3.11 数据处理应该考虑哪些运营业务因素”。 -----------------------------下面是正文内容-------------------------- 数据处理工作不仅依赖于数据工作者的数据经验,也需要考虑实际的运营业务因素。这种兼顾两种工作逻辑的工作方式会帮助数据工作少走弯路并降低数据项目失败的可能性,还有利于提高数据工作的效率和产出效果,真正让运营理解数据、应用数据并驱动业务。 数据处理时应该考虑的运营业务因素包括固定和突发运营周期、运营需求的有效性、交付时要贴合运营落地场景、专家经验、业务需求的变动因素等。

3.

继续阅读

3.12.2 网络用户日志解析


说明:本文是《Python数据分析与数据化运营》中的“3.12.2 网络用户日志解析”。 -----------------------------下面是正文内容--------------------------

网络用户日志属于非结构化数据的一种,其解析方法根据不同的服务器配合和跟踪实施需要自定义模块,本节将以一个示例来演示如何进行日志解析。

本示例中,将使用正则表达式配合自定义函数模块实现日志解析功能。数据源文件traffic_log_for_dataivy位于“附件-chapter3”中,默认工作目录为“附件-chapter3”(如果不是,请cd切换到该目录下,否则会报“IOError

继续阅读

3.6 数据化运营要抽样还是全量数据


说明:本文是《Python数据分析与数据化运营》中的“3.6 数据化运营要抽样还是全量数据”。 -----------------------------下面是正文内容--------------------------

抽样是从整体样本中通过一定的方法选择一部分样本,抽样是数据处理的基本步骤之一,也是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

3.6.1 什么时候需要抽样

抽样工作在数据获取较少或处理大量数据比较困难的时代非常流行,主要有以下几方面背景:

  • 数据计算资源不足。计算机软硬件的限制是导致抽样产生的基本原因之一,尤其是在数据密集的生物、科学工程等领域,不抽

继续阅读

3.5 如何解决运营数据源的冲突问题


说明:本文是《Python数据分析与数据化运营》中的“3.5 如何解决运营数据源的冲突问题”。 -----------------------------下面是正文内容--------------------------

多运营数据源冲突指的是来自于多个或同一个系统、环境、平台和工具中,相同业务逻辑的数据其结果不同。根据冲突的差异特征,可分为以下几种类型:

  • 数据类型冲突。同一数据对象的数据格式不同,例如会员注册时间这一字段其存储格式有日期、时间戳两种。
  • 数据结构冲突。对于同一个数据主体的描述结构有冲突,典型代表是关联主键ID值有不同的逻辑结构,导致后期多源数据匹配和关联尤其复杂。
  • 记录粒度不

继续阅读

3.3 大数据时代,数据化运营还需要降维吗


说明:本文是《Python数据分析与数据化运营》中的“3.3 大数据时代,数据化运营还需要降维吗”。 -----------------------------下面是正文内容-------------------------- 数据降维就是降低数据的维度数量,数据降维是维数归约的一个重要课题。

3.3.1 什么情况下需要降维

数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。是否进行降维主要考虑以下方面:

  • 维度数量。降维的基本前提是高维

继续阅读

案例-基于自动PDQ值的ARIMA时间序列预测应用


Python的科学计算和数据挖掘相关库中,pandas和statsmodels都提供了时间序列相关分析功能,本示例使用的是statsmodels做时间序列预测应用。有关时间序列算法的选择,实际场景中最常用的是ARIMA或ARMA了,因此本示例将使用ARIMA/ARMA来做时间序列分析。

对于这两种时间序列方法而言,应用的难点是如何根据不同的场景判断参数值(即p、d、q)。本示例将设置判断阀值,通过自动化的程序方式来完成自动的ARIMA/ARMA的参数(p、d、q)选择以及模型训练,降低时间序列算法应用的难度。

示例中模拟的是针对具有时间序列特征的数据集做未来时间序列的预测,数据源文件time_

继续阅读

案例-基于自动K值的KMeans广告效果聚类分析


案例背景

某企业由于投放的广告渠道比较多,需要对其做广告效果分析以实现有针对性的广告效果测量和优化工作。跟以应用为目的的案例不同的是,由于本案例是一个分析型案例,该过程的输出其实是不固定的,因此需要跟业务运营方具体沟通需求。

以下是在开展研究之前的基本预设条件:

  • 广告渠道的范畴是什么?具体包括哪些渠道?——所有站外标记的广告类渠道(以ad_开头)。
  • 数据集时间选择哪个时间段?——最近90天的数据。
  • 数据集选择哪些维度和指标?——渠道代号、日均UV、平均注册率、平均搜索量、访问深度、平均停留时间、订单转化率、投放总时间、素材类型、广告类型、合作方式、广告尺寸、广告卖点。
  • 专题分析要解决什么问题

继续阅读

《企业大数据系统构建实战:技术、架构、实施与应用》


为什么要写这本书

随着2013年大数据元年的开启,各行各业都已经将大数据视为推动企业发展、推进行业进步、加快产业升级、促进民生繁荣、巩固社会安全甚至提升国家竞争力的核心武器。从个性化推荐、关联销售到精准营销,从云平台、云服务、云计算到大数据产业链,从百度迁徙、高考预测到冬季流感预测,从机器学习、图像识别到智能交通,从奥巴马总统竞选到美国中央情报局反恐,从美国的大数据研究和发展计划到中国的促进大数据发展行动纲要等一系列事实说明了大数据正受到来自政治、经济、社会、文化、军事等各个领域的广泛关注,并越来越彰显其巨大价值。

大数据不仅是一个技术名词,更是当下企业资产、核心竞争力、完整产业链和先进生产力

继续阅读

企业大数据的数据源内容


数据源指的是企业内、外部数据的来源。数据源是大数据工作流的起点,一个完整的、需要不断迭代更新的数据工作都应该从数据源开始。这些数据源由于各自生产、存储环境的不同可分为日志/文件、数据库、网络爬虫、第三方API等。

1日志/文件

在企业内部数据源中,会存在各种日志或文件类型的数据,可能包括以下几类:

  • 日志数据,包括机器日志、用户访问日志、监控日志等,这些日志通常都是以半结构化的文本文件进行存储。
  • 视频数据,主要是动态影像数据,比如宣传视频、操作视频、监控视频、医疗视频、记录视频等,这些大多是非结构化的数据并以文件的形式进行存储。
  • 音频数据,主要集中在客服坐席录音领域,以非结构化的文件的形式进行

继续阅读