1.1 用Python做数据化运营

说明:本文是《Python数据分析与数据化运营》中的“1.1 用Python做数据化运营”。

Python是什么?数据化运营又是什么?为什么要将Python用于数据化运营?本节先来回答这几个问题。

1.1.1 Python是什么

Python是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。Python开发的初衷其实是一个开发程序语言,而非相对数据工作和科学计算的数据处理或建模程序。

为什么我们要选择Python而非其他语言(例如R)进行数据处理、分析和挖掘?这是因为Python先天和后天具有的一些特殊条件和能力使其成为目前企业(尤其是大数据领域)做数据化运营最为合适的工具。

  • 开源/免费:使用Python(及其第三方库)无需任何产品购买、授权或license费用,对个人和企业都是如此。
  • 可移植性:Python程序可以跨Windows、Linux、Mac等多平台运行,这点决定了它的移植性非常强,一次开发、多平台应用。
  • 丰富的结构化和非结构化数据工作库和工具:Python除了自带数学计算库外,还包括丰富的第三方库和工具,例如用于连接Oracle、MySQL、SQLite等数据库连接库,数据科学计算库Numpy、Sciy、Pandas,文本处理库NLTK、机器学习库Scikit-Learn、Theano,图形视频分析处理和挖掘库PIL和Opencv以及开源计算框架Tensorflow等。
  • 强大的数据获取和集成能力:Python除了可以支持多种类型的文件(图像、文本、日志、语音、视频等)和数据库集成外,还能通过API、网络抓取等方式获取外部数据,内、外部数据源整合、多源数据集成、异构数据并存、多类型数据交错正是当前企业运营数据的基本形态。
  • 海量数据的计算能力和效率:当面对超过GB、TB规模的海量数据时,传统数据工具通常无法支撑,更不必填计算效率。Python对于这个规模的数据计算的支持能力和工作效率要远超过其他数据工作语言。
  • 与其他语言的集成:Python具备“胶水”能力,能与Java、C、C++、MATLAB、R等集成使用,这意味着你既可以把其他语言写到的脚本嵌入Python,也可以把Python脚本嵌入其他语言。
  • 强大的学习交流和培训资源:Python已经成为世界上最主流的编程语言和数据工作的核心工具之一,有非常多的社区、博客、论坛、培训、教育机构提供了交流和学习的机会。
  • 开发效率高:Python语言简洁、程序规范,这使得在使用Python开发程序时用时更少。这对于以效率优先的程序工作或验证性项目非常关键,效率决定商机。
  • 简单易学:Python语法简单,即使是没有任何代码基础的人也能在几个小时能掌握基本的Python编程技巧。这对于初学者而言至关重要,编程式数据分析不再遥不可及,我们都能像使用Excel一样使用Python。

总而言之,在具备一定的Python经验和技巧下,几乎没有Python无法胜任的工作场景!如果有,那么用Python调用其他能胜任的语言或用其他能胜任的语言调用Python吧。

1.1.2 数据化运营是什么

1. 数据化运营的基本含义

数据化运营是指通过数据化的工具、技术和方法,对运营过程中的各个环节进行科学分析、引导和应用,从而达到优化运营效果和效率,降低成本、提高效益的目的。

运营是一个范围“弹性”非常大的概念,最大可以延伸到所有公司的事务管理,最小可能只包括网站运营管理工作。本书中若无特殊说明,运营的范围包括会员运营、商品运营、流量运营和内容运营四方面内容。

2. 数据化运营的重要意义

数据化运营的核心是运营,所有数据工作都是围绕运营工作链条展开,逐步强化数据对于运营工作的驱动作用。数据化运营的价值体现在对运营的辅助、提升和优化上,甚至某些运营工作已经逐步数字化、自动化、智能化。

提高运营决策效率

在信息瞬息万变的时代,抓取转瞬即逝的机会对企业而言至关重要。决策效率越高意味着可以在更短的时间内做出决策,从而跟上甚至领先竞争对手。数据化运营带来的辅助决策便捷性以及数据智能引发的主动决策思考,将提前预判决策时机并提高决策效率。

提高运营决策正确性

智能化的数据工作方式,可以基于数据科学方法进行数据演练并得出可量化的预期结果,再配合决策层的丰富经验,会提高运营决策的正确性。

优化运营执行过程

数据化运营可以通过标准口径的数据、信息和结论,为运营部门提供标准统一、目标明确的KPI管理,结合数据化的工作方法和思路,优化运营过程中的执行环节,从而降低沟通成本、提高工作效率、提升执行效果。

提升投资回报效果

数据化运营过程中,通过持续的正确工作目标的树立、最大化工作效率的提升、最优化工作方法的执行能有效降低企业冗余支出,提升单位成本的投资回报效果。

3. 数据化运营的2种方式

从数据发挥作用的角色来看,数据化运营分为辅助决策式数据化运营和数据驱动式数据化运营。

辅助决策式数据化运营

辅助决策式数据化运营即运营的决策支持,它是以决策主题为中心,借助计算机相关技术辅助决策者通过数据、模型、知识等进行业务决策,起到帮助、协助和辅助决策者的目的。例如:通过为决策者提供促销商品销量,来为企业促销活动提供有关订货、销售等方面的支持。

数据驱动式数据化运营

数据驱动式数据化运营是指整个运营运作流程以最大化结果为目标,以关键数据为触发和优化方式,将运营业务的工作流程、逻辑、技巧封装为特定应用,借助计算机技术并结合企业内部流程和机制形成一体化的数据化工作流程。例如:个性化推荐是一种数据驱动数据化运营方式。

两种数据化运营的差异点

辅助决策式数据化运营和数据驱动式数据化运营是两个层次的数据应用,数据驱动相对于辅助决策的实现难度更高、数据价值体现更大。

  • 辅助决策为业务决策方服务,整个过程都由运营人员掌控,数据是辅助角色。
  • 数据驱动的过程由数据掌控,数据是主体,实现该过程需要IT、自动化系统、算法等支持,数据驱动具有自主导向性、自我驱动性和效果导向性的特征。

注意 由于数据和流程本身会存在缺陷以及运营业务通常都有强制性规则的需求,因此即使在数据驱动数据化运营过程中也会加入人工干预因素。但即使如此,数据作为数据驱动的核心不变,数据即决策主体本身。

4. 数据化运营的工作流程

在上一节我们介绍了数据化运营的两种方式:辅助决策式数据化运营和数据驱动式数据化运营。其中数据驱动式数据化运营具体取决于应用场景,不同的场景其具体工作流程不同。有关该部分内容在本书后面章节具体讲到。本节重点介绍数据驱动式数据化运营的工作流程。

数据驱动式数据化运营工作包含数据和运营两个主体,在实际工作过程中需要二者协同;在某些大型工作项目上,还有可能涉及到跟IT部门、信息中心等部门的联动。工作流程分为三个阶段,如图1-1:

图1-1

图1-1 数据驱动式数据化运营工作流程

第一阶段:数据需求沟通

该阶段主要包括需求产生和需求沟通两个步骤。

需求产生

由运营部门产生的某些数据化运营需求,例如预测商品销量、找到异常订单、确定营销目标人群名单等。

需求沟通

针对运营部门提出的需求进行面对面沟通和交流,主要沟通两方面内容:一是业务需求沟通,包括需求产生的背景、要解决的问题、预期达到的效果等;二是数据现状沟通,包括数据存储环境、主要字段、数据字典、数据量、更新频率、数据周期等,如果没有数据则需要制定数据采集规则并开始采集数据,该过程中可能需要IT部门的协助;三是数据与分析的关联性沟通,根据与运营人员的沟通,了解业务背景下哪些是常见的带有业务背景的数据、不同场景会导致数据如何变化、分析中会涉及到哪些关键字段或场景数据等,业务人员丰富的经验会帮助数据工作者少走很多坑。

第二阶段:数据分析建模

从这一阶段开始进入正式的数据工作,包括获取数据、数据预处理、数据分析建模和数据结论输出四个步骤。

获取数据

要获取数据化运营分析所需的数据,需要经过特定授权从数据库或文件中得到数据。

数据预处理

在该过程中对数据进行质量检验、样本均衡、分类汇总、合并数据集、删除重复项、数据分区、排序、数据离散化、数据标准化、过滤变量、转置、查找转换、数据脱敏、数据转换、抽样、异常值和缺失值处理等。

数据分析建模

运用多种数据分析和挖掘方法,对数据进行分析建模。方法包括统计分析、OLAP分析、回归、聚类、分类、关联、异常检测、时间序列、协同过滤、主题模型、路径分析、漏斗分析等。

数据结论输出

数据结论的输出有多种方式,常见的方式是数据分析或挖掘建模报告,另外还包括Excel统计结果、数据API输出、数据结果返回数据库、数据结果直接集成到应用程序中进行自动化运营用用(例如短信营销)。

第三阶段:数据落地应用

该阶段是数据化运营的落地的关键阶段,前期所有的准备和处理工作都通过该阶段产生价值。该阶段包括数据结论沟通、数据部署应用和后续效果监测和反馈三个步骤。

数据结论沟通

对于输出的形式为报告、Excel统计结果等方式的内容,通常都需要与运营对象进行深入沟通,主要沟通的内容是将通过数据得到的结论和结果与业务进行沟通,通过沟通来初步验证结论的正确性、可靠性和可行性,并对结果进行修正。如果没有可行性,那么需要返回第二阶段重新开始数据分析建模流程。

数据部署应用

经过沟通具有可行性的数据结论,可直接应用到运营执行环节。例如,将预测结果作为下一月份的KPI目标,将选择出来的用户作为重点客户进行二次营销。

后续效果监测和反馈

大多数的数据化运营分析都不是“一次性”的,尤其当已经进行部署应用之后,需要对之前的数据结论在实践中的效果做二次验证,若有必要则需要进行结论的再次修正和意见反馈。

注意 很多人认为数据化运营工作应该从数据产生之后开始,这是错误的观念,原因在于数据化运营工作的起始是需求产生,而需求的产生跟数据的产生往往没有必然关系。

1.1.3 Python用于数据化运营

Python用于数据化运营,将充分利用Python的强大功能和效率来满足数据化运营的复杂需求。

  • Python可以将数据化运营过程中的来源于企业内外部的海量、多类型、异构、多数据源的数据有效整合到一起,提供丰富的集成、开发、分析、建模和部署应用。
  • Python高效的开发效率能帮助数据化运营在最短的时间内进行概念验证,并提供科学的预测结果,为数据化运营的快速和准确提供基础。
  • Python可以将数据工作流程和IT工作流程无缝对接,有利于实现数据工作跟运营工作的融合,这也是数据驱动式数据化运营的工作方法,有利于真正实现数字化、智能化的运营工作。

====================【好书推荐,我为自己代言】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>