《Python数据分析与数据化运营》前言

为什么要写这本书

随着商业环境的日益严峻,企业需要不断寻找提高利润率、降低成本、提高产出价值的有效方法,而数据化运营恰好是满足企业这一需求的关键武器。数据化运营包含了运营和数据两种要素,前者需要较多的业务经验,而后者则对数据分析提出了更高要求。只有把二者结合起来,在有足够技能、经验和技术的支持下,数据化运营才能在企业内部真正落地、生根、发芽。

对数据化运营而言,各企业普遍关注的结构化数据分析、挖掘的场景非常丰富,例如销售预测、会员生命周期维护、商品结构分析等,这些普遍的共同认知为本书提供了接地气的基础;但除了这些“传统内容”外,还有很多非结构化的数据主题,它们在数据化运营过程中的角色越来越重要,例如主题挖掘、图片分析、文本挖掘、图像识别、语音识别等,这些内容拓展了数据化运营发挥价值的场景基础。

Python作为数据工作领域的关键武器之一,具有开源、多场景应用、快速上手、完善的生态和服务体系等特征,使其在数据分析与数据化运营中的任何场景都能游刃有余;即使是在为数不多的短板上,Python仍然可以基于其“胶水”的特征,引入对应的第三方工具/库/程序等来实现全场景、全应用的覆盖。在海量数据背景下,Python对超大数据规模的支持性能、数据分析处理能力和建模的专业程度以及开发便捷性的综合能力要远远高于其他工具。因此,Python几乎是数据化运营工作的不二之选。

纵观整个国内市场,有关Python的书籍不少,但普遍的思路都是基于工具层面的介绍,而且侧重于工具本身的方法、参数、调用、实例,与真正实践的结合较少;有关数据化运营的书籍,目前市场上还为数不多,现有的数据化运营也大多是基于的Excel等工具的入门级别的分析。本书结合了Python和数据化运营两个方面,在结合了数据分析工作流程和数据化运营主题的基础上,通过指标、模型、方法、案例配合工具的形式,详细介绍了如何使用Python来支持数据化运营,尤其是传统工具无法满足的应用场景。

我希望能尽自己的微薄之力,将过往所学、所感、所知提炼出来供更多人了解。如果读者能感悟一二,我将倍感欣慰;如果读者能将其用于工作实践,这将是本书以及数据工作之福!

读者对象

本书定位于提供有关数据与运营的结合知识的介绍和应用,虽然基础工具是Python,但本书并没有就Python基础规则和语法做详细介绍,因此希望读者具有一定的Python基础。相信我,只要你认真看Python教学视频(网络上很多),只需大概2个小时就能具备这种基础。

本书对读者的知识背景没有特定要求,书中的内容都尽量言简意赅、深入浅出。本书适合以下几类读者阅读:

  • 企业运营人员。本书的核心命题就是运营,其中涉及到会员运营、商品运营、流量运营和内容运营四大主题,无论运营人员希望获得运营知识还是数据分析和挖掘方法,都可以从书中获益。
  • 数据分析师。毫无疑问,数据分析师是本书的核心受众群体之一,本书中介绍的数据抽取、预处理和分析挖掘经验一定能带来很多之前“不一样”的收获,每个运营主题下的小技巧、模型和案例更能激发数据灵感——原来数据工作还能这样做。
  • Python工程师。坦白讲,本书不是一本专门介绍Python语法、规则的书籍。但Python作为一种“万能”工具,在数据分析和挖掘领域具有举足轻重的地位,任何一个Python工程师如果知识领域中包含数据(或大数据),那么其价值会成倍增长。本书中Python数据处理、计算和挖掘库的应用介绍以及有关工具库的介绍、用法、注意点和小知识一定会对Python工程师的工作领域和认知产生新的启迪。
  • 数据挖掘工程师。数据分析与挖掘在实际运营中都是不分家的,本书没有冠以“挖掘”之名但并不意味着没有挖掘(或机器学习)算法,本书第4章基本都是围绕常用算法展开的知识介绍,其中各个算法类的“大坑”都是笔者多年经验的总结;在运营主题中提到的基于超参数优化的Gradient Boosting的预测,基于LogisticRegression、RandomForest、Bagging概率投票组合模型的异常检测,基于自动K值的KMeans果聚类分析,基于潜在狄利克雷分配(LDA)的内容主题挖掘,基于多项式贝叶斯的增量学习的文本分类等都是与“挖掘算法”相关的应用。算法是数据工作的核心组成,其介绍必不可少。

如何阅读本书

本书内容从逻辑上共分为两大部分,第一部分是有关数据分析类的主题,第二部分是有关数据化运营的主题。

第一部分的内容包括1/2/3/4章和附录,主要介绍了Python和数据化运营的基本知识、数据来源获取、数据预处理以及数据分析和挖掘的关键经验。其中:

  • 第2章的数据源包含了传统的结构化和非结构化数据来源及获取,包括数据文件、数据库、API、流式数据、外部公开数据等,也提到了如何读取网页、文本、图片、视频、语音等类型的数据。
  • 第3章的数据预处理总结了常用的11条结构化数据的预处理经验,并介绍了有关网页数据解析、日志解析、图像预处理和自然语言预处理的内容。
  • 第4章的数据分析和挖掘经验总结了8个数据分析、挖掘和网站分析方法的主题类,各个类别中都以关键经验为基础展开详细介绍。

第二部分的内容包括5/6/7/8/9章的内容,分别介绍了会员运营、商品运营、流量运营和内容运营四个大主题以及提升数据化运营价值度的方法。在每个数据化运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个应用案例。

  • 基本知识:有关运营主题的基本内涵、价值、用途等方面的介绍。
  • 评估指标:运营主题的评估指标,按类别拆分和归纳。
  • 应用场景:数据对于运营的价值落地在哪些场景中的总结。
  • 数据分析模型:“大型”的数据分析方法,包括统计分析、数据挖掘、网站分析甚至数学模型。
  • 数据分析小技巧:“小型”的数据分析的方法,看起来相对简单但非常有效。
  • 数据分析大实话:有关运营或数据分析的潜在规律的解释及介绍。
  • 应用案例:每个运营主题都包含2个应用案例,基本上每个案例的应用算法和技巧都不相同,目的是呈现不同算法在不同场景下的差异化应用。

除了以上内容外,以下信息是在本书中涉及特定内容的解释和说明:

渐进式的内容:本书的Python代码和实现部分,在不同章节可能会看到具有不同代码风格的写法,包括定义规则、注释、功能实现等,这是因为笔者试图遵循循序渐进的原则,先介绍功能实现,然后再介绍其他的备选方案以及规范、原则等来辅助于Python实现。这种做法一方面是尽量多的展示解决同一类问题的不同方法,让读者能根据自身实际情况选择最“合适”的用法示例;另一方面,可能有很多读者不具备较强的Python基础知识,因此笔者不希望一上来就让这些读者感觉到要用Python工作会受到各种“条条框框”的限制,这样会大大打击使用Python的信心,毕竟,能实现功能需求是第一要素。

内容延伸:本书第1/2/3/4章都有内容延伸章节,其内容是有关非结构化主题的读取、分析、处理,由于每个主题如果展开来写都能写一本书,因此仅在内容延伸中抛砖引玉,有兴趣的读者可以加以了解和学习。

相关知识点:本书很多章节中都有“相关知识点”内容介绍,其内容是关于特定工具、知识、算法、库等方面的较为详细的介绍,他们充当了本书的知识堡垒。

本章小结:每章的结尾都有“本章小结”,在小结中包含4部分内容:

  • 内容小结:内容小结是有关本章内容的总结
  • 重点知识:重点知识是本章重点需要读者掌握的知识和内容
  • 外部参考:外部参考是本章提到的对应内容但是无法详细介绍的内容,都在外部参考中列出,有兴趣的读者可以基于外部参考构建自己的知识图谱。
  • 应用实践:基于本章内容推荐读者在实践中落地的建议。

提示:对于知识点的重要提示和应用技巧,相对“相关知识点”而言,每条提示信息内容量较少,一般都是经验类的总结。

注意:特定知识需要引起注意的方面,这些注意点是应用过程中需要避免的“大坑”。

特定名词的混用:本书中提到了库和包、模型和算法等词虽然有含义差异,但本书并没有划清他们的界限,因此在很多时候他们都是等价的。

关于附件的使用方法:除了第9章外,本书的每一章都有对应源数据和完整代码,该内容可在本书附件中找到,附件可以在华章网站http://www.hzbook.com或者笔者网站-数据常青藤http://www.dataivy.cn/book/python_book.zip下载。需要注意的是,为了更好的让读者了解每行代码的含义,笔者在注释信息中都使用了中文标注,每个程序文件的编码格式都是UTF-8。

勘误和支持

由于本书的作者水平有限并受限于有限的撰稿时间,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。读者可通过以下途径联系并反馈建议或意见:

  • 即时通讯:添加个人QQ(517699029)或微信(TonySong2013)反馈问题
  • 直接扫描二维码添加个人微信

erweima

  • 网站讨论区:在笔者网站-数据常青藤的书籍讨论区http://www.dataivy.cn/python-data-analysis-and-data-operations/留言
  • 电子邮件:发送email到517699029@qq.com

致谢

在本书的撰写过程中,得到了来自多方的指导、帮助和支持。

首先要感谢彭亮先生和史研先生。彭亮先生使我感受到什么是高度和专注,并促使我的数据工作真正意义上步入正途。史研先生对于大数据的广博认知和敏锐洞察力,让我有更多机会深入到不同的数据分支去探索未曾了解的领域。

其次要感谢的是机械工业出版社华章公司的总编辑杨福川老师,杨老师在我出版了两本书之后鼓励我继续撰写此书,并为此书的撰写提供了方向和思路指导。另外,感谢全程参与审核、校验等工作的孙海亮老师以及其他背后默默支持的出版工作者,是他们的辛勤付出才保证本书的顺利面世。

再次要感谢在各个数据项目和工作中提供支持的领导、朋友、伙伴,尤其是田学锋,他是我的良师益友,他有非比寻常的视野、胸怀和独到见解,给与我非常多的指导和启迪;其他还有很多一起工作的小伙伴(排名不分先后):庞程程、徐子东、赵光娟、王成、吕兆星、郑传峰、杨晓鹏、陈骏、江涛、曹佳佳、麻建昕、史晓春、杨勇等。

最后感谢我的父母、家人和朋友,尤其是我的夫人姜丽女士,是她在我写书的这段期间里把家里的一切料理的井井有条,使得我有精力完成此书的全部撰写工作。

谨以此书献给热爱数据工作并为之奋斗的朋友们,愿大家身体健康、生活美满、事业有成!

 

 

宋天龙(Tony Song)

2017年7月于中国北京


====================【好书推荐,我为自己代言】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>