2.4 本章小结

说明:本文是《Python数据分析与数据化运营》中的“2.4 本章小结”。

-----------------------------下面是正文内容--------------------------

内容小结:本章的内容较多,主要涉及到企业数据化运营可能产生数据的方方面面,包括数据来源的类型、通过不同方式获得运营数据以及对非结构化数据的获取等方面。不同的企业由于其行业和企业背景不同,通常不会全部覆盖其中的所有数据场景,读者可根据自身情况和需求选择。另外,大多数读者所在的企业,应该以结构化的数据为主,内容延展里面的知识作为课外补充和了解即可,真正到需要用到这些知识时,再学习和查阅更多。本书所有示例中的原始代码,在“附件-chapter2”中chapter2_code.py中可以找到,同时在该文件夹下存储了所有示例用到的本地数据。

重点知识:本章需要读者重点掌握的知识点“2.2使用Python获取运营”的全部内容,这些数据都是数据工作者常用的数据来源场景,尤其是其中的从文本文件读取运营数据、从关系型数据库MySQL读取数据最为常用。

外部参考:由于数据来源的获取与数据生产、采集、存储、处理和挖掘工具息息相关,不同的系统和工具之间需要了解更多才有可能更好的利用数据。以下工具或知识是本书以及很多企业中都会用到的,希望读者做课外更多了解:

  • Google BigQuery:作为谷歌在线服务的主要武器之一,BigQuery可以作为云服务应用,也可以作为Google Analytics Premium的细粒度流量数据的获取来源。尤其是基于谷歌广泛的服务体系和应用体系,可以将所有的资源打通应用,包括数据和服务。
  • SAS:做数据挖掘的读者一般都会知道这个工具,SAS是数据挖掘和商业智能领域最为权威和流行的商用工具之一。该工具在很多大型企业内部应用,例如国家信息中心、国家统计局、卫生部、中国科学院等,其专业能力可见一斑。
  • SQL:作为关系型数据库应用的核心,常用的查询语法需要数据工作者掌握;除了在关系型数据库外,SQL也可以应用到HIVE等大数据工作处理领域,这种通用性(当然需要做适当语法的修改)使得SQL几乎在各个企业都有用武之地。
  • 正则表达式:本书在多个应用示例中都用到了正则表达式,尤其对于非结构化数据工作领域,正则表达式几乎是标配知识。

应用实践:本章的内容属于数据工作的第一步,因此希望读者能熟悉不同的数据接入和读取方法。建立每种数据来源类型各选一种进行实践,然后集中精力到读者现有工作或学习环境中来源类型集中的领域,以达到熟练掌握获取不同数据来源的方法和技巧。


====================【好书推荐,我为自己代言】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>