1.5 本章小结

说明:本篇是《Python数据分析与数据化运营》第一章的小结内容。

内容小结:本章分别从Python和数据化运营的关系,数据化运营所需要的Python相关工具组件入手,介绍了有关Python和数据化运营的理念、关系、流程和工具,并通过一个小案例演示了如何通过Python进行销售预测。

重点知识:有关Python的相关工具部分,这些内容是本书后续所有工作的基础,希望读者能在本机上进行安装、测试和学习。

外部参考:限于篇幅,本章没有对Python和相关工具的基础知识进行讲解,只是对涉及了案例中的部分内容。因此,很多知识需要读者书外“补习”,除了Python基础知识和科学计算以外,还有数据库、Tesseract、TensorFlow等工具,他们将构成数据基础工作和数据延伸工作的基石。作为本章内容的延展,笔者列出了相关资源,希望给与读者必要参考。

Python参考资源

以下列出了主要的官方参考资源和信息:

  • Python官方网站:https://www.python.org/。Python最权威的网站,有关Python的帮助手册、新闻、事件、应用、案例、社区等,并提供官方Python所有版本和环境的安装程序和安装包。
  • Python pypi第三方库:https://pypi.python.org/pypi。Python使用pip命令安装时,请求的资源就来源于该网站,这里汇聚了第三方Python程序的软件仓库,截止目前有101866个软件包。你可以在这里直接查看、下载和评论第三方库。
  • Stack Overflow:http://stackoverflow.com/。Stack Overflow是一个与程序相关的IT技术问答网站,用户可以在网站上免费提交、浏览和检索问题。大多数情况下,你的问题都不是第一次出现,所以有问题了不妨先在这里找找答案。
  • Python内部帮助文档和信息:在IPython命令行窗口使用help()和dir()命令。例如:通过dir(numpy.mean)查找numpy库下面的mean函数的大部分属性,通过help(numpy.mean)获得该函数的具体介绍、参数解释、应用举例等详细信息。这是针对特定知识点最为主要的学习参考资源。

Python学习书籍

大多数情况下,通过上述方法可以了解到Python基本知识,但以下图书资源会帮助你更加深入的了解Python及其相关库的工作方式和逻辑,尤其是对于数据挖掘、机器学习等领域的认知:

  • 《利用Python进行数据分析 [Python for Data Analysis]》,Python用于数据分析的专业数据,介绍了Python用来数据分析的几个主要科学计算和展示库Nunpy、Pandas、Matplotlib等,书中对这些库的讲解略粗,但全书的逻辑体系完整,适合数据分析和挖掘工作者作为入门阅读。
  • 《Python数据分析与挖掘实战》,从数据工作流的方式展开介绍的Python数据应用,书籍的逻辑结构较为完整,后面也有部分案例的介绍,适合对Python有一定了解的数据工作者阅读。
  • 《机器学习实战 [Machine learning in action]》,这是使用Python进行机器学习的专业书籍,需要读者具有相当的算法、程序和模型专业知识,适合中高级数据挖掘和建模工程师阅读。
  • 《集体智慧编程》,这是使用Python进行机器学习的专业书籍,与传统机器学习书籍不同的是,本书没有按照算法分类进行分别阐述,更是从应用的角度分场景介绍,本书需要读者了解工程、算法和模型知识,适合中高级数据挖掘、建模工程师、程序员阅读。
  • 《Python基础教程(第2版 修订版)》这是一本纯Python编程语言的介绍书籍,其中主要围绕每个方法、条件、函数、对象、属性等进行介绍,适合程序员以及想深入了解python工作原理和逻辑的读者查阅。

MySQL相关

数据分析师或挖掘工程师对数据库的应用语言主要集中在DDL(本机操作)和DML(本机和服务器操作)上,而DCL和TCL涉及相对较少。因此建议读者重点了解前两种语言的相关知识。

  • MySQL官方资源:https://dev.mysql.com/doc/。所有有关MySQL的官方信息和知识,都在这里可以找到。
  • MySQL第三方教程:http://www.runoob.com/mysql/mysql-tutorial.html。言简意赅的介绍MySQL的基本用法,并且是全中文的按照用法主题分类,适合当知识查找工具。
  • 书籍《深入浅出MySQL》(第2版),比较完整的阐述了MySQL的开发、设计、运维、管理等方面的内容,内容全面,并且有适合初学者的章节。

Tesseract-OCR相关

有关tesseract的资源不多,目前主要是官方信息。

  • Tesseract wiki:https://github.com/tesseract-ocr/tesseract/wiki。页面右侧按照不同的主题页面展示,可直接点击对应标题查看。
  • Tesseract介绍:https://github.com/tesseract-ocr/docs。各种会议和演示的PPT材料和介绍信息。
  • Tesseract训练数据集:https://github.com/tesseract-ocr/tessdata。注意页面中是Tesseract 4版本用的数据集,其他版本的查看页面底部信息入口。
  • Tesseract语言文件:https://github.com/tesseract-ocr/langdata。按照语言类别归类到文件,用来为特定的语言做重新训练时的主要过程数据和文件。

TensorFlow相关

TensorFlow作为2015年底“刚”开源的机器学习框架,其学习资源不多,原因是开源之后即使有大型公司或团队使用,也需要经过一定时间技术实践和应用。

  • Tensorflow官方网站:http://www.tensorflow.org/。要打开这个网站需要一定的工具或技巧。
  • Tensorflow中文社区:http://www.tensorfly.cn/。相当于汉化版的官方网站。
  • 书籍《TensorFlow实战》:国内为数不多的Tensorflow实战书籍。
  • 极客学院的Tensorflow官方文档中文版:http://wiki.jikexueyuan.com/project/tensorflow-zh/。在Tensorflow刚开源1个多月,极客学院就组织了很多人进行翻译。

应用实践:读者可以自己手写一个Python工作(比如预测)案例,也许这个过程中会出现很多意想不到的问题,但别担心,总有很多途径可以解决这些问题,并且解决问题的过程正是学习的过程,通过简单的练习可以掌握Python工作的基本原理和方法。


====================【好书推荐,我为自己代言】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>