1.2 数据化运营所需的Python相关工具和组件

说明:本文是《Python数据分析与数据化运营》中的“1.2 数据化运营所需的Python相关工具和组件”。

本书将以Python为主要数据工作工具,本节将重点介绍Python相关工具,包括Python程序、IDE、Python第三方库、数据库和客户端、SSH远程客户端、OCR工具和机器学习框架等。

1.2.1 Python程序

关于Python2还是Python3的争议

目前,Python仍然是两个系列的版本并存,一个是Python 2(最新版本是2.7.13),另一个是Python3(最新版本是3.7.1)。这两个版本的语法不完全兼容,因此两个版本的程序调用对方的执行脚本将很可能报错。

从现在来看,Python2和Python3都已经非常成熟,因此大多数支持Python2并且仍然开发和维护的库也开始支持Python3。

从长远来看,Python2终究是要被抛弃的,所以“迟早”是要升级到Python3去应用的。

但是,Python2如此成熟并且被广泛应用,即使被抛弃也不是短时间内的事情;同时,为了解决Python迁移的问题,官方提供了Python2到Python3的编码转化工具,具体查阅 docs.python.org/3/libra;另外,熟悉Python2的工作者再对Python3进行了解会非常容易,毕竟二者只是在编码、语法、字符串和字节串、数据类型等方面做了一些变动,而不是全新的语法和程序规范的变更,这些内容只占到整个程序规范和知识的很少一部分。有关Python3的新功能介绍,具体查阅docs.python.org/3/whats

因此,如何选择Python版本不应该是一个过多纠结的问题,因为不论选择哪个版本对现在和未来工作的影响都微乎其微。但结合特定场景,笔者还是给出具体建议:

  • 如果想要成熟、可靠且稳定的程序,选择Python2。
  • 如果只是学习或了解一下Python,Python2和Python3都可以。
  • 如果是企业内部应用,具体看企业用的是哪个版本。
  • 如果你的工作中需要大量的第三方库,那么使用Python2会让你会更多选择。
  • 如果你的程序需要在Linux服务器上跑,那么去看看你的Linux服务器自带的Python版本(通常Linux服务器上自带Python2的居多)。
  • 如果上述没有任何一个场景满足你的需求,那么就从Python2开始吧。由于历史原因,Python2有更多的应用案例、专业书籍和知识讨论分享社区。

关于32位还是64位的问题

相对于Python2还是Python3的差异,选择32位还是64位的版本倒是影响更大一些,因为这个涉及到了与系统平台和第三方应用的兼容和集成。大多数情况下,建议选择32位的Python版本,原因是很多软件以及Python的第三方库,默认都是32位版本(尤其是一些比较早期的库)。

当确定了Python的具体版本之后,就可以到Python官网下载对应平台和版本的程序了python.org/downloads/

本书的案例基于32位Python实现的,版本是Python 2.7.12。

1.2.2 Python IDE

Python自带有IDE,可以满足一定的数据开发和测试需求;同时,在交互型的开发和学习上,也有IPython可供选择。但这里建议大家选择另外一个Python IDE工具—PyCharm。

PyCharm带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制并可集成IPython、系统终端命令行等,在PyCharm里几乎就可以实现所有有关Python工作的全部过程。如图1-2是PyCharm工具界面截图。

1-2

图1-2 PyCharm工具界面截图

有关PyCharm的更多信息,具体查阅jetbrains.com/pycharm/d查阅,并下载对应操作系统的版本。对于版本的选择,出于学习的目的,选择免费的社区版本即可。本书中用到的PyCharm版本是2016.3.2社区版。

1.2.3 Python第三方库

Python第三方库包括交互开发库、科学计算库、机器学习库、自然语言库、数据库连接库、图像处理库、网络爬虫库、图像展示库等,本节介绍的第三方库都是书中用到的,其他未用到的库暂时不做介绍,会在附录里面提供完整列表。

对于Python第三方库的安装,除了使用setup命令外,大多数都可以通过pip和easy_install命令安装的。这里推荐使用pip进行本地或在线安装,该命令会在安装2.7.*(准确讲是Python 2 >=2.7.9或者Python 3 >=3.4)版本时默认安装。

使用setup命令从源码安装

每个第三方库都有一个源码文件压缩包,格式为.tar.gz或.zip,例如pandas-0.19.2.tar.gz、numpy-1.12.1.zip,将压缩包从pypi(或其他官方资源)中下载到要安装的服务器或本机并解压(这些步骤都非常简单),然后在系统终端的命令行窗口执行setup命令即可。以“pandas-0.19.2.tar.gz”文件为例说明整个过程:

下载源码压缩包文件

不同的系统下载方法不同,最简单的方法是直接打开pypi.python.org/pypi/pa并下载名为“pandas-0.19.2.tar.gz”文件到本地,然后使用客户端工具拷贝到服务器。

解压文件

打开系统终端的命令行窗口,进入该文件的下载路径(或拷贝路径)并解压,执行如下命令:

cd [压缩包文件路径]
tar -zxvf pandas-0.19.2.tar.gz [解压后的路径]

上述命令执行后,会在制定的[解压后的路径]中解压当前压缩包的内容。

执行setup命令

在系统终端的命令行窗口中,进入解压后的包含了setup.py的路径(通常是[解压后的路径]/pandas-0.19.2),执行如下命令:

cd [解压后的包含了setup.py的路径]
python setup.py install

上述代码会默认执行完成命令,如果环境配置正确会有成功安装提示。

注意 离线安装第三方库/包时,不同的库/包可能存在依赖关系,如果在安装之前没有安装和配置好相应的包,那么可能报错。例如安装statsmodels 0.8时,依赖Python >= 2.6、NumPy >= 1.6、SciPy >= 0.11、Pandas >= 0.12、Patsy >= 0.2.1等。因此,大多数情况下,不建议手动离线安装。

使用pip命令从whl文件安装

使用pip安装Python第三方库更加简单,只需先将符合要安装库的系统环境的whl文件下载到服务器或本地,然后在系统终端的命令行窗口输入:pip
install [PackageName.whl] 。仍然以上述pandas安装为例说明整个过程:

下载whl文件

不同的系统所需要的whl文件不同,根据实际系统版本和Python程序版本而定。以笔者的Windows环境下32位的Python2版本为例,笔者在pypi.python.org/pypi/pa并下载名为“pandas-0.19.2-cp27-cp27m-win32.whl”文件到本地。

安装whl文件

在系统终端的命令行窗口中,进入下载路径(笔者路径为桌面),执行如下命令:

cd C:\Users\Administrator\Desktop
pip install pandas-0.19.2-cp27-cp27m-win32.whl

命令执行完成之后,也会提示安装成功。

注意 使用pip命令安装包时,需要在系统终端的命令行窗口而非Python或IPython工作界面中执行。进入Windows终端的命令行窗口的方法是:组合件Win+R,在弹出的窗口中输入cmd,点击确定。

使用pip进行在线安装

大多数清下,都建议采用pip在线的安装方式,通过pip在线安装可以解决不同包之间的依赖关系(自动下载依赖包)。

在线安装的方法非常简单,只需在系统终端打开命令行窗口,然后输入如下命令:

pip install [PackageName]

以上述pandas安装为例,在联网的前提下,只需直接在系统终端命令行输入:pip install pandas即可完成安装。

pip本身是一个非常强大的第三方包/库管理工具,包括下载、安装、升级、卸载、搜索、查看过期和版本等功能。有关pip的更多信息,具体查阅pip.pypa.io/en/stable/

考虑到“1.2数据化运营所需的Python相关工具和组件”的URL比较多,笔者会在附件的lib文件夹中将所有URL整理为一个名为“lib_url.txt”的文件;同时,本书所用到的Windows下32位Python2的第三方安装库(whl文件),也会在该文件夹下,读者有需要可以使用pip命令安装。

1. 交互开发库

IPython

IPython 是一个基于Python 的交互式shell,比默认的Python shell 好用得多,支持变量自动补全、自动缩进、交互式帮助、魔法命令、系统命令等,内置了许多很有用的功能和函数。在“Python第三方库”中,若无特殊说明,默认使用IPython作为交互和测试工具。

IPython的安装可直接在系统终端的命令行窗口使用pip install ipython完成。安装成功之后,进入系统终端命令行窗口,输入ipython,回车后进入交互开发界面,如图1-3:

1-3

图1-3 IPython交互开发界面

本书中用到的IPython版本是5.3.0。有关IPython的安装和更多信息,具体查阅ipython.org/

2. 科学计算库

Numpy

NumPy(Numeric Python的简称)是Python科学计算的基础工具包,它提供的功能包括:

  • 快速高效的多维数组ndarray,大多数Python的多维数据组都是基于Numpy进行处理。
  • 基于数组整体或元素级别进行科学计算的能力,需要迭代循环。
  • 比较成熟的(广播)函数库。
  • 提供用于整合C、C++和Fortran代码到Python的工具包。
  • 实用的线性代数、傅里叶变换和随机数生成函数。
  • NumPy和稀疏矩阵运算包Scipy配合使用更加方便。
  • 多种库和算法间进行数据交互的“数据容器”,由低级语言(例如C)编写的库可直接读取Numpy的数据而不必经过转换。

默认情况下,我们可以使用pip install
numpy命令进行安装,但考虑到我们即将要使用的scipy 0.19.0中需要依赖于numpy+
mkl,因此我们选择一次性将这两个包一起安装,方法如下:

第一步 从lfd.uci.edu/~gohlke/pyt中下载numpy‑1.11.3+mkl‑cp27‑cp27m‑win32.whl。

第二步 打开命令行窗口,使用cd [路径]命令进入上述whl文件的下载路径。笔者的下载路径为Windows桌面,路径为C:\Users\Administrator\Desktop。

C:\Users\Administrator>cd
C:\Users\Administrator\Desktop

第三步 使用pip install [本地PackageName].whl命令安装本地下载的包。

C:\Users\Administrator\Desktop>pip
install numpy-1.11.3+mkl-cp27-cp27m-win32.whl

安装成功之后,在IPython中输入import
numpy时,不出现报错则说明该库已经成功安装并导入。本书中用到的Numpy版本是1.11.3。

相关知识点:查看库的版本信息

查看Numpy(以及其他库)的版本常用的有两种方式:

一种是在Python或IPython中导入库后通过__version__属性查看:

In [1]: import numpy
In [2]: print (numpy.__version__)
1.12.1

一种是在命令行窗口(非Python或IPython工作窗口)输入pip list,系统会返回所有安装的第三方库以及版本列表信息,从中找到numpy即可:

C:\Users\Administrator>pip list
DEPRECATION: The default format will switch
to columns in the future. You can us
e --format=(legacy|columns) (or define a
format=(legacy|columns) in your pip.con
f under the [list] section) to disable this
warning.
appdirs (1.4.3)
asn1crypto (0.22.0)
backports.shutil-get-terminal-size (1.0.0)
beautifulsoup4 (4.5.3)
cffi (1.9.1)
matplotlib (1.5.3)
mysql-connector-python (2.1.5)
nose (1.3.7)
numpy (1.11.3)
pandas (0.19.2)

有关Numpy的安装和更多信息,请查阅numpy.org/

Scipy

Scipy(Scientific Computing Tools for Python的简称)是一组专门解决科学和工程计算不同场景的主题工具包,主要功能包括:

  • 数值积分和微分方程求解器。
  • 扩展了有numpy.linal的线性代数历程和矩阵分解功能。
  • 函数优化其(最小化器)以及跟查找方法。
  • 信号处理工具。
  • 系数矩阵和系数线性系统求解器。

在其他环境下,安装Scipy时直接使用pip
install scipy即可;但在Windows 32位Python环境下该命令会报错,原因是在pypi.python.org库(也就是pip引用的服务器资源库)中找不到32位下的Python2对应的Scipy安装包。除了可以源码安装外,还可通过如下方法进行安装。

第一步 从lfd.uci.edu/~gohlke/pyt中下载scipy‑0.19.0‑cp27‑cp27m‑win32.whl

第二步 打开命令行窗口,使用cd [路径]命令进入上述whl文件的下载路径。笔者的下载路径为Windows桌面,路径为C:\Users\Administrator\Desktop。

C:\Users\Administrator>cd
C:\Users\Administrator\Desktop

第三步 使用pip install [本地PackageName].whl命令安装本地下载的包。

C:\Users\Administrator\Desktop>pip
install scipy-0.19.0-cp27-cp27m-win32.whl

安装成功之后,在IPython中输入import
scipy时,不出现报错则说明该库已经成功安装并导入。

本书中用到的Scipy版本是0.19.0。有关Scipy的安装和更多信息,请查阅scipy.org/install.html

Pandas

Pandas(Python Data Analysis Library的简称)是一个用于Python数据分析的库,它的主要作用是进行数据分析。Pandas提供用于进行结构化数据分析的二维的表格型数据结构DataFrame,类似于R中的数据框,能提供类似于数据库中的切片、切块、聚合、选择子集等精细化操作,为数据分析提供了便捷。另外,Pandas还提供了时间序列的功能,用于金融行业的数据分析。

Pandas的安装直接使用pip install pandas命令即可。安装成功之后,在IPython中输入import pandas时,不出现报错则说明该库已经成功安装并导入。

本书中用到的Pandas版本是0.19.2。有关Pandas的安装和更多信息,具体查阅pandas.pydata.org/

Statsmodels

Statsmodels是Python的统计建模和计量经济学工具包,包括一些描述性统计、统计模型估计和统计测试,集成了多种线性回归模型、广义线性回归模型、离散数据分布模型、时间序列分析模型、非参数估计、生存分析、主成分分析、核密度估计以及广泛的统计测试和绘图等功能。

Statsmodels的安装则直接使用pip install statsmodels即可。安装成功之后,在IPython中输入import statsmodels时,不出现报错则说明该库已经成功安装并导入。

本书中用到的Statsmodels版本是0.8.0。有关Statsmodels的安装和更多信息,具体查阅statsmodels.sourceforge.net

3. 机器学习库

scikit-learn

scikit-learn(有时也称为SKlearn)是一个基于Python的机器学习综合库,内置监督式学习和非监督式学习两类机器学习方法,包括各种回归、K近邻、贝叶斯、决策树、混合高斯模型、聚类、分类、流式学习、人工神经网络、集成方法等主流算法,同时支持预置数据集、数据预处理、模型选择和评估等方法,是一个非常完整的机器学习工具库。scikit-learn是Python数据挖掘和机器学习的主要库之一。

提示 scikit-learn缺少了某些常用算法,例如关联规则算法、时间序列算法等。不过结合Pandas和Statsmodels可以实现时间序列算法;关联规则相对简单,pipy上也有很多开源库,当然如果你动手能力强,使用Python自行编写难度也不大。在后续的模型和案例中,我们会重点介绍。

scikit-learn的安装则直接使用pip install sklearn即可(注意库名称为sklearn)。安装成功之后,在IPython中输入import sklearn时,不出现报错则说明该库已经成功安装并导入。

本书中用到的scikit-learn版本是0.18.1。有关scikit-learn的安装和更多信息,具体查阅scikit-learn.org/stable

注意 在安装scikit-learn之前一定要确保Numpy(含mkl)、Scipy、Matplotlib按顺序安装,这样才能保证不同库的依赖关系正确建立,否则可能会导致scikit-learn安装或导入报错。

4. 自然语言处理库

结巴分词

由于NLTK本身不支持中文分词,因此在针对中文的处理过程中,我们会引入其他分词工具,例如结巴分词。结巴分词是国内的Python文本处理工具包,分词模式分为三种模式:精确模式、全模式和搜索引擎模式,支持繁体分词、自定义词典等,是非常好的Python中文分词解决方案,可以实现分词、词典管理、关键字抽取、词性标注等。

结巴分词的安装直接使用pip install
jieba命令即可。安装成功之后,在IPython中输入import jieba时,不出现报错则说明该库已经成功安装并导入。

本书用到的结巴分词的版本是0.38。有关结巴分词的安装和更多信息,具体查阅github.com/fxsjy/jieba/

Gensim

Gensim是一个专业的主题模型(主题模型发掘文字中隐含主题的一种统计建模方法)Python工具包,用来提供可扩展统计语义、分析纯文本语义结构以及检索语义上类似的文档。

Gensim的安装直接使用pip install gensim命令即可。安装成功之后,在IPython中输入import gensim时,不出现报错则说明该库已经成功安装并导入。

本书中用到的Gensim版本是1.0.1。具体查阅radimrehurek.com/gensim

5. 数据库连接库

数据库存储是企业数据存储的基本方式,数据库类型包括MySQL、Oracle、SQL Server、DB2、Sybase等,基于大数据场景下还会包括Hive、Hbase、MongoDB、Redis等的数据存储。

MySQL连接库

为了方便本书读者练习和应用,本书使用MySQL数据库进行数据存储、查询等操作。要使Python连接MySql,既可以通过MySQL官方连接程序,也可以使用第三方库来实现。

使用MySQL官方程序

dev.mysql.com/downloads直接下载对应版本Python的程序,笔者下载的是mysql-connector-python-2.1.5-py2.7-win32.msi。然后直接安装即可,中间没有任何配置。安装成功之后,在IPython中输入import mysql.connector时,不出现报错则说明该库已经成功安装并导入。

注意 在选择32位还是64位时,需要注意的是这里指的是Python的版本,而不是操作系统版本。例如笔者的电脑为64位Windows,但安装的是32位的Python,因此,选择的是mysql-connector-python-2.1.5-py2.7-win32.msi

使用第三方库MySQL-python

登录pypi.python.org/pypi/My下载对应版本的安装包即可。目前该库已经很长时间没有更新,并且只支持32位的Python2。安装成功之后,在IPython中输入import MySQLdb(注意大小写)时,不出现报错则说明该库已经成功安装并导入。

两种连接方式选择任意一个都没有使用问题,但考虑到官方连接程序支持的平台和版本更多,因此,这里推荐使用官方连接。

MongoDB连接库

由于不同企业的大数据平台的数据存储不同,并且即使是同一种存储方案,也会由于系统环境和存储组件的版本不同导致适配和连接的差异,本节仅以MongoDB连接包为例进行说明。

MongoDB是由C++语言编写的分布式文件存储的数据库,它是以Key-Value(键值对)形式面向文档存储的非关系型数据库。

Python连接MongoDB可以使用PyMongo(MongoDB官方驱动程序),通过pip install pymongo进行安装,安装成功之后,在IPython中输入import pymongo时,不出现报错则说明该库已经成功安装并导入。

本书中用到的PyMongo版本是3.4.0。有关PyMongo的安装和更多信息,具体查阅api.mongodb.com/python/

6. HTML处理库

网络是企业重要的外部数据来源,因此获取和处理HTML的信息是Python数据接入和处理的重要能力。

Beautiful Soup

Beautiful Soup是网页数据解析和格式化处理工具,它严格意义上来讲不是一个纯抓取类的工具,因为它不具备抓取能力,通常配合Python的urllib、urllib2等库一起使用。

Beautiful Soup的安装直接使用pip install
beautifulsoup4(注意后面有个4)命令即可。安装成功之后,在IPython中输入import bs4(注意导入的库名跟安装的库名不一致)时,不出现报错则说明该库已经成功安装并导入。

本书中用到的Beautiful
Soup版本是4.5.3。有关Beautiful
Soup的安装和更多信息,具体查阅crummy.com/software/Bea

7. 图形展示库

图形展示是数据可视化的必要内容,在Python中,通常使用Matplotlib实现图形展示。

Matplotlib

Matplotlib是Python的2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形,开发者可以仅需要几行代码,便可以生成绘图、直方图、功率谱、条形图、错误图、散点图等。

Matplotlib的安装直接使用pip install matplotlib命令即可。安装成功之后,在IPython中输入import matplotlib时,不出现报错则说明该库已经成功安装并导入。

本书中用到的Matplotlib版本是4.5.3。具体查阅matplotlib.org/

8. 图像处理库

图像处理提供针对视频和图像数据的输入、分析、处理和挖掘的功能,Python最常用的图像和视频处理库是PIL和OpenCV。

PIL

PIL(Python Imaging Library的简称)是一个常用的图像输入、处理和分析的库,提供了多种数据处理、变换的操作方法和属性。

PIL的安装直接使用pip install PIL(注意大小写)命令即可。安装成功之后,在IPython中输入import PIL(注意大小写)时,不出现报错则说明该库已经成功安装并导入。

本书中用到的PIL版本是1.1.7。PIL的安装依赖于Python(= 2.7.*),不支持Python3,有关PIL的安装和更多信息,具体查阅pythonware.com/products

OpenCV

OpenCV是一个强大的图像和视频工作库。它提供了Python、C、C++、和Java接口,支持Windows、Linux、Mac OS、IOS和Android。OpenCV的设计效率很高,它以优化的C / C ++编写,库可以利用多核处理。除了对图像进行基本处理外,还支持图像数据建模,并预制了多种图像识别引擎。

OpenCV的安装无法直接使用pip命令实现,需要手动下载OpenCV源文件,然后将特定文件复制到Python第三方库目录下。下面以Windows为例介绍具体过程。

第一步 进入opencv.org/opencv-3-2.h,点击“Windows self-extracting archive: sourceforge”,会打开一个新的页面并自动下载一个名为“opencv-3.2.0-vc14.exe”的文件。

第二步 下载完成后,双击该文件,按照提示将OpenCV的源码解压到任意目录。

1-4

图1-4解压OpenCV代码到任意目录

第三步 找到解压文件中路径为* \opencv\build\python\2.7\x86中的“cv2.pyd”文件,然后复制到Python的第三方库路径,路径地址为*\Python27\Lib\site-packages。

上述操作完成后,在IPython中输入import
cv2(注意库名)时,不出现报错则说明该库已经成功安装并导入。

本书中用到的OpenCV版本是3.2.0。有关OpenCV的安装和更多信息,请查阅opencv.org

9. 其他库

本书中根据实际案例,还会安装不同的第三方库/包,具体会在场景中说明,在此不一一列出。

1.2.4 数据库和客户端

在本书中,大多数案例数据都会直接从数据库中读取,这是因为实际应用中的运营数据基本也是在数据库中直接获取并进行初步的数据探查工作,因此数据库是开展数据工作的基础工具。为了提高数据库的操作和使用效率,并能使更多读者开始入门数据库应用,我们会使用客户端工具,通过界面化的方式降低数据库的应用难度。数据库我们选择MySQL,客户端使用Navicat。

关于MySQL和Navicat软件的下载,网络资源非常丰富,请读者自行寻找并下载安装,笔者的MySQL版本为32位版本5.0.51b。以下是有关MySQL配置过程中的关键过程:

设置模式

1-5

图1-5设置MySQL模式

选择Detailed
Configuration,目的是自己配置所有信息。

服务器实例配置

1-6

图1-6配置服务器实例

如果本地电脑是多用途的,那么建议选择Server Machine,兼顾效率和其他应用;如果要保证其他大型应用对资源的占用,那么选择Developer Machine;如果要优先保障数据库资源,那么选择Dedicated MySQL Server Machine。

设置字符集

1-7

图1-7设置字符集

这里选择手动设置,数据库字符集为gb2312,目的是兼容中文字符集并不至于使字库容量过大。

数据库安装并配置完成之后,通过Navicat客户端进行连接。方法是:点击顶部菜单“文件-新建连接-MySQL”,在弹出的对象框中如下信息:

  • 连接名:用来识别不同连接的名称。
  • 主机名/IP地址:本地使用127.0.0.1,远程服务器填写实际IP地址。
  • 端口:在配置MySQL时设置的端口,默认为3306(具体取决于配置MySQL时的设置)。
  • 用户名和密码:在配置MySQL时创建的用户名和密码。
1-8

图1-8新建数据库连接

输入完成后,点击“连接测试”,如果信息配置正确并且MySQL服务可用,那么会返回“连接成功”字样。

有关使用客户端以及Python直接操作数据库的具体应用会在后续案例中陆续介绍。

1.2.5 SSH远程客户端

对于数据工作而言,如果只是在本机上做数据分析处理和建模工作,通常只能利用有限的个人电脑性能实现有限规模的数据计算能力。当数据计算量或数据规模很大时,通常会选择在本地进行数据测试,然后到服务器上运行Python程序。此时,我们需要一个能在本机和服务器之间进行数据、信息和指令交互的SSH远程客户端工具。

对大多数数据工作者而言,本地电脑以Windows居多,而服务器以Linux系统居多,因此SSH远程客户端工具的主要作用就是连接Windows和Linux。此类工具很多,包括XShell、SecureCRT等,笔者使用的是SecureCRT。


====================【好书推荐,我为自己代言】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>