1.3.内容延伸:Python的OCR和Tenserflow

说明:本文是《Python数据分析与数据化运营》中的“1.3.内容延伸:Python的OCR和Tenserflow”。

1. OCR工具:Tesseract-ocr

OCR(Optical Character Recognition,光学字符识别)是一个非常“古老”的话题,原因是这项工作在上世纪90年代就已经普遍流行。但在大数据的背景下,我们要做的不是识别普通的光学字符(光学扫描文字),而是把范围扩大到识别更多领域的文字信息,例如手写识别、工业铭牌文字识别等非标准化、非印刷体、非传统资料录入的文字信息识别。

tesseract-ocr是一个Google支持的开源OCR图文识别项目,支持超过200种语言(包括中文),并支持自定义训练字符集,支持跨Windows、Linux、Mac OSX 多平台使用。

不同的平台安装tesseract-ocr和配置差异较大,下面以Windows为例说明其安装过程。

第一步 进入sourceforge.net/project下载名为“tesseract-ocr-setup-3.02.02.exe”的安装包。

第二步 安装下载的tesseract-ocr-setup-3.02.02.exe

安装成功之后,在系统终端命令行窗口输入 tesseract,可直接调用ocr命令。

C:\Users\Administrator>tesseract
Usage:tesseract imagename outputbase [-l
lang] [-psm pagesegmode] [configfile...
]

pagesegmode values are:
0 = Orientation and script detection (OSD)
only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no
OSD, or OCR
3 = Fully automatic page segmentation, but
no OSD. (Default)
4 = Assume a single column of text of
variable sizes.
5 = Assume a single uniform block of
vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a
circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur
before anyconfigfile.

Single options:
-v
--version: version info
--list-langs: list available languages for tesseract engine

有关tesseract-ocr的更多信息,具体查阅github.com/tesseract-oc

2. 机器学习框架:TensorFlow

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,它使用图模型将复杂的数据结构传输至人工智能神经网中进行分析和处理的框架。它可以被广泛于语音识别或图像识别等多项机器深度学习领域。

在TensorFlow出现之前,我们之前介绍的scikit-learn几乎是Python机器学习最流行的工具(或者至少是最流行的工具之一),借助谷歌的强大号召力以及在人工智能领域的技术实力,TensorFlow正在慢慢凸显优势,逐步成为Python领域最具有发展潜力的机器学习框架。

TensorFlow支持跨平台的应用,最新版本已经支持Windows。但遗憾的是Tensorflow只支持X64架构的Windows,这种架构更多的集中在服务器上应用,而个人电脑通常是X86架构(包括32位和64位),所以在个人Windows电脑上通常是无法直接安装和使用TensorFlow(可以在虚拟机上安装学习)。(作者注:到1.4.0开始的版本,已经支持X86架构的个人PC,但只是PY3.*版本以上。)

有关TensorFlow的更多信息,具体查阅tensorflow.org


====================【好书推荐,我为自己代言】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>