Python数据工具箱—数据清洗转换库

数据清洗转换主用于数据正式应用之前的预处理工作。

/函数 描述 推荐度
frozenset([iterable]) [Python内置函数]返回一个新的frozenset对象,可选择从iterable取得的元素 ★★★
int(x) [Python内置函数]返回x的整数部分 ★★★
isinstance(object, classinfo) [Python内置函数]返回object是否是指定的classinfo实例信息 ★★★
len(s) [Python内置函数]返回对象的长度或项目数量 ★★★
long(x) [Python内置函数]返回由字符串或数字x构造的长整型对象 ★★★
max(iterable[, key]) [Python内置函数]返回一个可迭代或最大的两个或多个参数中的最大项 ★★★
min(iterable[, key]) [Python内置函数]返回一个可迭代或最大的两个或多个参数中的最小项 ★★★
range(start, stop[, step]) [Python内置函数]用于与for循环一起创建循环列表,通过指定start(开始)、stop(结束)和step(步长)控制迭代次数并获取循环值 ★★★
raw_input(prompt) [Python内置函数]捕获用户输入并作为字符串返回(不推荐使用input作为用户输入的捕获函数) ★★★
round(number[, ndigits]) [Python内置函数]返回number小数点后ndigits位的四舍五入的浮点数 ★★★
set([iterable]) [Python内置函数]返回一个新的集合对象,可选择从iterable获取的元素 ★★★
slice(start, stop[, step]) [Python内置函数]返回表示由范围(start、stop、step)指定的索引集的切片对象 ★★
sorted(iterable[, cmp[, key[, reverse]]]) [Python内置函数]从iterable的项中返回一个新的排序列表 ★★★
xrange(start, stop[, step]) [Python内置函数]此函数与range()非常相似,但返回一个xrange对象而不是列表 ★★★
string [Python标准库]字符串处理库,可实现字符串查找、分割、组合、替换、去重、大小写转换及其他格式化处理 ★★★
re [Python标准库]正则表达式模块,在文本和字符串处理中经常使用 ★★★
random [Python标准库]该模块为各种分布实现伪随机数生成器,支持数据均匀分布、正态(高斯)分布、对数正态分布、负指数分布、伽马和β分布等 ★★★
os [Python标准库]用于新建、删除、权限修改、切换路径等目录操作,以及调用执行系统命令 ★★★
os.path [Python标准库]针对目录的遍历、组合、分割、判断等操作,常用于数据文件的判断、查找、合并 ★★★
prettytable [Python标准库]格式化表格输出模块 ★★
json [Python标准库]Python对象与json对象的转换 ★★★
base64 [Python标准库]将任意二进制字符串编码和解码为文本字符串的Base16,Base32和Base64 ★★★

====================【好书推荐,我为自己代言】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>