《Python数据分析与数据化运营》勘误

由于本书的作者水平有限并受限于有限的撰稿时间,以及整个出版环节众多可能会出现信息不对称,书中难免会出现一些错误或者不准确的地方,在此陈列出来供读者参考。这些已经发现的“错误”,会在下一次重印或再版时修正,有关修正的部分,会额外做标记,请读者朋友留意。

最近更新时间:2018-01-17


 

1.在P302“5.8.4 案例过程——步骤3 数据预处理——第二个函数是NA值替换”,代码下面有一段如下的解释文字。

“功能实现过程中,先定义一个包括变量维度名称和对应的缺失值替换方法的字典,这里主要用到了均值mean和中位数median,其中均值用于数值型变量,中位数用于字符串变量;接着用df.fillna方法使用自定义的每列的不同方法批量替换缺失值;然后查看数据框中是否还存在缺失值并打印输出。”

其中“中位数用于字符串变量”的解释是错误的,原因是对于字符串变量而言,它是没有中位数的,他们只有gourpby 后的count(计数)信息,即每个字符串的频数分布,而频数分布跟中位数是不一样的概念。

对于字符串的NA填充,由于没有更多统计性指标,一种思路是可以使用count后的TOP值填充,但这种填充其实不符合真实情况;另一种思路是将NA作为一个特殊的字符串分类值,参与到后续的变量计算中。例如,假如性别的取值是男和女,如果对于性别中的NA值,可以填充为“未知”或对应的英文字母。

2.为本书写推荐语的两位大佬兴宝和郑来轶,兴宝老师的名字写错了,郑来轶老师的title也已经变更。在此致歉!

3.本书的P80第四行,有一段这样的描述“例如苹果iPhone7属于个人电子消费品,这样才能将所有所有商品分配到唯一类别属性值中”,其中出现了两个“所有”,该重复会重印时去掉。

 


====================【好书推荐,我为自己代盐】====================

《Python数据分析与数据化运营》上市啦!

50+数据流工作知识点
14个数据分析与挖掘主题
8个综合性运营分析案例
涵盖会员、商品、流量、内容4大主题
360°把脉运营问题并贴合数据场景落地


本书主要基于Python实现,其中主要用到的计算库是numpy、pandas和sklearn,其他相关库还包括:
  • 标准库:re、time、datetime、json、 base64、os、sys、cPickle、tarfile
  • 统计分析:Statsmodels
  • 中文处理:结巴分词
  • 文本挖掘:Gensim
  • 爬虫和解析:requests、Beautiful Soup、xml
  • 图像处理:OpenCV和PIL
  • 数据读取:xlrd、pymongo、mysql.connector
  • 数据预处理:imblearn
  • 展示美化类:Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
如果你对以下内容感兴趣,那么本书将值得一看:
  • KMeans聚类的自动K均值的确立方法
  • 基于软方法的多分类模型组合评估模型的应用
  • 基于自动下探(下钻、细分)的应用
  • 基于增量学习的多项式贝叶斯分类
  • pipeline管道技术的应用
  • 基于超参数的自动参数值的优化方法
  • 特征自动选择
  • 文本分类、文本主题挖掘
  • 基于自动时间序列ARIMA的P、D、Q的调整
  • python决策树规则输出
  • 基于自定义图像的文本标签云
  • 非结构化数据,例如图像、音频、文本等处理
  • 对象持久化处理
有关这本书的写作感受、详细内容介绍、附件(含数据和代码源文件-源代码可更改数据源直接使用)下载、关键知识和方法以及完整书稿目录,请访问《Python数据分析与数据化运营》新书上线,要购买此书请直接点击图片或扫描二维码去京东购买

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>