分类标签归档:主成分回归

3.7 解决运营数据的共线性问题


说明:本文是《Python数据分析与数据化运营》中的“3.7 解决运营数据的共线性问题”。 -----------------------------下面是正文内容-------------------------- 所谓共线性(也称为多重共线性)问题指的是输入的自变量之间存在较高的线性相关度。共线性问题会导致回归模型的稳定性和准确性大大降低,另外,过多无关的维度参与计算也会浪费计算资源和时间。

共线性问题是否常见取决于具体业务场景,常见的具有明显的共线性的维度或变量包括:

  • 访问量和页面浏览量
  • 页面浏览量和访问时间
  • 订单量和销售额
  • 订单量和转化率
  • 促销费用和销售额
  • 网络展示广告费用和访客数

继续阅读

使用sklearn库中的SVR做回归分析


sklearn中的回归有多种方法,广义线性回归集中在linear_model库下,例如普通线性回归、Lasso、岭回归等;另外还有其他非线性回归方法,例如核svm、集成方法、贝叶斯回归、K近邻回归、决策树回归等,这些不同回归算法分布在不同的库中。

本示例主要使用sklearn的多个回归算法做回归分析、用matplotlib做图形展示。

本示例模拟的是针对一批训练集做多个回归模型的训练和评估,从中选择效果较好的模型并对新数据集做回归预测。本示例主要使用sklearn的多个回归算法做回归分析、用matplotlib做图形展示。

完整代码如下:

# 导入库
import numpy as np # 

继续阅读