分类标签归档:回归

3.7 解决运营数据的共线性问题


说明:本文是《Python数据分析与数据化运营》中的“3.7 解决运营数据的共线性问题”。 -----------------------------下面是正文内容-------------------------- 所谓共线性(也称为多重共线性)问题指的是输入的自变量之间存在较高的线性相关度。共线性问题会导致回归模型的稳定性和准确性大大降低,另外,过多无关的维度参与计算也会浪费计算资源和时间。

共线性问题是否常见取决于具体业务场景,常见的具有明显的共线性的维度或变量包括:

  • 访问量和页面浏览量
  • 页面浏览量和访问时间
  • 订单量和销售额
  • 订单量和转化率
  • 促销费用和销售额
  • 网络展示广告费用和访客数

继续阅读

1.4 第一个用Python实现的数据化运营分析实例-销售预测


说明:本文是《Python数据分析与数据化运营》中的“1.4 第一个用Python实现的数据化运营分析实例-销售预测”。

1. 案例概述

本节通过一个简单的案例,来介绍下如何使用Python进行数据化运营分析。

案例场景:每个销售型公司都有一定的促销费用,促销费用可以带来销售量的显著提升;当给出一定的促销费用时,预计会带来多大的商品销售量? 在“附件-chapter1”中data.txt存储了建模所需的原始数据,get_started_example.py是案例完整代码。以下是原始数据概况:

  • 来源:生成的模拟数据,非真实数据
  • 用途:用来做第一个销售预测案例
  • 维度数量:1
  • 记录数:100
  • 字段

继续阅读

使用sklearn库中的SVR做回归分析


sklearn中的回归有多种方法,广义线性回归集中在linear_model库下,例如普通线性回归、Lasso、岭回归等;另外还有其他非线性回归方法,例如核svm、集成方法、贝叶斯回归、K近邻回归、决策树回归等,这些不同回归算法分布在不同的库中。

本示例主要使用sklearn的多个回归算法做回归分析、用matplotlib做图形展示。

本示例模拟的是针对一批训练集做多个回归模型的训练和评估,从中选择效果较好的模型并对新数据集做回归预测。本示例主要使用sklearn的多个回归算法做回归分析、用matplotlib做图形展示。

完整代码如下:

# 导入库
import numpy as np # 

继续阅读