说明:本文是《Python数据分析与数据化运营》中的“3.10 离散化,对运营数据做逻辑分层”。 -----------------------------下面是正文内容--------------------------
所谓离散化,就是把无限空间中有限的个体映射到有限的空间中。数据离散化操作大多是针对连续数据进行的,处理之后的数据值域分布将从连续属性变为离散属性,这种属性一般包含2个或2个以上的值域。
离散化处理的必要性:
- 节约计算资源,提高计算效率。
- 算法模型(尤其是分类模型)的计算需要。虽然很多模型,例如决策树可以支持输入连续型数据,但是决策树本身会先将连续型数据转化为离散型数据,因