分类标签归档:抽样

3.6 数据化运营要抽样还是全量数据


说明:本文是《Python数据分析与数据化运营》中的“3.6 数据化运营要抽样还是全量数据”。 -----------------------------下面是正文内容--------------------------

抽样是从整体样本中通过一定的方法选择一部分样本,抽样是数据处理的基本步骤之一,也是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

3.6.1 什么时候需要抽样

抽样工作在数据获取较少或处理大量数据比较困难的时代非常流行,主要有以下几方面背景:

  • 数据计算资源不足。计算机软硬件的限制是导致抽样产生的基本原因之一,尤其是在数据密集的生物、科学工程等领域,不抽

继续阅读

3.3 大数据时代,数据化运营还需要降维吗


说明:本文是《Python数据分析与数据化运营》中的“3.3 大数据时代,数据化运营还需要降维吗”。 -----------------------------下面是正文内容-------------------------- 数据降维就是降低数据的维度数量,数据降维是维数归约的一个重要课题。

3.3.1 什么情况下需要降维

数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。是否进行降维主要考虑以下方面:

  • 维度数量。降维的基本前提是高维

继续阅读