核密度估计Kernel Density Estimation(KDE)

在介绍核密度评估Kernel Density Estimation(KDE)之前,先介绍下密度估计的问题。由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。

参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。在参数判别分析中,人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法并非总能取得令人满意的结果。

继续阅读核密度估计Kernel Density Estimation(KDE)

混合高斯模型Gaussian Mixture Model(GMM)

混合高斯模型(Gaussian Mixture Model,简称GMM)是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。通俗点讲,无论观测数据集如何分布以及呈现何种规律,都可以通过多个单一高斯模型的混合进行拟合。

继续阅读混合高斯模型Gaussian Mixture Model(GMM)

新奇检测Novelty Detection

大多数数据挖掘或数据工作中,异常值都会在数据的预处理过程中被认为是“噪音”而剔除,以避免其对总体数据评估和分析挖掘的影响。但某些情况下,如果数据工作的目标就是围绕异常值,那么这些异常值会成为数据工作的焦点。

数据集中的异常数据通常被成为异常点、离群点或孤立点等,典型特征是这些数据的特征或规则与大多数数据不一致,呈现出“异常”的特点,而检测这些数据的方法被称为异常检测。

继续阅读新奇检测Novelty Detection

Python基础数据处理库-NumPy

最近更新:2017-07-19


 

NumPy是Python做数据处理的底层库,是高性能科学计算和数据分析的基础,比如著名的Python机器学习库SKlearn就需要NumPy的支持。掌握NumPy的基础数据处理能力是利用Python做数据运算及机器学习的基础。

  • NumPy(或简称NP)的主要功能特性如下:
  • 具有数组(ndarray)能力,这是一个具有矢量算术运算和复杂广播的快速且节省空间的多维数组。
  • 用于对整租数据进行快速运算的标准数学函数(代替循环实现)。
  • 可用于读写数据以及操作内存映射文件。
  • 具有线性代数、随机数生成以及傅里叶交换功能。
  • 可集成C、C++、Fortran等语言,提供了简单易用的C API,很容易将数据传递给低级语言编写的外部库,也能以NumPy数组的形式将数据返回给Python。

继续阅读Python基础数据处理库-NumPy