新奇检测Novelty Detection

大多数数据挖掘或数据工作中,异常值都会在数据的预处理过程中被认为是“噪音”而剔除,以避免其对总体数据评估和分析挖掘的影响。但某些情况下,如果数据工作的目标就是围绕异常值,那么这些异常值会成为数据工作的焦点。

数据集中的异常数据通常被成为异常点、离群点或孤立点等,典型特征是这些数据的特征或规则与大多数数据不一致,呈现出“异常”的特点,而检测这些数据的方法被称为异常检测。

继续阅读新奇检测Novelty Detection

Python基础数据处理库-NumPy

最近更新:2017-07-19


 

NumPy是Python做数据处理的底层库,是高性能科学计算和数据分析的基础,比如著名的Python机器学习库SKlearn就需要NumPy的支持。掌握NumPy的基础数据处理能力是利用Python做数据运算及机器学习的基础。

  • NumPy(或简称NP)的主要功能特性如下:
  • 具有数组(ndarray)能力,这是一个具有矢量算术运算和复杂广播的快速且节省空间的多维数组。
  • 用于对整租数据进行快速运算的标准数学函数(代替循环实现)。
  • 可用于读写数据以及操作内存映射文件。
  • 具有线性代数、随机数生成以及傅里叶交换功能。
  • 可集成C、C++、Fortran等语言,提供了简单易用的C API,很容易将数据传递给低级语言编写的外部库,也能以NumPy数组的形式将数据返回给Python。

继续阅读Python基础数据处理库-NumPy