Data Preprocessing 数据处理

数据种类

在实际分析项目中,根据数据清理的不同阶段,有下面几类数据:

  1. 原始数据。
  2. 技术上正确的数据。
  3. 可以用于模型的数据。
  4. 整合后的数据。
  5. 设置了固定格式的数据。

建议:分别储存每一步得到的数据,以及各个处理过程使用的R代码,使得这个过程尽可能可重复。如果需要检查更改某个环节,也相对容易。

数据预处理流程

  1. 检查数据:变量分布,是不是存在错误的观测。错误的值就设置为缺失值。

  2. 缺失值填补:了解缺失原因,选择填补方式(中位数、众数、KNN临近值)。

  3. 数据变换:首先中心化和标量化。取决于需要建立的模型,对不符合正态分布假设,变量尺度差异大,有离群值的数据进行变换。

    • 不符合正态分布假设 (偏态分布):(左偏可记为左边数据偏少)
      计算偏度Image Loading
      变为正态:Box-Cox变换。
      Image Loading
    • 处理离群点:可以 可视化,或者用
      Image Loading
  4. 检查共线性:找到高度线性相关的变量,决定删除变量,还是使用PCA,CFA这类非监督方法得到不相关的变量线性组合。
    Image Loading

  5. 稀疏变量:查找并且删除稀疏变量。
    Image Loading

  6. 编码名义变量:对于不能作用于分类变量的模型,将分类变量转化成0/1名义变量。

特征值生成

Feature Extraction 特征值生成

数据探索

Exploratory Data Analysis 数据探索

数据清洗

Data Cleaning 数据清洗

Ref

[1] http://hui1987.com/Presentations/COS_NA2016-6-2/Presentation_2016_6_2.html#20
[2] 偏度 - 维基百科,自由的百科全书
[3] Box-Cox变换 - 静夜录