Data Preprocessing 数据处理

A Stellar Hiker

2018-02-05

Machine Learning

数据种类

在实际分析项目中，根据数据清理的不同阶段，有下面几类数据：

建议：分别储存每一步得到的数据，以及各个处理过程使用的R代码，使得这个过程尽可能可重复。如果需要检查更改某个环节，也相对容易。

检查数据：变量分布，是不是存在错误的观测。错误的值就设置为缺失值。
缺失值填补：了解缺失原因，选择填补方式(中位数、众数、KNN临近值)。
数据变换：首先中心化和标量化。取决于需要建立的模型，对不符合正态分布假设，变量尺度差异大，有离群值的数据进行变换。
- 不符合正态分布假设 (偏态分布)：(左偏可记为左边数据偏少)
  计算偏度
  变为正态：Box-Cox变换。
- 处理离群点：可以可视化，或者用
检查共线性：找到高度线性相关的变量，决定删除变量，还是使用PCA，CFA这类非监督方法得到不相关的变量线性组合。
稀疏变量：查找并且删除稀疏变量。
编码名义变量：对于不能作用于分类变量的模型，将分类变量转化成0/1名义变量。