Data Preprocessing 数据处理
数据种类
在实际分析项目中,根据数据清理的不同阶段,有下面几类数据:
- 原始数据。
- 技术上正确的数据。
- 可以用于模型的数据。
- 整合后的数据。
- 设置了固定格式的数据。
建议:分别储存每一步得到的数据,以及各个处理过程使用的R代码,使得这个过程尽可能可重复。如果需要检查更改某个环节,也相对容易。
数据预处理流程
-
检查数据:变量分布,是不是存在错误的观测。错误的值就设置为缺失值。
-
缺失值填补:了解缺失原因,选择填补方式(中位数、众数、KNN临近值)。
-
数据变换:首先中心化和标量化。取决于需要建立的模型,对不符合正态分布假设,变量尺度差异大,有离群值的数据进行变换。
- 不符合正态分布假设 (偏态分布):(左偏可记为左边数据偏少)
计算偏度
变为正态:Box-Cox变换。
- 处理离群点:可以 可视化,或者用
- 不符合正态分布假设 (偏态分布):(左偏可记为左边数据偏少)
-
检查共线性:找到高度线性相关的变量,决定删除变量,还是使用PCA,CFA这类非监督方法得到不相关的变量线性组合。
-
稀疏变量:查找并且删除稀疏变量。
-
编码名义变量:对于不能作用于分类变量的模型,将分类变量转化成0/1名义变量。
特征值生成
数据探索
Exploratory Data Analysis 数据探索
数据清洗
Ref
[1] http://hui1987.com/Presentations/COS_NA2016-6-2/Presentation_2016_6_2.html#20
[2] 偏度 - 维基百科,自由的百科全书
[3] Box-Cox变换 - 静夜录