Machine Learning Series 机器学习
通过整理博客,希望形成系统的知识体系。
技能表
Workflow
数据分析流程:分析成功的关键在于将数据分析嵌入实际问题的语境中,最终分析师能够将数据中提取的信息通过交流传达给客户,指导推动用户付出行动创造价值。
问题种类
问题种类:比较、描述、聚类、判别、回归
需要考虑的问题有:
Problem formalization, Choice of target metric, Deployment issues, Inference speed, Data collecting, Model complexity, Target metric value。
章节
- 理论
- Data Preprocessing 数据处理
- 模型评估与选择 Model Evaluating
- Modelling 建模
- Support Vector Machines 支持向量机
- Bayesian 贝叶斯分类器
- Naive Bayes Classifier 朴素贝叶斯分类器
- Semi-Naive Bayes Classifiers 半朴素贝叶斯分类器
- Bayesian Network / Belief Network 贝叶斯网
- EM 算法
- Ensemble Learning 集成学习
- Cluster 聚类
- prototype-based clustering 原型聚类
- k-means k 均值算法
- Learning Vector Quantization 学习向量量化
- Mixture-of-Gaussian 高斯混合聚类
- density-based clustering 密度聚类
- DBSCAN
- hierarchical clustering 层次聚类
- AGNES
- prototype-based clustering 原型聚类
- 降维与度量学习
- k Nearest Neighbour k 近邻学习
- 低维嵌入
- MDS
- 线性变换
- Principle Component Analysis 主成分分析
- 核化线性降维
- Kernelized PCA 核主成分分析
- 流形学习
- Isometric Mapping 等度量映射
- Locally Linear Embedding 局部线性嵌入
- Metric Learning 度量学习
- 特征选择与稀疏学习
- filter 过滤式选择
- Relief (Relevant Features)
- wrapper 包裹式选择
- Las Vegas Wrapper
- embedding 嵌入式选择与 L1 正则化
- 稀疏表示与 dictionary learning 字典学习
- filter 过滤式选择
- 计算学习理论
- 基础知识
- PAC 学习
- 有限假设空间
- VC 维
- Rademacher 复杂度
- 稳定性
- 半监督学习
- 未标记样本
- 生成式方法
- 半监督 SVM
- 图半监督学习
- 基于分歧的方法
- 半监督聚类
- 概率图模型
- 隐马尔科夫模型
- 马尔可夫随机场
- 条件随机场
- 学习与推断
- 近似推断
- 话题模型
- 规则学习
- 基本概念
- 序贯覆盖
- 剪枝优化
- 一阶规则学习
- 归纳逻辑程序设计
- 强化学习
- 任务与奖励
- K-摇臂赌博机
- 有模型学习
- 免模型学习
- 值函数近似
- 模仿学习
Ref:
[1] 机器学习 - 周志华
[2] 统计学习方法
[3] 套路!机器学习 北美数据科学家的私房课
[4] Coursera - Data Science Essentials
[5] Coursera - How to Win a Data Science Competition