江东的笔记

Be overcome difficulties is victory

0%

机器学习课程回顾

大二上学期机器学习课程回顾

1.基本概念部分

1、统计学习方法可以概括如下:……..
2、什么是有监督学习、无监督学习、半监督学习
3、有监督的学习的三要素两过程
4、生成式模型和判别式模型是什么意思,常见的代表模型有哪几个
5、什么叫过拟合、欠拟合,常用的减轻拟合的方法
6、如果clf是一个模拟的对象,则一般clf.train(X, y), clf.fit(X, y), clf.predict(test)是什么意思,执行后的结果或改变是什么
7、Precision, Recall, F1, Accuracy, AUC of ROC。上面这几个概念的定义、意义、计算。给定正负例的信号强度,能画出ROC
8、训练集、验证集、测试集的作用是什么,S折交叉验证是怎么回事
9、什么叫回归,什么叫聚类,什么叫分类

2.Knn

中英文名字、算法理念、算法过程、算法伪代码,算法代码实现

3.Kmeans

中英文名字、算法理念、算法过程、算法伪代码,算法代码实现

4.最优化问题

最优化问题,迭代最优化问题,梯度下降法都是什么意思。
梯度下降法的算法理念、算法过程、算法伪代码、停机条件
给定函数、当前自变量、学习率,可算出下一次迭代的自变量
给定函数,能求出argmin和min

5.感知机

算法理念、算法过程、算法伪代码,算法代码实现
感知机解的情况和业务意义,感知机的局限,感知机在机器学习中的地位

6.线性回归

线性回归的定义,解法,解的情况,广义线性回归
会手算简单的线性回归(单变量)

7.逻辑回归

线性回归的定义,解法,解的情况
Sigmoid函数及求导,求解最大似然估计

8.朴素贝叶斯

给定一个小规模数据集,可以手算朴素贝叶斯

9.决策树

决策树的基本算法
熵、基尼、熵增益、固有值、熵增益比的定义和业务意义
ID3、C4.5、Cart算法基本思路和伪代码

10.提升方法

Bagging和随机森林
能说清楚GBDT的脉络即:
adaboost的理念,加法模型,前向加法模型,提升树,回归树对残差的拟合,以及对梯度的拟合。

11.SVM

线性可分支持向量机的基本脉络
松弛变量、核函数的业务背景和操作方法
SMO算法的大致过程

12.NN

说清楚神经网络学习和预测的过程
了解常见的神经网络,及中英文名称
对于多层神经网络,可以计算其待定参数的个数,并能说明BP算法如何更新网络参数

13.Numpy

基本的向量化运算,使用numpy常见的方法