什么是机器学习？

对机器学习的初步理解

什么是机器学习？

;官方解释：
&emsp;&emsp;·机器学习就是从“数据”中自动分析获得规律，利用规律对未知的数据进行预测。
- 模型：算法模型，是一个特殊的对象，该算法模型对象中已经集成了或封装好了某种形式的算法/方程（还没有求出解）
- 模型的作用：
&emsp;&emsp; - 预测：可以通过方程或者算法产生一个新的位置的数据/事物
&emsp;&emsp; - 分类：可以将一个未知归类的事物给其归属到一个已有的类群中
&emsp;&emsp; - 注意：算法模型对应的算法或者方程求出的解就是预测或者分类的结果
- 样本数据：
&emsp;&emsp; - 模型的训练，将样本数据带入到模型中，对其进行训练（给方程进行求解），模型训练好了后，则模型方程就有唯一解或者最优解。有解后则模型就可以实现分类或者预测功能
- 构成：
&emsp;&emsp; - 特征数据：自变量
&emsp;&emsp; - 标签/目标数据：因变量
- 模型的分类：
&emsp;&emsp; - 有监督学习
&emsp;&emsp; - 如果模型需要的样本数据必须包含特征数据和标签数据，则该模型为有监督学习分类
- 无监督学习
&emsp;&emsp;- 模型样本只需要要特征数据即可，目标数据有或者无都可以
- 数据集的获取途径：
&emsp;&emsp; - kaggle：数据竞赛平台
&emsp;&emsp; - UCI数据集
&emsp;&emsp; - sklearn
机器学习工作流程：
&emsp;&emsp; ·获取数据
&emsp;&emsp; ·数据基本处理
&emsp;&emsp; ·特征工程
&emsp;&emsp; ·机器学习
&emsp;&emsp; ·模型评估
特征工程：
&emsp;&emsp; ·定义：把数据转换为机器更容易识别的数据
&emsp;&emsp; ·特征抽取
&emsp;&emsp; ·数据特征预处理–特征降维
&emsp;&emsp; ·选择特征
·为什么需要特征工程？
&emsp;&emsp; - 样本数据中的特征工程可能会存在缺失值，异常值等等，那么我们是需要对特征工程中的相关的噪点进行数据处理的，那么处理的目的就是为了营造出一个更纯净的样本，让模型基于这个数组可以有更好的预测能力，当然特征工程不是单单只是处理上述操作。
特征工程的意义：
&emsp;&emsp; ·直接影响模型预测的结果
如何实现特征工程？
&emsp;&emsp; ·工具：sk-learn

sklearn介绍：

&emsp;&emsp; - 是python语言中机器学习的工具，包含了许多知名的机器学习算法的实现，其文档完善，容易上手。

&emsp;&emsp; - 功能：
&emsp;&emsp; &emsp;&emsp; ·分类模型
&emsp;&emsp; &emsp;&emsp; ·回归模型
&emsp;&emsp; &emsp;&emsp; ·聚类模型
&emsp;&emsp; &emsp;&emsp; ·特征工程
·特征抽取目的：
&emsp;&emsp; ·我们所采集到样本中的特征往往是字符串或者其他类型的数据，而我们知道电脑只能识别二进制数值型的数据，如果把字符串给电脑，电脑是看不懂的。
·机器学习算法分类：
&emsp;&emsp; ·监督学习
&emsp;&emsp; ·无监督学习
&emsp;&emsp; ·半监督学习
&emsp;&emsp; ·强化学习
·监督学习：输入的数据由目标值和特征值组成
&emsp;&emsp; &emsp;&emsp; ·回归：函数的输入可以是一个连续的值
&emsp;&emsp; &emsp;&emsp; ·分类：输出是有限个离散值
·半监督学习：有特征值，但是一部分数据有目标值，一部分没有
·无监督学习：仅有特征值
·强化学习：agent action environment rewaed
·模型评估：
·分类模型评估
&emsp;&emsp; ·准确率：
&emsp;&emsp; &emsp;&emsp; ·预测正确的数占样本总数的比例
&emsp;&emsp; ·精确率
&emsp;&emsp; &emsp;&emsp; ·正确预测为正确占全部预测为正的比例
&emsp;&emsp; ·召回率
&emsp;&emsp; &emsp;&emsp; ·正确预测为正占全部样本的比例
&emsp;&emsp; ·F1-score
&emsp;&emsp; &emsp;&emsp; ·主要用于评估模型的稳健性
&emsp;&emsp; ·AUC指标
&emsp;&emsp; &emsp;&emsp; ·主要用于评估样本不均衡的情况
·回归模型评估
&emsp;&emsp; 均方根误差
&emsp;&emsp; 相对平方误差
&emsp;&emsp; 平均结对误差
&emsp;&emsp; 相对绝对误差
&emsp;&emsp; 决定系数
·拟合：
&emsp;&emsp; 欠拟合：机器学习的特征太少了，区分标准粗糙，不能准确识别
&emsp;&emsp; 过拟合：机器学习的特征太多了，验证数据及其测试数据中表现不佳