江东的笔记

Be overcome difficulties is victory

0%

什么是机器学习?

对机器学习的初步理解

什么是机器学习?

;官方解释:
  ·机器学习就是从“数据”中自动分析获得规律,利用规律对未知的数据进行预测。
- 模型:算法模型,是一个特殊的对象,该算法模型对象中已经集成了或封装好了某种形式的算法/方程(还没有求出解)
- 模型的作用:
   - 预测:可以通过方程或者算法产生一个新的位置的数据/事物
   - 分类:可以将一个未知归类的事物给其归属到一个已有的类群中
   - 注意:算法模型对应的算法或者方程求出的解就是预测或者分类的结果
- 样本数据:
   - 模型的训练,将样本数据带入到模型中,对其进行训练(给方程进行求解),模型训练好了后,则模型方程就有唯一解或者最优解。有解后则模型就可以实现分类或者预测功能
- 构成:
   - 特征数据:自变量
   - 标签/目标数据:因变量
- 模型的分类:
   - 有监督学习
   - 如果模型需要的样本数据必须包含特征数据和标签数据,则该模型为有监督学习分类
- 无监督学习
  - 模型样本只需要要特征数据即可,目标数据有或者无都可以
- 数据集的获取途径:
   - kaggle:数据竞赛平台
   - UCI数据集
   - sklearn
机器学习工作流程:
   ·获取数据
   ·数据基本处理
   ·特征工程
   ·机器学习
   ·模型评估
特征工程:
   ·定义:把数据转换为机器更容易识别的数据
   ·特征抽取
   ·数据特征预处理–特征降维
   ·选择特征
·为什么需要特征工程?
   - 样本数据中的特征工程可能会存在缺失值,异常值等等,那么我们是需要对特征工程中的相关的噪点进行数据处理的,那么处理的目的就是为了营造出一个更纯净的样本,让模型基于这个数组可以有更好的预测能力,当然特征工程不是单单只是处理上述操作。
特征工程的意义:
   ·直接影响模型预测的结果
如何实现特征工程?
   ·工具:sk-learn

sklearn介绍:

   - 是python语言中机器学习的工具,包含了许多知名的机器学习算法的实现,其文档完善,容易上手。

   - 功能:
      ·分类模型
      ·回归模型
      ·聚类模型
      ·特征工程
·特征抽取目的:
   ·我们所采集到样本中的特征往往是字符串或者其他类型的数据,而我们知道电脑只能识别二进制数值型的数据,如果把字符串给电脑,电脑是看不懂的。
·机器学习算法分类:
   ·监督学习
   ·无监督学习
   ·半监督学习
   ·强化学习
·监督学习:输入的数据由目标值和特征值组成
      ·回归:函数的输入可以是一个连续的值
      ·分类:输出是有限个离散值
·半监督学习:有特征值,但是一部分数据有目标值,一部分没有
·无监督学习:仅有特征值
·强化学习:agent action environment rewaed
·模型评估:
·分类模型评估
   ·准确率:
      ·预测正确的数占样本总数的比例
   ·精确率
      ·正确预测为正确占全部预测为正的比例
   ·召回率
      ·正确预测为正占全部样本的比例
   ·F1-score
      ·主要用于评估模型的稳健性
   ·AUC指标
      ·主要用于评估样本不均衡的情况
·回归模型评估
   均方根误差
   相对平方误差
   平均结对误差
   相对绝对误差
   决定系数
·拟合:
   欠拟合:机器学习的特征太少了,区分标准粗糙,不能准确识别
   过拟合:机器学习的特征太多了,验证数据及其测试数据中表现不佳