Q、K点乘之后的方差会随着维度的增大而增大,而大的方差会导致极小的梯度,为了防止梯度消失,所以除以sqrt(dk)来减小方差
对Transformer中Positional Encoding的理解
其中pos表示token在sequence中的位置,d_model表示词嵌入的维度,i则是range(d_model)中的数值
怎么理解预训练模型?
“预训练“的做法一般是将大量低成本收集的训练数据放在一起,经过某种预训方法去学习其中的共性……
HuggingFace的安装和编码
模型的加载和编码以及基本的使用功能
深度学习课程回顾
大二下学期深度学习课程回顾
机器学习课程回顾
大二上学期机器学习课程回顾
Python切换源,快速下载文件
快速下载文件
SOFTMAX回归模型
SOFTMAX函数的脉络梳理
d2lzh_pytorch包离线安装
线上安装经常出错,所以可以选择离线安装
线性回归的简洁实现
创建单层神经网络