江东的笔记

Be overcome difficulties is victory

0%

梯度下降算介绍以及代码详解

梯度下降法是一个一阶最优化算法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。

什么是梯度下降:

首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处

理论部分:

在这里插入图片描述
在这里插入图片描述

梯度下降伪代码(个人感觉第(5)步应该转第(2)步):

在这里插入图片描述

代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
import numpy as np

# 首先初始化函数
def f(x):
return x ** 2 + 10 * np.sin(x)


# 然后初始化梯度函数
def df(x):
return 2 * x + 10 * np.cos(x)


# 定义一个阈值
value = 10e-8


# 初始化起始点
k = 2

while True:
grad = df(k)
# print(grad)
if np.abs(df(k)) < value:
x_mark = k
break
else:
# 找出最合适的学习率
Lambda = np.linspace(0, 12, 10000000)
tem = k-Lambda * grad # 直接减去的梯度的方向,
base_Lambda = Lambda[np.argmin(f(tem))]
# print("最佳的学习率为", Lambda[np.argmin(f(tem))])
if np.abs(k - (k-base_Lambda * grad)) < value or np.abs(f(k) - f(k-base_Lambda * grad)) < value:
x_mark = k-base_Lambda * grad
break
k = k-base_Lambda * grad
print("局部最优的坐标X值为:",x_mark)
print("局部最优的学习率为:", base_Lambda)



Out:
局部最优的坐标X值为: 3.837467103051607
局部最优的学习率为: 11.37973433797343