梯度下降法是一个一阶最优化算法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。
什么是梯度下降:
首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处
理论部分:
梯度下降伪代码(个人感觉第(5)步应该转第(2)步):
代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
| import numpy as np
def f(x): return x ** 2 + 10 * np.sin(x)
def df(x): return 2 * x + 10 * np.cos(x)
value = 10e-8
k = 2
while True: grad = df(k)
if np.abs(df(k)) < value: x_mark = k break else: Lambda = np.linspace(0, 12, 10000000) tem = k-Lambda * grad base_Lambda = Lambda[np.argmin(f(tem))]
if np.abs(k - (k-base_Lambda * grad)) < value or np.abs(f(k) - f(k-base_Lambda * grad)) < value: x_mark = k-base_Lambda * grad break k = k-base_Lambda * grad print("局部最优的坐标X值为:",x_mark) print("局部最优的学习率为:", base_Lambda)
Out: 局部最优的坐标X值为: 3.837467103051607 局部最优的学习率为: 11.37973433797343
|