梯度下降算介绍以及代码详解

梯度下降法是一个一阶最优化算法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。

什么是梯度下降：

首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置，由于我们不知道怎么下山，于是决定走一步算一步，也就是在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步，然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山峰低处

理论部分：

梯度下降伪代码(个人感觉第(5)步应该转第(2)步)：

代码：

import numpy as np

# 首先初始化函数
def f(x):
    return x ** 2 + 10 * np.sin(x)
    

# 然后初始化梯度函数
def df(x):
    return 2 * x + 10 * np.cos(x)
    

# 定义一个阈值
value = 10e-8


# 初始化起始点
k = 2

while True:
    grad = df(k)
#     print(grad)
    if np.abs(df(k)) < value:
        x_mark = k
        break
    else:
        # 找出最合适的学习率
        Lambda = np.linspace(0, 12, 10000000)
        tem = k-Lambda * grad       # 直接减去的梯度的方向，
        base_Lambda = Lambda[np.argmin(f(tem))]
#         print("最佳的学习率为", Lambda[np.argmin(f(tem))])
    if np.abs(k - (k-base_Lambda * grad)) < value or np.abs(f(k) - f(k-base_Lambda * grad)) < value:
        x_mark = k-base_Lambda * grad
        break
    k = k-base_Lambda * grad
print("局部最优的坐标X值为：",x_mark)
print("局部最优的学习率为：", base_Lambda)



Out：
局部最优的坐标X值为： 3.837467103051607
局部最优的学习率为： 11.37973433797343