2.单变量线性回归
2 单变量线性回归
模型描述
是监督学习,回归任务。
让模型在数据集中学到一个函数$h(x)=\theta_0+\theta_1x$,完成从x到y的映射
损失函数
我们的问题是如何找到$ \theta_0和\theta_1 $ 让预测更加准确。
我们定义损失函数如下,均方误差(回归任务常用):

任务转化为找到$ \theta_0和\theta_1 $ 让损失函数最小。
我们假设$h(x)=\theta_1x$ ,$J(\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}{(h(x^{(i)})-y^{(i)})^2}$
每个$\theta_1$对应一条直线$h(x)$, 对应一个数值$J(\theta_1)$,这样可以画出右图

我们假设$h(x)=\theta_0+\theta_1x$ ,$J(\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}{(h(x^{(i)})-y^{(i)})^2}$
每对$(\theta_0,\theta_1)$对应一条直线$h(x)$, 对应一个数值$J(\theta_0,\theta_1)$,这样可以画出三维的碗状图,这里我们使用了等高线图


梯度下降
用来最小化任意损失函数$J(\theta_0,,,\theta_n)$
算法步骤:(1)初始化$\theta_0,,,\theta_n$的值(2)改变$\theta_0,,,\theta_n$, 来降低$J$, 重复该步直至到达全局最优或局部最优
问题:不同的初始化可能会进入不同的局部最优
参数的更新公式如下,其中$\alpha$是学习率,表示迈步的大小,偏导表示迈步的方向

注意参数需要同时更新:

偏导的意义:指导参数更新的方向
学习率的意义:当学习率太小,梯度下降会很慢,需要很多步才能到达最优值。学习率太大,可能无法收敛甚至发散

即使学习率不变,梯度下降方法也能找到局部最小值。当靠近局部最小值时,梯度会变小,更新步幅也相应变小;当到达局部最小值时,梯度为0,更新步幅为0.

