最速下降法牛顿法共轭梯度法原理及对比无发可理的理发师

三者都是基于导数的迭代优化方法,用于求解无约束优化问题。

基本思想

最速下降法是梯度下降法和一维搜索的结合

梯度下降法采用一阶泰勒展开式对函数近似,然后将变量沿着负梯度方向(下降最快的方向)移动一定的步长,目标函数就会一直减小,直至接近极小值

步长的确定。让变量在负梯度方向走一段能让函数值最小的距离。可通过求解下式得到(一般通过令其对 \(\lambda\) 求导为0直接求解或通过一维搜索算法如试探法、函数逼近法迭代求解)。

一阶收敛条件。梯度的范数满足趋近于0的精度要求

算法步骤

步骤1:选取初始点 \(x^0\) ,给定终止精度要求 \(\varepsilon>0\) ,令迭代编号 \(k=0\)

步骤2:计算梯度 \(\nabla f(x^k)\) ,若满足 \(||\nabla f(x^k)||<\varepsilon\) ,则停止算法,输出极值点 \(x^k\),否则进入步骤3

步骤3:取负梯度 \(d^{(k)}=-\nabla f(x^k)\) 作为下降方向

步骤4:一维搜索求最佳步长 \(\lambda_k\) ,使得其满足沿该方向移动步长 \(\lambda_k\) 后,函数值最小

步骤5:变量迭代 \(x^{(k+1)}=x^{(k)}+\lambda_k d^{(k)}\) ,回到步骤2继续迭代

算法特点

最速下降法的搜索过程是锯齿形的,每一步所得方向(负梯度)都与上一步正交,在远离极值点时收敛速度快,但接近极值点时收敛非常慢(可以和其它在极值点附近收敛速度快的算法结合)

正交的原因:

一维搜索时无论是利用求导直接求解还是一维搜索方法,最终目的都是令其梯度趋近于零。即

内积为0,因此相邻步的方向是正交的。

最速下降法所得解是局部最优解,而非全局最优解,仅当目标函数为凸函数时,为全局最优。可形象地解释为:在点x1处向梯度方向到达x2,x2再向梯度方向到达x3,但这不一定是x1到x3最快的路径。

目标函数:\(f(x_1,x_2)=x_1^2+x_1x_2+3x_2^2\)

初始点:\((1,1)\)

终止精度:\(\mathrm{eps}=10^{-5}\)

等高线及迭代点搜索过程图

经过9次迭代,算法终止。可以看到在接近极小值点时,最速下降法收敛速度非常慢。

算法思想

二阶函数近似。利用二阶泰勒展开式对目标函数进行近似,因此会用到一阶导数(梯度)和二阶导数(海森矩阵)

近似极小值点。将近似得到二阶函数的极小值点作为原函数极小值点的近似,并不断重复这一近似的过程,直至得到满足精度要求的极小值点

终止条件仍然是满足梯度趋近于0

算法步骤

算法特点

相比最速下降法,省去了一维搜索的步骤,但需要计算海森矩阵及其逆

收敛速度快,具有局部二阶收敛性。形象解释:最速下降法只考虑当前位置下降最快的方向,而不考虑下降后的坡度如何;而牛顿法同时考虑当前下降方向(一阶导)和下降之后坡度的变化(二阶导)

对于二次函数(正定二次型),牛顿法具有一步收敛性

假设目标函数为二次型 \(f(x)=\frac{1}{2}x^TQx-x^Tb\)

梯度为:\(\nabla f(x^{(0)})=Qx^{(0)}-b\)

海森矩阵为: \(\nabla^2 f(x^{(0)})=Q\)

经过牛顿法一次迭代后,近似极值点为:\(x^{(1)}=\frac{b}{Q}\)

重新计算梯度: \(\nabla f(x^{(1)})=Qx^{(1)}-b=0\) ,算法终止

目标函数:\(f(x_1,x_2)=x_1^2+x_1x_2+3x_2^2\)

初始点:\((1,1)\)

终止精度:\(\mathrm{eps}=10^{-5}\)

等高线及迭代点搜索过程图

由于牛顿法对于二次函数的一步收敛性,可见仅经过1次迭代,算法终止。

术语

残差

假设目标函数为二次型 \(f(x)=\frac{1}{2}x^TQx-x^Tb\) ,其中 \(b,x\in\mathbb{R}^n,Q\in\mathbb{R}^{n\times n}\) 且矩阵 \(Q\) 是对称正定的。\(n\) 代表解空间是 \(n\) 维的,即 \(n\) 元二次函数。

其最小值可以通过令一阶导为零得到:\(\nabla f(x^*)=Qx^*-b=0\)

假设通过迭代法求解,迭代法通常无法令该一阶导等于零,因此可将 \(\nabla f(x^{(k)})-\nabla f(x^*)\) 称作系统残差(也是梯度),具体表示为:

共轭向量

当一组向量 \(\{p_0,p_1,\cdots,p_{n-1}\}\) 满足如下条件时,称其关于对称正定矩阵 \(Q\) 共轭。

这样一组向量是线性独立的,可以张成整个空间 \(\mathbb{R}^n\) ,因而可以用来表示其它向量。

算法思想

与最速下降法类似,需要找到下降方向(二者的区别也就在于确定的下降方向不同),然后通过一维搜索找到变量 \(x_k\) 迭代的最优步长 \(\lambda_k\)

对于寻找最优步长 \(\lambda_k\) ,需要将

代入目标函数 \(f(x)\) 并对 \(\lambda\) 求导。因此可以得到:

利用共轭梯度法确定下降方向 \(p_k\)。将最优解点和初始点的差用一组线性无关的共轭向量(向量个数与解空间维度相同)的线性组合近似。然后逐个寻找共轭向量及其系数(步长),构建每一个方向(维度)上的最优解,即沿着解空间的维度逐步构建最优解。具体可解释如下:

将最优解和初始值的差表示为共轭向量的线性组合:

其中 \(\beta_k\) 就是沿着每个共轭向量\(p_k\)(方向)走的步长。对于第 \(k\) 步,\(x_k\) 将 \(x^*\) 投影到由 \(k\) 个线性独立的共轭向量张成的解空间中。

共轭向量 \(p_{k+1}\) 的寻找依赖于负残差和上一个共轭向量。负残差其实就是负梯度,因此称为共轭梯度法。每次迭代找到的新方向(共轭向量)是负残差和上一个搜索方向的线性组合:

其中,步长 \(\beta_k\) 可以根据共轭条件(\(p_{k}^TQp_{k+1}=0\))得到:

\(\lambda_k\) 和 \(\beta_k\) 计算的简化

对于 \(\lambda_k=\frac{r_k^Tr_k}{p_k^TQp_k}\)

由于 \(p_{k+1}=-r_{k+1}+\beta_kp_{k}\) ,且 \(r_{k+1}^Tp_{k}=0,r_{k+1}r_k=0\)

同时 \(r_{k}=Qx_k-b\)

所以 \(r_{k+1}-r_k=Q(x_{k+1}-x_k)=Q\lambda_kp_k\)

进一步 \(\lambda_k=\frac{r_{k+1}-r_k}{Qp_k}\)

分子分母左乘 \(p_k^T\) 代入即可证明。

对于 \(\beta_k=\frac{r_{k+1}^{T}r_{k+1} }{r_{k}^{T} r_{k}}\)

由1中证明,\(Qp_k=\frac{r_{k+1}-r_k}{\lambda_k},r_{k+1}r_k=0\)

代入可得到分子 \(r_{k+1}^{T}r_{k+1}\)

由 \(p_{k}^Tr_{k+1}=0\) ,所以 \(p_{k}^Tr_{k}=r_{k}^Tr_{k}\)

进一步可得到分母 \(r_{k}^{T}r_{k}\)

算法步骤

步骤1:计算初始残差(梯度)\(r_0=Qx_0-b\) ,初始下降方向(负梯度) \(p_0=-r_0\)

步骤2:按下列公式迭代 \(k=0,1,\cdots,n-1\) 直到收敛(n维搜索n步)(收敛条件仍然是残差(梯度)满足精度要求)

算法特点

目标函数:\(f(x_1,x_2)=x_1^2+x_1x_2+3x_2^2\)

THE END
0.二次电气原理接线图的画法缺点:不便于阅读和理解其工作原理。 2. 展开式画法 展开式画法是以电气回路为基础,将继电器整个元件的线圈、触点按保护动作的顺序,自左而右,自上而下绘制的接线展开图。其特点是分别绘制电源回路、主电路、控制电路、信号电路等回路。电气设计在线教学狄老师;各继电器的线圈和触点也分开,分别画在它们各自所属的回路中,并且属于同一jvzquC41yy}/onnrkct/ew45x4k6m8
1.光学设计基础(二)特点:由于彗差是轴外物点以宽光束成像时所产生的一种单色像差。 因此,它一方面随视场大小而变化;另一方面,对于同一视场,它又随孔径的 不同而变化。 慧差的展开式为 第一项为初级彗差 ,第二项为孔径二级彗差 、第三项为视场二级彗差 初级像差描述形式:初级子午彗差 jvzq<84yyy4pr}pv0eun1of132703
2.北京交通大学三段式电流保护二次原理图安装图设计.docx根据设计要求进行调研,设计归总式三段式电流保护原理接线图,分析各部分工作原理。要求:全部元件标号采用标准的文字符号。(2)展开式原理图设计。根据归总式原理接线图,按交流电流回路、控制回路、信号回路等分别画出展开式原理接线图。要求:展开式原理图所有元件标号和归总式原理接线图对应,展开式原理图要标出各连接线jvzquC41oc~/dxtm33>/exr1jvsm1;5421732=4833813>6572642<60ujzn
3.低压开关柜CAD电气图设计与实战详解在传统手绘时代,一张完整的低压开关柜一次系统图或二次原理图往往需要数小时甚至数天完成,且极易因人为疏忽导致接线错误、符号误用或参数遗漏。而采用CAD平台后,设计人员可通过预定义符号库快速插入断路器、接触器、继电器等常用元件,利用自动连线、触点关联、端子编号等功能大幅提升绘图速度。 jvzquC41dnuh0lxfp0tfv8|gkzooa<;373=878ftvkimg8igvcomu86747<629>
4.机器视觉:摄像机标定技术吴建明wujianming特点:仅依靠多幅图像之间的对应关系进行标定。 优点:仅需要建立图像之间的对应,灵活性强,潜在应用范围广。 不足:非线性标定,鲁棒性不高。 3.传统的摄像机标定方法 利用已知的景物结构信息。常用到标定块。 图3-1.平面透视畸变是非线性的:不能使用2D线性变换来描述 jvzquC41yy}/ewgnqiy/exr1ywpjcwrkpi32396391v03A54:793
5.数学分析论文通用12篇现代经济学的一个明显特点是越来越多地使用数学(包括统计学)作为分析工具,绝大多数的经济学前沿论文都包含数学或计量模型。从经济学的分析框架来看,这并不难理解,因为参照系的建立和分析工具的发展通常都要借助数学。但是,在部分经济学家的理论研究中,逐渐形成了一个基于唯数主义的数学化倾向,这种倾向偏离了经济学研jvzquC41zfy0zguj{/exr1jcuxgw4;59>/j}rn
6.数据通信论文范文二、数据通信的构成原理 数据终端(DTE)有分组型终端(PT)和非分组型终端(NPT)两大类。分组型终端有计算机、数字传真机、智能用户电报终端(TeLetex)、用户分组装拆设备(PAD)、用户分组交换机、专用电话交换机(PABX)、可视图文接入设备(VAP)、局域网(LAN)等各种专用终端设备;非分组型终端有个人计算机终端、可视图文终jvzquC41yy}/jjtskmgo0lto1jgpyns157>637mvon
7.小学数学1十进制化成二进制:①根据二进制满2进1的特点,用2连续去除这个数,直到商为0,然后把每次所得的余数按自下而上依次写出即可。②先找出不大于该数的2的n次方,再求它们的差,再找不大于这个差的2的n次方,依此方法一直找到差为0,按照二进制展开式特点即可写出。 jvzquC41yy}/5?5fqe4dp8ftvkimg8<32:<24h627495;A990jznn
8.经典控制理论自动控制原理知识点概要(下)自动控制原理里最常见的基本控制规律是PID控制规律。各控制规律在系统校正中的作用与固有特性有关, 应具体问题具体分析。 6.3 常用校正装置及其特性 按照校正装置G c ( j ω ) G_c(j \omega)Gc​(jω)的相位φ c \varphi_cφc​的不同,常用校正装置可以分为: 超前校正装置、滞后校正和滞后一一超前校正jvzquC41dnuh0lxfp0tfv8|gkzooa=75238328ftvkimg8igvcomu86492=19@5
9.图像的傅里叶变换数字图像处理小记比如南非世界杯时,南非人吹的呜呜主拉的声音太吵了,那么对现场的音频做傅立叶变化(当然是对声音的数据做),会得到一个展开式,然后找出呜呜主拉的特征频率,去掉展开式中的那个频率的sin函数,再还原数据,就得到了没有呜呜主拉的嗡嗡声的现场声音。而对图片的数据做傅立叶,然后增大高频信号的系数就可以提高图像的对比度。同样,相机自动对焦 jvzquC41dnuh0lxfp0tfv8|gkzooa<>9469948ftvkimg8igvcomu8632:<27>>
10.钱伟长——我国近代力学和国际奇异摄动理论的奠基人将它代入(2)式消去p,即得钱法的展开式(1)。 (4)我们也可以把(2)式看成是应用参数变形法的结果,不过,为了得到钱法的结果,还必须对(2)式反演出(3)式和(1)式。因此,钱老的摄动法应看作“参数变形法的反演”。 钱氏摄动法的上述特点(尤其是第⑴、⑵点)大大拓广了人们选择摄动参数的眼界和技巧,充分体现jvzquC41yy}/ejx0ep5{v8o|v1}yekv1|mlz‚~m4267pmjs1m~k1;5282>0v;5282>37h7889?557xjvor