变分法初步(1)

物理
变分法初步(1)

用户头像
质心民科 更新于2025-3-12 22:50:22

§0 历史

变分法可以说始于Newton在1687年提出的最小阻力问题,随后是由Johann Bernoulli在1696年提出的最速降线问题。这个领域立即引起了Jacob Bernoulli和Marquis de l'Hôpital的关注,但Leonhard Euler在1733年开始系统地阐述了这一主题。Lagrange受Euler的工作影响,对这一理论做出了重要贡献。在Euler看到19岁的Lagrange于1755年发表的工作后,放弃了自己部分几何的方法,转而采用Lagrange的纯解析方法,并在1756年的讲座《Elementa Calculi Variationum》中重新命名了这一学科。

Legendre在1786年提出了一种方法,用于区分极大值和极小值,但并不完全令人满意。Isaac Newton和Gottfried Leibniz也早期对这个主题给予了一些关注。在这一领域做出贡献的还有Vincenzo Brunacci(1810年)、Carl Friedrich Gauss(1829年)、Siméon Poisson(1831年)、Mikhail Ostrogradsky(1834年)和Carl Jacobi(1837年)。Sarrus(1842年)的一部重要著作被Cauchy(1844年)简化并改进。其他重要的论文和专著包括Strauch(1849年)、Jellett(1850年)、Otto Hesse(1857年)、Alfred Clebsch(1858年)和Lewis Buffett Carll(1885年)的著作,但本世纪最重要的工作或许要属Weierstrass的贡献。他关于该理论的著名课程具有划时代的意义,可以说他是第一个使变分法建立在牢固且无可争议的基础上的人。1900年发表的Hilbert第20和第23个问题进一步促进了这一领域的发展。

在20世纪,David Hilbert、Oskar Bolza、Gilbert Ames Bliss、Emmy Noether、Leonida Tonelli、Henri Lebesgue和Jacques Hadamard等人都对变分法做出了重要贡献。Marston Morse将变分法应用于现在称为Morse理论的领域。Lev Pontryagin、Ralph Rockafellar和F.H. Clarke在最优控制理论中发展了变分法的新数学工具。Richard Bellman的动态规划是变分法的一个替代方法。

§1 简介:积分的稳定值

首先,让我们回顾微积分中关于寻找单变量函数最大值和最小值的基本原理:原理 (最大值是稳定点)令$f(x)$是一个“好”函数,则$f$的最大值或最小值出现在$f^{\prime}(x)=0$。

(上面原理中的“好”指的是连续可微,在本文中将不精确区分可能出现的例外,通常假设我们只对足够光滑的函数感兴趣,这样就不用担心函数的可微性)

变分法(Calculus of Variation) 是一系列技术的集合,其不再是寻找单变量函数的最大值或最小值,而是寻找一个泛函(一个函数的函数),即:选择函数使得某个值最小。这样的问题在物理中经常出现。

例 1 (两点之间最短路径) 给定二维空间中的点$(x_{1},y_{1})$和$(x_{2},y_{2})$它们之间的最短路径是什么?

通过旋转平面(不影响两点之间的距离),我们可以假设$y_{1}=y_{2}$。

让我们想象路径是由一个合适的好(连续可微)函数$y(x)$给出的,那么路径的长度由下面的公式给出$$I[y]=\int_{x_{1}}^{x_{2}}\sqrt{1+y^{\prime}(x)^{2}}\mathrm{d}x$$而我们对于$y(x)$的唯一约束是$y(x_{1})=y(x_{2})=y_{1}$。由于$y^{\prime}(x)^{2}\geqslant 0$,我们可以看到当$$y^{\prime}(x)=0$$积分最小,同时直线路径使得距离最小。(直觉上很明显,任何路径都可以用光滑路径来任意地近似,因此只考虑光滑路径就足够了;这不是本文的重点,因为我们将经常假设我们可以将自己限制在足够好的函数上,而没有严格的理由)。

注意到我们已经从全局标准——所有可能路径的变化推导出了关于在某一点发生什么的一个局部规则。这就是变分法的基本思想,我们将对它进行相当程度的概括,并应用于广泛的问题。

物理学中最简单的观点之一是光沿直线传播。如果用下面的方式来解释,这个观点就会获得更大的力量:光沿直线传播,因为直线段是两点之间最短的距离。这可能听起来是一个微不足道的重述,但它仍然是Einstein广义相对论的基本观点之一,并与用量子电动力学现代理解光紧密相连,所以应该认真对待。

例 2 (铁人二项问题) 一群运动员从点$A$到点$B$,他们首先需要穿过一片田野(以速度$c_{1}$奔跑),然后横渡一条河(以$c_{2}$游泳)。按照哪条路径从$A$到$B$最快?

Image

很明显,运动员应该从$A$以直线跑到河边的$P$处,然后再从$P$处以直线游到$B$处,因为直线能使距离最小。(如果$c_{1}\geqslant c_{2}$,则考虑最后运动员在田野上的最后一点$P$;从$A$到$P$最快的方式是在田野上跑直线。在这之后最快的方式是从$P$游直线到$B$。)

令$A=(x_{A},y_{A})$,$B=(x_{B},y_{B})$和$P=(x_{P},y_{P})$。我们想选择$y_{P}$使得总时间最少。在$y_{P}$的最佳值,我们有$$\frac{\mathrm{d}}{\mathrm{d}y_{P}}\left(\frac{\sqrt{(x_{A}-x_{P})^{2}+(y_{A}-y_{P})^{2}}}{c_{1}}+\frac{\sqrt{(x_{B}-x_{P})^{2}+(y_{B}-y_{P})^{2}}}{c_{2}}\right)=0$$即$$\frac{(y_{A}-y_{P})}{c_{1}\sqrt{(x_{A}-x_{P})^{2}+(y_{A}-y_{P})^{2}}}=\frac{(y_{B}-y_{P})}{c_{2}\sqrt{(x_{B}-x_{P})^{2}+(y_{B}-y_{P})^{2}}}$$所以$P$的最佳位置是使得角度$\psi_{1}$,$\psi_{2}$满足:$$\frac{\sin\psi_{1}}{c_{1}}=\frac{\sin\psi_{2}}{c_{2}}\tag{1}$$你也许认出了(1)是Snell定律,该定律处理光从一种介质到另一种介质的折射,条件是观察到介质的折射率与速度的倒数一致。Fermat观察到Snell定律来自于一个最小时间原理,尽管直到20世纪这个原理才从量子物理和相对论的角度被理解。

我们现在可以解决一个稍微一般的问题。假设有人在泥泞的场地上跑步$x>0$,速度与$c(x)$成正比,其中$c(x)$是一些只取决于$x$坐标的光滑函数。等价地,我们有一个光学介质,其连续变化的折射率与$(c(x))^{-1}$成正比。那么从一个点到另一个点的最短时间的路径是什么?

我们可以按照下面的方式考虑这个问题。将泥地分成厚度为$\delta x$的条带,这样从$x$到$x+\delta x$的条带中,速度是一个常数,由$c(x)$给出。

然后反复应用方程(1)的Snell定律,$$\frac{\sin\psi(x)}{c(x)}\text{是路径的一个常数}\tag{2}$$一定是正确的。

现在取$\delta x\to 0$的极限,这条定律依旧是正确的。

§1.1 一点基本的微积分

路径与$x$-轴的角度$\psi=\psi(x)$使得$\tan\psi=\frac{\mathrm{d}y}{\mathrm{d}x}=y^{\prime}$。我们也有弧长的定义$\mathrm{d}s^{2}=\mathrm{d}x^{2}+\mathrm{d}y^{2}$。把这些放在一起,我们有$$\sin\psi=\frac{y^{\prime}}{\sqrt{1+y^{\prime 2}}}=\frac{\mathrm{d}y}{\mathrm{d}s},\quad \cos\psi=\frac{1}{\sqrt{1+y^{\prime 2}}}=\frac{\mathrm{d}x}{\mathrm{d}s}\tag*{}$$从中也可以推导出$$\kappa=\frac{\mathrm{d}\psi}{\mathrm{d}s}=\frac{y^{\prime\prime}}{(1+y^{\prime 2})^{3/2}}$$其中,$\kappa$是路径的曲率(curvature),其定义方式在轴的旋转下是不变的。

例 3 (“泥泞场地”上的最短路径) 作为一个特别有趣的例子,以$c(x)$在$x$中是线性的情况为例,实际上,假设$c(x)=x$,那么我们有$$\frac{\sin\psi(x)}{x}=\text{常数}\tag{3}$$因此,我们可以将Snell定律的表述转化为$y=y(x)$是$$\frac{y^{\prime}}{\sqrt{1+y^{\prime 2}}}=Ax\tag{4}$$的一个解的表述。如果$A=0$,这就给出线$y=\text{常数}$,而对于$A\neq 0$,我们得到$$x^{2}+(y-y_{0})^{2}=A^{-2}\tag{5}$$i.e. 圆心在$x=0$的圆的集合。这就完全解决了在场地任何两点之间寻找跑步者最短路径的问题。我们将稍后回到这个优美的几何事实。

显然,我们现在可以考虑当$c=c(x,y)$时出现的更一般的问题。取而代之,我们将换一个观点来看。我们用更一般的术语重新表述我们一直在研究的问题。

我们把覆盖路径所需的时间视为所走路径的一个泛函。也就是说,它是可能路径空间上的一个函数,可能的路径本身就是函数。

具体来说,在我们考虑的问题中,我们可以对函数$y=y(x)$定义一个泛函$I[y]$:$$I[y]=\int_{a}^{b}\frac{\sqrt{1+y^{\prime}(x)^{2}}}{c(x)}\mathrm{d}x\tag{6}$$然后,我们寻找$I[y]$的最小值,$y(x)$变过所有可能的路径。达到这一最小值的函数$y(x)$被称为一个极值(extremal)

在这种情况下,很明显我们是在寻找积分的最小值,但一般情况这太局限了。我们使用术语稳定值(stationary value)。这将意味着(在有待定义的意义上)$I[y]$的一阶导数为零。这将允许一系列可能性(最小值或最大值,或相当于马鞍的东西,或更复杂的情况,高阶导数也消失)。

我们现在把它看作是一个更为普遍问题的一个特例,在这个问题中,我们寻找的是下面泛函的稳定值$$I[y]=\int_{a}^{b}F(x,y(x),y^{\prime}(x))\mathrm{d}x\tag{7}$$对于一个确定的函数$F(x_{1},x_{2},x_{3})$。为了简化,我们记为$I[y]=\displaystyle\int_{a}^{b}F(x,y,y^{\prime})\mathrm{d}x$。

卓越的发现(原则上归功于Euler和Lagrange)是存在处理所有这些问题的一个单一方法。这种方法还可以进一步拓展(到多维,多导数和约束)。

更值得注意的是,那些看起来完全不像最小时间问题的问题也可以用这种方式重新表述。动力系统的轨迹可以被认为是这种稳定值问题的解,不是最短距离或最短时间的问题,而是最小作用的问题,这一点将被解释。这是对物理问题非常有用的描述,原因之一是稳定值的概念与用来描述它的坐标无关。

今天的理论物理学植根于场的泛函的稳定值的思想。目前粒子和力的标准模型是通过写下最小作用原理来定义的,弦和超弦理论也是如此。因此,变分法的部分动机来自于物理世界最深层的属性,这些属性只有通过创造性数学的转化能力才能显现出来。

收起
13
13
共0条回复
时间正序
回复是交流的起点,交流让学竞赛不孤单