为什么薛定谔方程的解本来是一堆复杂的函数，但是到了左矢右矢里面就变成了向量中的一堆数字？

2020-06-21科学

这是我大学刚开始学量子力学也曾感到困惑的问题，在多年的学习积累之后，我才明白。解决这个问题的同时，你也就解决了为什么初等量子力学课程中的薛定谔方程都是「猜」出来的？不猜就得不到薛定谔方程吗？有没有不猜就能得到薛定谔方程的方法（详见文末）。

很多新人可能一开始有这个疑惑的时候，甚至不知道这到底是数学问题还是物理问题，也就是说这个现象是量子力学特有的吗？首先，这个问题的答案是，这是纯粹的数学问题。当量子力学假定粒子的概率振幅可以用薛定谔方程（注意它是微分方程）描述的时候，就已经暗藏了可以用线性代数理论描述的可能性。逻辑如下：

1.任何线性微分方程的所有解构成一个线性空间

这一点任何学过高等数学中的微分方程问题就已经明白，让我们随便拿一个微分方程出来（不如用一个通式），任意线性微分方程可以表达为如下形式：

{\bf{L}}\Psi=0 \tag{1}

例如，薛定谔方程 i\frac{\partial{\Psi}}{\partial t}={\bf H}\Psi (取自然单位 \hbar=1 ,这是个偏微分方程，我们首先要分离变量)分离变量后得到哈密顿算符的本征方程 {\bf H}\Psi=E\Psi ,其中，左边为算符方程，右边 E 为本征值，也就是说右边是一个数字乘上函数 \Psi ,在这个特例之中，（1）式中的 \bf L 带入 {\bf H}-E 的具体表达式就可以了。要得到上述的结论，只需要看到假设有两个函数 \Psi_1,\Psi_2 都满足方程（1），即

{\bf{L}}\Psi_1=0 \ and \\

{\bf{L}}\Psi_2=0 \\

那么， \Psi_1,\Psi_2 的任意线性组合都是（1）的解，即(式中 a,b 为任意复数)

{\bf{L}}（a\Psi_1+b\Psi_2）=a{\bf{L}}\Psi_1+b{\bf{L}}\Psi_2=0\\

这不禁让我们想起线性空间的定义，所谓的线性空间只是一个满足特定条件的集合，去搜索线性空间的定义大概会得到如下的结果：

Rough Definition. （Vector space）A vector space \bf V is a set of elements in which for every two elements \bf a,b\in V , any linear combination of them is also an element of the set, that is c_1{\bf a}+c_2{\bf b}\in {\bf V} , where c_1,c_2 is numbers of a field.

当然，如果要详细描述，就要说「在此集合上引入一种运算，将2个元素映射到第三个元素...」，或者还要定义0元素，满足其与任何元素相加不改变该元素，好了，我们不要去在意这些细节（你可能需要去查一下复线性空间的严格定义），重点是你应该已经发现，这个定义正好就是任何线性微分方程的解所满足的条件（取 a,b 数域为复数域），因此它们整体的集合构成一个线性空间（vector space），因此我们说，当你认为线性微分方程薛定谔方程的解可以描述物理态时，就已经暗示了它的解是某个线性空间中的元素（事实上，物理态要求概率不大于1，因此满足实际条件的解只是「长度（模）」为1的矢量集合，这些矢量构成薛定谔方程解空间中的一个半径为1的球面）。

2. 任何线性算符等价于解空间中的线性变换

那么线性算符（Operator）例如哈密顿算符在这个理论中又代表着什么呢？答案是，它表示了一种线性变换（Linear transformation），所谓的线性变换就是将线性空间中的任意元素变成另外一个元素的映射，其需要满足的条件是 {\bf{T}}（a\Psi_1+b\Psi_2）=a{\bf{T}}\Psi_1+b{\bf{T}}\Psi_2 , 显然哈密顿算符是满足这个条件的，这是被微分运算的线性所保证的。在线性代数中，我们学过对于有限维的线性空间，取定一组基后，向量可以表示成数组，而线性变换可以表示成矩阵，对于微分方程理论，熟悉量子力学的人应该知道，薛定谔方程的解构成的空间是无穷维的，我们称之为某个Hilbert空间，换句话说可以有无穷个基矢量。

为了更清楚地看到这一点，我们对上述薛定谔方程的解空间进行分解，假定薛定谔方程解的空间 \bf V_s 中可以找到一组基矢量 | \Psi_n \rangle (在这里我们开始使用Dirac符号,为了强调解是矢量，我们用这种特殊的表达让它看起来像是个箭头) ,对于任意解空间中的向量都可以表示成上述基的线性组合，即

|\Psi\rangle=\sum_{n=0}^{\infty}{c_n|\Psi_n\rangle}\tag{2}

Remark. 基失满足正交归一化条件（orthogonality） \langle \Psi_m|\Psi_n\rangle=\delta_{mn} , delta函数为1（ m=n ）或0( m\neq n ). 如果你对Dirac symbol有疑问，可以参考

任意算符，例如哈密顿算符作用在其上得到的结果是

{\bf H}|\Psi\rangle=\sum_{n=0}^{\infty}{c_n{\bf H}|\Psi_n\rangle}\tag{2'}

如果我们使用一个技巧，叫做completeness relation,即 \sum_{m=0}^{\infty}|\Psi_m\rangle\langle \Psi_m|=1 ,这个关系只是说任何向量都能分解为这组基的线性组合，因为 |\Psi\rangle=\sum_{n=0}^{\infty}|\Psi_n\rangle\langle \Psi_n|\Psi \rangle=\sum_{n=0}^{\infty}{c_n|\Psi_n\rangle}

只要我们定义 c_n=\langle \Psi_n|\Psi \rangle=\langle \Psi|\Psi_n \rangle^\ast 即可(注意复空间的内积定义需要满足共轭条件)。

将completeness relation应用到（2'）式的左式并对其与 |\Psi_n\rangle 做内积得

\langle\Psi_n|{\bf H}|\Psi\rangle=\sum_{m=0}^{\infty}\langle\Psi_n|{\bf H}|\Psi_m\rangle\langle \Psi_m|\Psi\rangle\tag{3}

定义 {\bf H_{nm}}= \langle\Psi_n|{\bf H}|\Psi_m\rangle= \langle\Psi_m|{\bf H}|\Psi_n\rangle^\ast ，同时使用之前对 c_n 的定义，重新整理（3）式得

\langle\Psi_n|{\bf H}|\Psi\rangle=\sum_{m=0}^{\infty}{\bf H_{nm}}c_m \tag{4}

将 {\bf H}|\Psi\rangle 看作一个矢量 |\Phi\rangle 的话，上式左边根据 c_n 的定义即为 c(|\Phi\rangle)_n , 所以（4）其实是

c(|\Phi\rangle)_n=\sum_{m=0}^{\infty}{\bf H_{nm}}c_m\\

不知此式是否唤起了你线性代数中矩阵运算的记忆，它其实可以写成

\left[ \begin{array}{cc} c(|\Phi\rangle)_1\\ c(|\Phi\rangle)_2\\ \vdots \end{array} \right] =\left[ \begin{array}{cc} h_{11}&h_{12}\ldots\\ h_{21}&h_{22}\ldots\\ \vdots & \ddots \end{array} \right] \left[ \begin{array}{cc} c_1\\ c_2\\ \vdots \end{array} \right] \\

使用这种取定一组基失表示出来的微分方程形式被称作representation of operator(译为表示，某些中文量子力学中称之为表象)，对于本征方程 {\bf H}\Psi=E\Psi 在这组基下则表示成

\left[ \begin{array}{cc} h_{11}&h_{12}\ldots\\ h_{21}&h_{22}\ldots\\ \vdots & \ddots \end{array} \right] \left[ \begin{array}{cc} c_1\\ c_2\\ \vdots \end{array} \right] =E \left[ \begin{array}{cc} c_1\\ c_2\\ \vdots \end{array} \right] \\

接下来的问题当然就是求其本征值，至少上式在形式上与有限维的线性空间理论中的矩阵本征方程相似，只不过它是无穷维的，对于此类问题，其实是在问，对于Hilbert空间中的算符，是否存在一系列本征值以及一组本征矢量使其满足上述本征方程，这个问题的结论在数学中被称作spectrum theorem（谱定理），关于研究谱的理论据说是泛函分析的内容，对此我现在还没有学到，所以就不再用一些道听途说的信息来误导你了（这部分留待将来有机会再补充），结论是任何线性微分方程对应的算符确实存在确定的谱，比如哈密顿算符的能谱，动量算符的连续谱以及角动量算符的本征谱，对此想要有深入研究的同学建议自学泛函分析。

Remark. 最后要补充的一点就是，对于（2）式中的抽象表达方式，原来的微分方程其实是（2）式在特定基失上的表示，比如取定坐标本征态 |x\rangle ，则波函数 \phi(x)=\langle x|\Psi\rangle , 而哈密顿量则变成了微分运算，算符变成微分运算是谱连续时的特殊情况，就像求和在变量连续情况下变成积分，连续时求和变量的变化本身就与微分密切相关，更多细节请参考Feynman Lectures on Physics卷3或J.J.Sakurai Modern Quantum Mechanics。

这里仅给出连续谱下（4）式的对应:

不用猜，你就能得到薛定谔方程

通常我们在刚开始学习量子力学的时候，为了简单地让大家快速学习QM的计算技巧，感受到QM的用处，都常用「猜」来引出薛定谔方程。

其方法核心是 p_i\rightarrow -i\hbar \frac{\partial}{x_i}\\ H \rightarrow i\hbar\frac{\partial}{\partial{t}}\\

但不是每个人都能接受这种讨巧却不严谨的论证。在我们已经看到上述线性空间与微分方程之间的联系的背景下，我们可以用一种纯粹代数的方法来导出薛定谔方程。

对任意态 |\alpha,t\rangle ,在一段时间 dt 后系统变成了态 |\alpha,t+dt\rangle ,我们想要知道系统是如何从前者变到后者，运动方程即是用来描述这种变化过程的。我们已知态是某希尔伯特空间中的矢量，态变化自然可以写成一个算符对其映射，即 |\alpha,t+dt\rangle=U(t+dt,t)|\alpha,t\rangle\\

态如何变化实际上等价于算符 U 具体形式是什么的问题。

我们首先来观察一下 U 有哪些性质：

U(t,t)=1 ,因为这相当于没有给系统变化的时间 dt .
U(t_2,t_1)U(t_1,t)=U(t_2,t) ,因为当态从 t 变化到 t_1 再变化到 t_2 后,相当于它从 t 直接变化到 t_2 ,这是时间的连续性保证的.
U(t_2,t_1)^\dagger U(t_2,t_1)=1 , 1 是单位算符.这条是由于 \langle \alpha,t_2|\alpha,t_2\rangle=\langle \alpha,t_1|U(t_2,t_1)^\dagger U(t_2,t_1)|\alpha,t_1\rangle=\langle \alpha,t_1|\alpha,t_1\rangle=1 ,因为测量任何态出现它自己的概率总是100%.

根据第1条，如果 dt 足够小， U(t+dt,t) 一定趋近于 1 ，我们可以认为它在 t 附近的增量为 dt 的一阶小量或者更高阶小量，但我们先尝试一阶，即

U(t+dt,t)=1-\frac{i}{\hbar}H(t)dt \tag{5}

式中 -\frac{i}{\hbar} 的出现只是一种习惯，增加的常数只是改变了我们对算符 H 的定义而已（你也可以直接定义 -\frac{i}{\hbar}H=K ），这种定义能够保证 H 是厄米算符并且具有能量的量纲。

将 (5) 代入2和3就能发现上述定义直接满足性质2，3，若认为 U(t+dt,t) 只有二阶以上小量，则无法保证性质2.

接下来，我们利用上面的性质推导：

|\alpha,t+dt\rangle-|\alpha,t\rangle=(U(t+dt,t)-1)|\alpha,t\rangle\\

将上式左边的 |\alpha,t+dt\rangle 作为 t 的函数进行一阶级数展开得到

|\alpha,t\rangle+\frac{\partial}{\partial{t}}|\alpha,t\rangle dt-|\alpha,t\rangle=(U(t+dt,t)-1)|\alpha,t\rangle\\

上式右边用 (5) ，左边抵消得到

\frac{\partial}{\partial{t}}|\alpha,t\rangle dt=-\frac{i}{\hbar}H(t)|\alpha,t\rangle dt\\

或约掉 dt 即得 薛定谔方程

i\hbar\frac{\partial}{\partial{t}}|\alpha,t\rangle=H(t)|\alpha,t\rangle\\

上式只是一个抽象的代数方程，因为 H(t) 的具体形式还不知道，但已经可以看到薛定谔方程本身并不需要「猜"，而是有更本质的代数性质。通过对量子态的讨论以及对平移对称性，旋转对称性等的讨论，我们可以构造出更多算符，如动量算符和角动量算符，并且导出其对易关系。然后通过对连续本征值的讨论，我们可以得到在坐标本征态为基失情况下的薛定谔方程的具体形式（此即前文所描述的代数方程向微分方程转化的方法），则可得到初等量子力学中学到的微分方程形式的薛定谔方程。

仍然值得注意的是，Wigner曾在【非齐次洛伦兹群的不可约幺正表示】中提到的，这种从对称性出发的代数方法仅仅可以部分替代微分方程，但有一点它无法替代，即算符与算符之间的关系。上述推导中有一个问题，就是哈密顿算符和动量算符以及势能算符之间的经典关系无法通过对称性的讨论找到，仍然只能借用经典的概念。不用猜也只是形式上的，对于能量等于动能加势能的关系，仍然是从经典借过来的。

本文只介绍大概思路，完整的过程及应用，请看费曼物理学讲义第3卷或樱井的现代量子力学。