线性代数及其应用

笔记

本文是临近夏令营，简单地复习了一下线性代数方面相关的内容，果然重学了一遍才知道当初什么都没学懂！之后还会更新一些进阶的内容，希望我能记得起来。 ## 线性代数及其应用

线性方程组

线性方程式形如a₁x₁ + a₂x₂ + ⋯ + a_nx_n = b的式子，其中a_i为系数，x_i为未知数，b为常数。

一个线性方程组则为：

$$ \begin{cases} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n&=b_1\\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n&=b_2\\ \vdots \\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n&=b_m \end{cases} $$

其中m为方程个数，n为未知数个数。

线性方程组的解只有三种情况：

无解
唯一解
无穷多解

注意到：一个线性方程组是相容的，指的若它有一个解或者无穷多解；而一个方程组是不相容的，指的若它无解。

矩阵乘法

线性方程组可以用矩阵形式表示：

$$ \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_m \end{bmatrix} $$

其中，这个线性方程组的增广矩阵形式为：

$$ \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} & b_1\\ a_{21} & a_{22} & \cdots & a_{2n} & b_2\\ \vdots & \vdots & \ddots & \vdots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} & b_m \end{bmatrix} $$

矩阵的维数指的是矩阵的行数和列数。

求解线性方程组

基本方法：

初等行变换
- （倍加变换）把某一行换成它本身与另一行的倍数的和。
- （倍乘变换）把某一行乘以一个非零常数。
- （对换变换）把某两行互换位置。

如果两个矩阵是行等价的，那么其中某一个矩阵可以通过一系列初等行变换变换成另一个矩阵。

初等行变换是可逆的！

推论：若两个线性方程组的增广矩阵是行等价的，则它们的解集相同。

注意：线性方程组的两个基本问题：存在和唯一性

存在与唯一性定理：
    线性方程组相容的充要条件是增广矩阵的最右列不是主元列，就是说增广矩阵没有形如
                [ 0 ...  0  b] b!= 0

的行,若线性方程组相容它的解集有两种情况：
    (i)当没有自由变量时，有唯一解；
    (ii)当至少有一个自由变量时，有无穷多解。

向量方程

仅含一列的矩阵称为列向量，仅含一行的矩阵称为行向量（简称向量）。

向量的加法：

$$ \begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} + \begin{bmatrix} b_1\\ b_2\\ \vdots \\ b_n \end{bmatrix} = \begin{bmatrix} a_1+b_1\\ a_2+b_2\\ \vdots \\ a_n+b_n \end{bmatrix} $$

向量的数乘（标量乘法）：

$$ c\begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} = \begin{bmatrix} ca_1\\ ca_2\\ \vdots \\ ca_n \end{bmatrix} $$

向量的内积：

$$ \begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} \cdot \begin{bmatrix} b_1\\ b_2\\ \vdots \\ b_n \end{bmatrix} = \sum_{i=1}^n a_ib_i $$

线性组合：

给定Rⁿ中的向量 v₁, v₂, ⋯, v_n，以及相应的系数 c₁, c₂, ⋯, c_n，则：

y = c₁v₁ + c₂v₂ + ⋯ + c_nv_n

称为向量 v₁, v₂, ⋯, v_n 以系数 c₁, c₂, ⋯, c_n 为权的的线性组合，其中 y 是 Rⁿ 中的一个向量。

向量方程：

a₁x₁ + a₂x₂ + ⋯ + a_nx_n = b

和增广矩阵

$$ \begin{bmatrix} \mathbf{a_1} & \mathbf{a_2} & \cdots & \mathbf{a_n} & \mathbf{b} \end{bmatrix} $$

的线性方程组具有相同的解集，其中b可以看作是a₁, a₂, ⋯, a_n的线性组合，当且仅当线性方程组有解。

给定Rⁿ中的向量 v₁, v₂, ⋯, v_n，则v₁, v₂, ⋯, v_n的所有线性组合构成了Rⁿ中的一个向量空间，记作𝒱，也可表示为Span{v₁, v₂, ⋯, v_n}。即形如：

a₁c₁ + a₂c₂ + ⋯ + a_nc_n

的向量的集合，其中c₁, c₂, ⋯, c_n为标量。

线性方程Ax=b

若A是m行n列的矩阵，它的各列为a₁, a₂, ⋯, a_n，x是Rⁿ中的列向量，则A与x的乘积就是A的各列以x中对应元素为权的线性组合。

$$ \mathbf{A}\mathbf{x}= \begin{bmatrix} \mathbf{a}_1 & \mathbf{a}_2 & \cdots & \mathbf{a}_n \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{bmatrix} = \begin{bmatrix} \mathbf{a}_1 x_1+\mathbf{a}_2 x_2+\cdots+\mathbf{a}_n x_n \end{bmatrix} $$

注意：当且仅当 Ax 中A的列数等于x的维数时，才有定义

方程Ax=b有解当且仅当b是A的各列行向量的线性组合。

性质：若A是m行n列的矩阵，u和v是Rⁿ中的向量，c是标量，则：

A(u + v) = Au + Av
A(cu) = cAu

齐次线性方程组

齐次线性方程组：

线性方程组称为齐次的，当前仅当它可以写为：Ax = 0的形式，其中A是m行n列的矩阵，x是Rⁿ中的列向量，0是R^m中的零向量。这样的方程组至少有一个解，即x = 0。更重要的是我们需要知道它是否有非平凡解

齐次线性方程组有非平凡解当且仅当方程至少含有一个自由变量。

参数表示的非齐次线性方程组的解

设方程Ax = b对某个b是相容的，p是一个特解，则Ax = b的解集可以表示为： w = p + v_h，其中v_h是齐次方程Ax = 0的任意一个解。

说明若Ax = b有解，则解集可由Ax = 0的解平移向量p得到。

线性无关

Rⁿ中一组向量{v₁, v₂, ⋯, v_n}线性无关，若向量方程

x₁v₁ + x₂v₂ + ⋯ + x_nv_n = 0

仅有平凡解。若为线性相关的，则存在不全为0的权{c₁, c₂, ⋯, c_n}使得

c₁v₁ + c₂v₂ + ⋯ + c_nv_n = 0

线性相关的特征

两个或更多向量的集合S = {v₁, v₂, ⋯, v_n}线性相关，当且仅当S中至少有一个向量是其他向量的线性组合，事实上，若S线性相关，且v₁ ≠ 0，则某个v_j(j > 1)是它前面几个向量{v₁, v₂, ⋯, v_j − 1}的线性组合。

定理：若一个向量组的向量个数超过每个向量元素的个数，则该向量组线性相关。

定理：若向量组S里包含零向量，则S线性相关。

线性变换

变换T是线性的，若：

对T的定义域中的一切u和v，都有T(u + v) = T(u) + T(v)
对一切的标量c和向量u，都有T(cu) = cT(u)

线性变换的矩阵

设T是Rⁿ到R^m的线性变换，T的矩阵形式为A，则：

T(x) = Ax

对一切Rⁿ中的向量x，都有T(x)是R^m中的向量。事实上，A是m × n矩阵，它的第i行是T(e_i)，其中e_i是单位矩阵I_n中的第i列。即：

A = [T(e₁), T(e₂), …, T(e_n)]

矩阵代数

设A和B为m × n矩阵，则有如下的结果：

1、(A^T)^T = A，即A^T的转置等于A 2、(AB)^T = B^TA^T，即AB的转置等于B^TA^T 3、(A + B)^T = A^T + B^T，即(A + B)的转置等于A^T + B^T

可逆矩阵

设A为m × n矩阵，如果存在非零元素的n × n矩阵B，使得AB = BA = I_n，则称A为可逆矩阵。不可逆矩阵也称为奇异矩阵。

对于二阶矩阵$\begin{bmatrix}a & b\\c & d \end{bmatrix}$的逆矩阵，有：

$$ A^{-1}=\frac{1}{ad-bc}\begin{bmatrix} d & -b\\ -c & a \end{bmatrix} $$

其中，若ad − bc ≠ 0，则A为可逆矩阵；若ad − bc = 0，则A为奇异矩阵。

如果一个维度为n × n的矩阵A可逆，则对Rⁿ中任一向量b，方程Ax = b的解x也可唯一确定,解为：

$$ \mathbf{x}=\begin{bmatrix} A^{-1} \end{bmatrix}\mathbf{b} $$

可逆矩阵定理：

1、对于任意数r,有(rA)^T = rA^T 2、(A^T)⁻¹ = (A⁻¹)^T 3、(AB)⁻¹ = B⁻¹A⁻¹，即(AB)⁻¹等于B⁻¹A⁻¹。

初等变换与矩阵求逆

初等变换是指将单位矩阵进行一次初等行变换。行变换是可逆的，因此得到的初等矩阵也是可逆的，并且有初等矩阵E的逆是一个同类型的初等矩阵，它将矩阵E变换到单位阵。

定理：nxn的矩阵A可逆，当且仅当A行等价于单位阵I，此时，把A变为单位阵的一系列初等行变换同时把单位阵I变为矩阵A的逆矩阵。

求逆矩阵的算法

将矩阵A和单位阵I排在一起写为增广矩阵的形式$\begin{bmatrix}A & I \end{bmatrix}$,对增广矩阵进行行变换时，A与I同时进行同一变换，那么如果有一系列的初等行变换将A变换到单位阵，那么I将变换得到矩阵A⁻¹,否则A没有逆矩阵。

注意：更有实际意义的一个观点是，将增广矩阵$\begin{bmatrix}A & I \end{bmatrix}$变换为$\begin{bmatrix}I & A^{-1} \end{bmatrix}$实际上是在解n个方程组：

Ax = e₁, Ax = e₂, ..., Ax = e_n

其中e_i是n维单位向量。 实际应用中并不需要求解所有方程组，只需要求解需要的Ax = e_i的解即可。

矩阵的因式分解

LU分解

设矩阵A为m × n矩阵，A = LU，其中L为m × m单位下三角矩阵，U为m × n为与A等价的阶梯型矩阵。LU分解是用来求解线性方程组的一种方法。当矩阵A = LU时，方程组Ax = b可写为L(Ux) = L(y)，即转换为求解两个方程组：

Ly = b

Ux = y

这两个方程都很容易求解，因为它们都是三角矩阵。

LU分解的步骤：设A可以仅用行倍加变换化简为阶梯型矩阵U。即存在一系列单位下三角初等矩阵E₁, E₂, ..., E_p，使得E_p⋯E₁A = U。于是，A = (E_p⋯E₁)⁻¹U = LU. 其中L = (E_p⋯E₁)⁻¹

有意思的是，我们需要注意到，将A转换成U的一系列行变换，同时也将L转换成I。这是因为，E_p⋯E₁A = U，因此，E_p⋯E₁L = I。那么显然，因为U的下三角部分均为0,I的下三角部分也均为0,因此L的下三角部分其实为A的下三角部分除以其对应主元列元素的结果。

子空间

定义：Rⁿ中的子空间是指,Rⁿ中的集合H，满足：

H中任意两个向量x, y ∈ H，x + y ∈ H
x ∈ H，λx ∈ H (λ ∈ R)
零向量0 ∈ H

子空间的性质： 1.矩阵A的列空间Col(A)是指A的列向量各线性组合构成的集合。且是矩阵A的主元列向量构成的集合。 2.矩阵A的零空间Nul(A)是指A的零空间，即Ax = 0的解x构成的集合。且是矩阵A的自由变量构成的集合。

子空间的基

设H为Rⁿ中的子空间，H的基是指H中向量的集合B，使得H = Span{b₁, b₂, ⋯, b_k}，其中b₁, b₂, ⋯, b_k是H中的线性无关向量。

维数与秩

坐标系

假设B = {b₁, b₂, ⋯, b_k}是H的一个基，对H中的每一个向量x，可以用基B中的向量{b₁, b₂, ⋯, b_k}的坐标表示：

$$ \mathbf{x}=\sum_{i=1}^k \alpha_i\mathbf{b}_i $$

其中α₁, α₂, ⋯, α_k是x在基B中的坐标。

维数

非零子空间H的维数是指，用dim(H)表示,是指H中任意一个基的向量的个数。

秩

矩阵A的秩，记作rank(A)，是指A列空间的维数。

如果一矩阵A有n列，则n = rank(A) + dim(Nul(A))。

秩与可逆矩阵定理：如果一个矩阵A可逆，则有：

rank(A) = n
A的列向量构成一个Rⁿ的基.
Col(A) = Rⁿ
Nul(A) = {0}
dim(Col(A)) = n
dim(Nul(A)) = 0

行列式

定义：当n ≥ 2时，n × n矩阵A的行列式det(A)是形如+ − a_1jdetA_1j的n个项的和，其中加减号在交替出现，其中元素a_1j是A的第1行第j列元素。

$$ detA = a_{11}detA_{11} - a_{12}detA_{12} + a_{13}detA_{13} - \cdots + (-1)^{n+1}a_{1n}detA_{1n}\\ = \sum_{j=1}^n (-1)^{j+1}a_{1j}detA_{1j} $$

余因子展开式：A的(i, j)余因子C_ij由下式给出：

C_ij = (−1)^i + jdetA_ij

于是有，

$$ detA = \sum_{j=1}^n a_{1j}C_{1j} $$

行列式的性质

行变换定理：若A是n阶方阵，

若A的第i行与第j行交换，则detA的符号改变；
若A的某一行的倍数加到另一行得到矩阵B，则detA = detB。
若A的某行乘以倍数k得到矩阵B，则detB = k ⋅ detA。

定理：若A 为三角阵，则detA等于A的主对角线上元素的乘积。

计算行列式可以将其化为三角矩阵来进行求解。

转置：方阵A的转置的行列式等于A的行列式。即det(A^T) = detA。

乘法：若方阵A与B均为n × n矩阵，则detAB = detA ⋅ detB。

克拉默法则

定义对任意n × n矩阵A和Rⁿ中的向量b，A_i(b)*表示A中第i列由向量b替换得到的矩阵。

A_i(b) = [a₁⋯b⋯a_n]

克拉默法则：设A是一个可逆的n × n矩阵，b是一个n维向量，方程Ax = b的唯一解x存在，可由下式给出：

$$ x_i = \frac{detA_i(\mathbf{b})}{detA},i=1,2,\cdots,n $$

逆矩阵公式：

$$ A^{-1} = \frac{1}{detA}\begin{bmatrix} C_{11} & C_{21} & \cdots & C_{n1}\\ C_{12} & C_{22} & \cdots & C_{n2}\\ \vdots & \vdots & \ddots & \vdots\\ C_{1n} & C_{2n} & \cdots & C_{nn} \end{bmatrix} $$

其中C_ij是A的(i, j)余因子，所构成的矩阵称为伴随矩阵，记作adjA。

向量空间与子空间

向量空间的定义：一个向量空间是由一些被称为向量的对象构成的非空集合V,以及两个运算：

加法：v, w ∈ V，v + w ∈ V
标量乘法：α ∈ R, v ∈ V，αv ∈ V并且有以下公理：
u + v = v + u
(u + v) + w = u + (v + w)
V中存在一个零向量0，使得∀v ∈ V, v + 0 = v。
对每一个v ∈ V，存在一个负向量−v，使得v + −v = 0。
c(v + w) = cv + cw
(a + b)v = av + bv
c(dv) = (cd)v
1v = v

子空间

定义：设V是一个向量空间，H ⊂ V，如果H是一个子空间如果满足以下三个性质： a. H中存在一个零向量0 b. H对向量加法封闭，即∀v ∈ H, ∀w ∈ H, v + w ∈ H c. H对标量乘法封闭，即∀α ∈ R, ∀v ∈ H, αv ∈ H

定理：若v₁, v₂, ⋯, v_n是V中的向量，则Span{v₁, v₂, ⋯, v_n}是V的一个子空间。

矩阵的零空间

定义：设A是一个m × n矩阵，v ∈ Rⁿ，则Av = 0的解集称为矩阵A的零空间。表示为：

Nul(A) = {v ∈ Rⁿ : Av = 0}

定理：A是一个m × n矩阵，则Nul(A)是Rⁿ的一个子空间。等价地说，m个方程，n个未知数的齐次线性方程组Ax = 0的解集是Rⁿ的一个子空间。

列空间

定义：设A是一个m × n矩阵，则A的列的所有线性组合组成的集合是A的列空间，记作Col(A) = Span{a₁, a₂, ⋯, a_n}。

定理：A是一个m × n矩阵，则Col(A)是R^m的一个子空间。注意到，Col(A)可以写为

Col(A) = {b : b = Ax, x ∈ Rⁿ}, x为某向量。

线性变换的核与值域

定义：设T : V → W是一个线性变换，它将V中的每个向量v映射到W中的一个向量唯一向量w = T(v),并且满足：

T(u + v) = T(u) + T(v)
T(αv) = αT(v), 对所有α ∈ R和∀v ∈ V均成立。

线性变换T的核(kernel)：设T : V → W是一个线性变换，则线性变换T的核是V中所有满足T(v) = 0的向量的集合。记作ker(T)。T的值域是W中所有具有形式T(v)(∀v ∈ V)的向量的集合。

如果一个线性变换T是由一个矩阵变换得到的，即T(x) = Ax，则T的值域与核恰好是A的列空间核与零空间。

基

定义：设V是一个向量空间，令H是向量空间V的一个子空间，V中向量的指标集B = {b₁, b₂, ⋯, b_m}称为H的一个基，如果有：

B是一个线性无关集。
由B生成的子空间与H相同。

定理：矩阵A的主元列构成了A的列空间的基。

生成集定理： 令S = {v₁, v₂, ⋯, v_n}是V中的向量集，且有H = Span{v₁, v₂, ⋯, v_n} a. 若S中的某一个向量v_k，是S其余向量的线性组合，则S去掉v_k后形成的集合仍然能够生成H。 b. 若H ≠ {0},则S的某一子集是H的一个基。

坐标系

对于向量空间V中的一组基B = {b₁, b₂, ⋯, b_n}，则对V中的每个向量x，可以用基B中的元素表示为：

$$ \mathbf{x} = \sum_{i=1}^n a_i\mathbf{b_i} $$

于是，定义x相对于基B的坐标是使得$\mathbf{x}=\sum_{i=1}^n a_i\mathbf{b_i}$的权a₁, a₂, ⋯, a_n。记作

$$ [\mathbf{x}]_B = \begin{bmatrix} a_1\\ a_2\\ \vdots\\ a_n \end{bmatrix} $$

令

P_B = [b₁, b₂, ⋯, b_n]

则x = a₁b₁ + a₂b₂ + ⋯ + a_nb_n等价于x = P_B[x]_B.称P_B为从B到Rⁿ的坐标变换矩阵。

向量空间的维数

若向量空间V中存在一组基{b₁, b₂, ⋯, b_n}，则V中任意包含多于n个向量的集合一定线性相关。

定理：若向量空间V是由一个有限集生成的，则称V为有限维的，其维数写为dim(V)。是指V的基中含有向量的个数。零向量空间 {0} 的维数定义为0。反之，如果V不是由一有限集生成，那么其称为无穷维的。

定理：令H为V的一个子空间，则H中任意一个线性无关集均可以扩充为H的一个基，H也是有限维的，且有：

dim(H) ≤ dim(V)

NulA的维数是方程Ax=0中自由变量的个数，ColA的维数是A中主元列的个数。

秩

定理：若两个矩阵A和B行等价，则它们的行空间相同。若B为阶梯型矩阵，则B的非零行构成A的行空间的一个基的同时也构成了B的行空间的一个基。

A的秩即为A的列空间的维数。

秩定理：设A为m × n矩阵，A的行空间与列空间的维数相等，这个维数称为A的秩，还等于A的主元位置的个数且满足：

rank(A) + dim(NulA) = n

秩与可逆矩阵定理：设A为n × n矩阵，如果A是可逆矩阵,则有：

A的列构成Rⁿ的一个基。
ColA = Rⁿ
dimColA = n
rank(A) = n
NulA = {0}
dim(NulA) = 0

注意到：A的行空间是A^T的列空间，又A可逆当且仅当A^T可逆。，所以对上述一系列判读可逆矩阵同样适用于A^T。

基变换

设B = {b₁, b₂, ⋯, b_n}与C = {c₁, c₂, ⋯, c_n}是向量空间V的两个基，则存在一个n × n矩阵P，使得：

[x]_C = P[x]_B

且，P的列是基B中向量的C − 坐标向量，即：

$$ P = \begin{bmatrix} [\mathbf{b_1}]_C, [\mathbf{b_2}]_C, \cdots [\mathbf{b_n}]_C \end{bmatrix} $$

若B = {b₁, b₂, ⋯, b_n}，E是Rⁿ的标准基{e₁, e₂, ⋯, e_n}，则[b₁]_E = b₁,B中的其他向量也类似，引入坐标变换矩阵P_E ← B,则其与P_B等价。

马尔科夫链的矩阵形式

定义： 概率向量：一个具有非负分量，且各分量的数值相加等于1的向量称为概率向量。 概率矩阵：随机矩阵是指各列向量都是概率向量的矩阵。 马尔科夫链：一个马尔科夫链是一个概率向量序列x₁, x₂, ⋯, x_n和一个随机转移矩阵P，满足：

x_i = Px_i − 1, i = 2, 3, ⋯, n0

x_k中的数值分别列出来一个系统在n各可能状态下的概率，或者实验结果是n个可能概率之一的概率。因此，x_k通常被称为状态向量。

稳态向量：若P是一个随机矩阵，则相对于P的稳态向量是一个满足:

Pq = q

的概率向量q。每一个随机矩阵都有一个稳态向量。

定理：若P是一个n × n正规的随机矩阵，则P具有唯一的稳态向量q.进一步的，如果x₀是任一个起始状态，且有x_k + 1 = Px_k, k = 0, 1, ⋯,则当k → ∞时，马尔科夫链{x_k}收敛到稳态向量q.

特征值与特征向量

定义：A为n × n矩阵，x为非零向量，若存在数λ使得Ax = λx成立，则称λ为A的特征值，x称为对应于λ的特征向量。

定理：三角矩阵的主对角线元素是特征值。

注意：λ是A的特征值当且仅当

(A − λI)x = 0

定理：λ₁, ⋯, λ_r是n × n矩阵A相异的特征值，v₁, ⋯, v_r是与λ₁, ⋯, λ_r对应的特征向量,那么向量集合{v₁, ⋯, v_r}线性无关。

特征方程

求解特征方程是指，找出所有的λ，使得Ax = λx成立。等价于要求出所有的λ,使得矩阵A − λI为不可逆矩阵。

行列式与特征方程：设A为n × n矩阵，则A是可逆的当且仅当 1.0不是A的特征值。 2.A的行列式不为0。

行列式的性质

设A和B为n × n矩阵，则： a. A可逆的充分必要条件是A的行列式不为0。 b. det(AB) = det(A)det(B) c. detA^T = detA d.若A是三角矩阵，那么detA是A的主对角线元素的乘积。 e.对A作行替换不改变院行列式的值，做一次行交换使其行列式值的符号改变一次。数乘一行后，行列式的值等于用此数乘原来的行列式。

定理：数λ是n × n矩阵A的特征值的充分必要条件是λ是特征方程det(A − λI) = 0的根。

相似性

设A和B为n × n矩阵，如果存在可逆矩阵P，使得P⁻¹AP = B，或者等价地A = PBP⁻¹，则称A相似于B。记Q = P⁻¹，则有Q⁻¹BQ = A,即B也相似于A。把A变为P⁻¹AP的变换称为相似变换。

定理：如果n × n矩阵A与B是相似的，那么它们有相同的特征多项式，从而有相同的特征值。

对角化

如果n × n矩阵A相似于对角矩阵，即存在可逆矩阵P和对角矩阵D，有A = P⁻¹DP，则称A为可对角化矩阵。

定理：如果n × n矩阵A可对角化可对角化的充分必要条件是A有n个线性无关的特征向量。事实上，A = P⁻¹DP,D为对角矩阵的充分必要条件是P的列向量是A的n个线性无关的特征向量。此时，D中对角线上的元素分别是A的对应于P中特征向量的特征值。

注意到，A可对角化也就是说有足够的特征向量形成Rⁿ的一个基，我们称这组基为特征向量基。

定理：有n个相异特征值的n × n矩阵可对角化。（是充分的，但不是充要的）

微分方程中的应用

(待续)

正交性和最小二乘法

向量的长度：向量 v的长度（范数）是非负数||v||，定义为：

$$ ||\mathbf{v}||=\sqrt{\mathbf{v} \cdot \mathbf{v}}=\sqrt{\sum_{i=1}^n v_i^2} 且 ||\mathbf{v}||^2 = \mathbf{v} \cdot \mathbf{v} $$

对于任意数c ∈ ℝ，有：

c||v|| = |c|‖v‖

长度为1的向量称为单位向量，如果把一个非零向量除以自身长度，即乘以1/||v||，那么得到的向量就是单位向量，这称为向量v的单位化。

ℝⁿ空间中的向量v和w的距离，记作dist(v, w)，定义为：

$$ dist(\mathbf{v},\mathbf{w})=\left \Vert \mathbf{v}-\mathbf{w} \right \Vert = \sqrt{(\mathbf{v}-\mathbf{w}) \cdot (\mathbf{v}-\mathbf{w})} $$

正交向量

如果向量v ⋅ w = 0，则称v和w是相互正交的，记作v ⟂ w。

毕达哥斯拉定理：两个向量v和w相互正交的充要条件是‖v + w‖² = ‖v‖² + ‖w‖²。

正交补

如果向量z与ℝⁿ的子空间W中的任意向量都正交，则称z正交于W。那么与子空间W正交的向量z的集合称为W的正交补，记作W^⟂。

定理1：

向量x属于W^⟂的充分必要条件是向量x与生成空间W中任一向量w都不正交。
W^⟂是ℝⁿ的一个子空间。

定理2：假设矩阵A是m × n的矩阵，那么A的行向量空间的正交补空间是A的零空间，且A的列向量空间的正交补是A^⊺的零空间:

(RowA)^⟂ = Nul(A) 且 (ColA)^⟂ = Nul(A^T)

正交集

ℝⁿ中的向量集合{v₁, v₂, ⋯, v_k}称为正交向量集，如果集合中任意两个不同的向量都正交，即当i ≠ j时,有v_i ⟂ v_j。

定理3：如果S = {u₁, u₂, ⋯, u_k}是ℝⁿ中的非零向量构成的正交向量集，那么S是线性无关集，因此构成所生成子空间S的一组基。

定理4：假设{u₁, u₂, ⋯, u_p}是ℝ中子空间𝕎的正交基，则对𝕎中的每个向量y，线性组合y = c₁u₁ + c₂u₂ + ⋯ + c_pu_p的系数c₁, c₂, ⋯, c_p中的权值可以由$c_j=\frac{\mathbf{y} \cdot \mathbf{u}_j}{\mathbf{u}_j \cdot \mathbf{u}_j} \quad (j=1,2,\cdots,p)$给出。

正交投影

考虑ℝⁿ中的一个向量y分解为两个向量之和的问题，一个向量是u的数量乘积，另一个向量与u垂直，其中向量u是给定的。写为：

y = ŷ + z

其中，$\mathbf{\hat{y}}=\alpha \mathbf{u} \quad \alpha是个数$，z是一个垂直于u的向量。

可以求得， $\alpha = \frac{\mathbf{y} \cdot \mathbf{u}}{\mathbf{u} \cdot \mathbf{u}}$ $\mathbf{\hat{y}}=\frac{\mathbf{y}\cdot\mathbf{u}}{\mathbf{u} \cdot \mathbf{u}} \cdot \mathbf{u}$。称向量ŷ是y在u上的正交投影，而向量z是y垂直u的分量。

例子：对于向量空间W = ℝ² = Span{u₁, u₂}，u₁, u₂相互正交，那么对于任意ℝ²中的向量y，都有：

$$ \mathbf{y}=\frac{\mathbf{y}\cdot\mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1} \cdot \mathbf{u}_1+\frac{\mathbf{y}\cdot\mathbf{u}_2}{\mathbf{u}_2 \cdot \mathbf{u}_2} \cdot \mathbf{u}_2 $$

单位正交集

集合{u₁, ⋯, u_n}是一个单位正交集，如果它们是由单位向量构成的正交集。如果W是一个由单位正交集组成的子空间，那么{u₁, ⋯, u_n}是W的单位正交基，因为这类集合自然线性无关。

定理5：一个m × n矩阵U具有单位正交列向量的充分必要条件是U^⊺U = I。

定理6：假设U是一个具有单位正交列向量的m × n矩阵，且x和y是ℝⁿ中的向量，那么： a. ‖Ux‖ = ‖x‖ b. (‖Ux‖)(‖Uy‖) = x ⋅ y c. (‖Ux‖)(‖Uy‖) = 0的充要条件是x ⟂ y。这些性质表明：线性映射x ↦ Ux保持长度和正交性。

定理5和定理6表明一个 正交矩阵 就是一个可逆的方阵U,且满足：U^T = U⁻¹。这样的矩阵具有单位正交列，且任何具有单位正交列的方阵是正交矩阵。

正交分解

正交分解定理：若W是ℝⁿ的子空间，那么ℝⁿ中的每一个向量y都可以唯一表示为：

y = ŷ + z

其中ŷ属于W，z属于W^⟂。如果{u₁, u₂, ⋯, u_p}是W的正交基，那么y可以唯一表示为：

$$ \mathbf{y}=\sum_{i=1}^p \frac{\mathbf{y}\cdot\mathbf{u}_i}{\mathbf{u}_i \cdot \mathbf{u}_i} \mathbf{u}_i $$

且z = y − ŷ。式中，ŷ称为 y在W上的正交投影，记作proj_w(y)。

正交投影的性质：如果{u₁, u₂, ⋯, u_p}是W的正交基，且如果y属于W，那么proj_w(y) = y。

最佳逼近定理：假设W是一个ℝⁿ的子空间，y是ℝⁿ中的任意向量，ŷ是y在W上的正交投影，那么ŷ是W上最接近y的点，也就是

‖y − ŷ‖ ≤ ‖y − v‖

对于所有属于W又异于ŷ的向量v成立。

定理7：如果{u₁, u₂, ⋯, u_p}是ℝⁿ中子空间W的单位正交基，那么：

proj_w(y) = (y ⋅ u₁)u₁ + ⋯ + (y ⋅ u_p)u_p

如果U = [u₁ ⋯ u_p],则：

proj_w(y) = UU^Ty, 对所有y ∈ ℝⁿ成立

格拉姆-施密特方法

格拉姆-施密特方法是对ℝⁿ中任何非零子空间构造正交集或标准正交集的简单算法。

步骤：对ℝⁿ中的子空间的一个基{x₁, x₂, ⋯, x_p}，定义：

$$ \mathbf{v}_1=\mathbf{x}_1\\ \mathbf{v}_2=\mathbf{x}_2-\frac{\mathbf{x}_2 \cdot \mathbf{v}_1}{\mathbf{v}_1\cdot\mathbf{v}_1}\mathbf{v}_1\\ \cdots\\ \mathbf{v}_p=\mathbf{x}_p-\frac{\mathbf{x}_p \cdot \mathbf{v}_1}{\mathbf{v}_1\cdot\mathbf{v}_1}\mathbf{v}_1-\frac{\mathbf{x}_p \cdot \mathbf{v}_2}{\mathbf{v}_2\cdot\mathbf{v}_2}\mathbf{v}_2+\cdots-\frac{\mathbf{x}_p \cdot \mathbf{v}_{p-1}}{\mathbf{v}_{p-1}\cdot\mathbf{v}_{p-1}}\mathbf{v}_{p-1} $$

那么{v₁, v₂, ⋯, v_p}就是W的一个正交基，此外

Span{v₁, v₂, ⋯, v_p} = Span{x₁, x₂, ⋯, x_k}, 其中1 ≤ k ≤ p

注意到，如果需要得到一个标准正交基，只需要单位化所有的向量v_k即可。

QR分解：如果m × n矩阵A的列线性无关，A可以分解为A = QR，其中Q是一个m × n的矩阵，其列形成了ColA的一个标准正交基，R是一个n × n的上三角矩阵可逆矩阵且在对角线上的元素为正数。

应用：A的列向量构成ColA的一个基{x₁, x₂, ⋯, x_n},构造W = ColA的一个标准正交基{u₁, u₂, ⋯, u_n}，这个基可以由格拉姆-施密特方法构造。取

Q = [u₁ ⋯ u_n]

对k = 1, 2, ⋯, n，x_k属于Span{x₁, x₂, ⋯, x_k} = Span{u₁, u₂, ⋯, u_k}，所以存在常数r_1k, r_2k, ⋯, r_kk使得：

x_k = r_1ku₁ + ⋯ + r_kku_k + 0 ⋅ u_k + 1 + ⋯ + 0 ⋅ u_n

可以假设r_kk ≥ 0(否则，则对r_kk和u_k都乘以-1)，那这表明x_k是Q的列的线性组合，且其权为

$$ \begin{bmatrix} r_{1k}\\ \vdots\\ r_{kk}\\ 0\\ \vdots\\ 0 \end{bmatrix} $$

即x_k = Qr_k，其中k = 1, 2, ⋯, n。取R = [r₁ ⋯ r_n],那么

A = [x₁ ⋯ x_n] = [Qr₁ ⋯ Qr_n] = QR

注意到，如果Q的列是单位正交向量，则有Q^TA = Q^T(QR) = IR = R

最小二乘法

考虑Ax作为b的一个近似，b和Ax之间的距离越小，‖b − Ax‖近似程度越好。一般的最小二乘问题就是找出使得‖b − Ax‖尽量小的x。

定义：如果m × n矩阵A和向量b属于ℝ^m,则Ax = b的最小二乘解是ℝ中的向量x̂，使得：

‖b − Ax̂‖ ≤ ‖b − Ax‖

对于所有x ∈ ℝⁿ成立。

对于上述问题的A和b，应用最佳逼近定理与子空间ColA 取

b̂ = proj_ColA(b)

由于b̂属于A的列空间，故方程Ax = b̂是相容的且存在一个属于ℝⁿ的x̂使得

Ax̂ = b̂

由于b̂是ColA中最接近b的点，因此一个向量x̂是Ax = b的一个最小二乘解的充分必要条件x̂满足(1)式。这个属于ℝⁿ的x̂是由一系列由A的列构造的b̂的权。

若x̂满足Ax̂ = b̂,则由正交分解定理，投影b̂具有性质b − b̂与ColA正交，即b − Ax̂正交于A的每一列。如果a_j是A的某一列，那么a_j ⋅ (b − Ax̂) = 0且a_j^T ⋅ (b − Ax̂) = 0.由于每一个a_j^T是A^T的行，于是

A^T(b − Ax̂) = 0

于是

A^Tb = A^TAx̂

于是方程(2)表示的线性方程组称为Ax = b的法方程，其解用x̂表示。

定理8：方程Ax = b的最小二乘解集和法方程A^Tb = A^TAx̂的非空解集一致。

定理9：设A是m × n矩阵，则下面的条件是逻辑等价的

对于ℝⁿ中的每个b，方程Ax = b有唯一最小二乘解
A的列是线性无关的
矩阵A^TA是可逆的当上述条件成立时，唯一的最小二乘解x̂可以表示为：

x̂ = (A^TA)⁻¹A^Tb

定理10：给定一个m × n矩阵A，它具有线性无关的列，取A = QR是A的QR分解，那么对于每一个属于ℝⁿ的向量b，方程Ax = b的有唯一的最小二乘解为：

x̂ = R⁻¹Q^Tb

应用

(待续)

内积空间

定义：向量空间V上的内积是一个函数，对每一对属于V的向量u和v，存在一个实数 < u, v>满足下述公理，其中u, v和w都是V中的向量,c是所有数：

< u, v > = < v, u>
< u + v, w > = < u, w > + < v, w>
< cu, v > = c < u, v>
< u, u > ≥ 0且 < u, u > = 0当且仅当u = 0

一个赋予上述内积的向量空间称为内积空间。

长度、距离和正交性

设V是一个内积空间，其内积记作 < u, v>.像ℝⁿ一样，我们定义一个向量v的长度或范数为：

$$ \left \Vert \mathbf{v} \right \Vert=\sqrt{<\mathbf{v},\mathbf{v}>} $$

一个 单位向量是长度为1的向量，向量u和v的距离是‖u − v‖。向量u和向量v正交，如果 < u, v > = 0。

给定内积空间V中的向量v和有限维子空间W，我们可以得到：

‖v‖² = ‖proj_W(v)‖² + ‖v − proj_W(v)‖²

柯西-施瓦茨不等式：对于V中的任意向量v和u，有：

‖ < v, u>‖ ≤ ‖v‖‖u‖

定理11：对属于V的任意向量v和u，有：

‖u + v‖ ≤ ‖u‖ + ‖v‖

对称矩阵与二次型

对称矩阵是一个n × n方阵，满足A_T = A。

定理1：如果A是对称矩阵，那么不同特征空间的任意两个特征向量是正交的。

一个矩阵A称为可正交对角化，如果存在一个正交矩阵P(满足P⁻¹ = P^T)和一个对角矩阵D，使得

A = PDP^T = PDP⁻¹

定理2：一个n × n矩阵A可正交对角化当且仅当A是对称矩阵。

谱定理：矩阵A的特征值的集合称为A的谱。一个对称的n × n矩阵A有如下性质：

A有n个实特征值，包含重复的特征值。
对每一个特征值λ，对应的特征空间的维数等于λ作为特征方程的根的重数。
特征空间相互正交，这种正交性是在特征向量对应于不同特征值的意义下成立的。
A可正交对角化

谱分解

假设A = PDP⁻¹，其中P的列是A的单位正交特征向量{u₁, u₂, ⋯, u_n},且对应的特征值为{λ₁, λ₂, ⋯, λ_n},属于对角矩阵D。由于P^T = P⁻¹，所以:

A = λ₁u₁^Tu₁ + λ₂u₂^Tu₂ + ⋯ + λ_nu_n^Tu_n

将A分解为由A的谱确定的小块，这个A的表示就称为A的谱分解。

二次型

ℝⁿ上的一个二次型是一个定义在ℝⁿ上的函数，它在向量x处的值为可由表达式ℚ(x) = x^TAx给出。A是一个n × n对称矩阵，称为关于二次型的矩阵。

二次型的变量代换：如果x表示ℝⁿ中的一个向量，那么变量代换是如下的形式：

x = Py or x = P⁻¹y

其中P是一个n × n的可逆矩阵。于是对于二次型x^TAx，有：

x^TAx = (Py)^TA(Py) = y^TAP^TPy = y^T(P^TAP)y

新的二次型矩阵变为P^TAP。因为A是对称矩阵，于是存在正交矩阵P使得P^TAP是角矩阵D,于是新的二次型变为y^TDy。

主轴定理：设A是一个n × n对称矩阵，那么存在一个正交变量代换x = Py，它将二次型x^TAx变为不含交叉乘积项的二次型y^TDy。定理中的矩阵P的列称为二次型x^TAx的主轴，向量y是向量x的在这些主轴构造的ℝⁿ中的单位正交基下的坐标向量。

二次型的分类：一个二次型Q是：

正定的,如果对所有x ≠ 0，有Q(x) > 0。
负定的,如果对所有x ≠ 0，有Q(x) < 0。
不定的，如果Q(x)既有正值也有负值。此外，Q被称为半正定的，如果对所有x，有Q(x) ≥ 0；被称为半负定的，如果对所有x，有Q(x) ≤ 0。

定理3：设A是一个n × n对称矩阵，那么一个二次型x^TAx是:

正定的,当且仅当A的所有特征值都是正的。
负定的,当且仅当A的所有特征值都是负的。
不定的,当且仅当A有正的和负的特征值。

对任何对称矩阵A,在‖x‖ = 1的条件下，x^TAx所有可能值的集合是实轴上的闭区间。分别用m和M表示区间的左端点和右端点，即：

m = min{x^TAx : ‖x‖ = 1} and M = max{x^TAx : ‖x‖ = 1}

定理4：设A是一个n × n对称矩阵，那么有M是A的最大特征值λ₁，m是A的最小特征值。如果x是对应于M的单位特征向量u₁，那么x^TAx的值等于M。如果x是对应于m的单位特征向量，那么x^TAx的值等于m。

定理5：设A是一个n × n对称矩阵，在条件：

x^Tx = 1 x^Tu₁ = 0

x^TAx的最大值是第二大特征值λ₂，这个最大值可以在x对应于λ₂的特征向量u₂的条件下得到。

定理6：设A是一个n × n对称矩阵，其可正交对角化为PDP⁻¹，,将对角矩阵D的对角元素重新排列，使得λ₁ ≥ λ₂ ≥ ⋯ ≥ λ_n，那么P的列是其对应的单位特征向量u₁, u₂, ⋯, u_n。那么对k = 2, 3, ⋯, n，在以下条件的的限制下：

x^Tx = 1, x^Tu₁ = 0, ⋯ x^Tu_k = 0

x^TAx的最大值是λ_k，这个最大值可以在x等于λ_k的特征向量u_k的条件下得到。

奇异值分解

并非所有的矩阵都能分解为A = PDP⁻¹,且D是对角的，但分解A = QDP⁻¹对于任意m × n的矩阵A都是可能的，此类分解称为奇异值分解。

令A为m × n矩阵，那么A^TA是对称矩阵且可以正交对角化。令{v₁, v₂, ⋯, v_n}是ℝⁿ中的单位正交基且构成A^TA的特征向量，λ₁, λ₂, ⋯, λ_n是A^TA的特征值。那么对于1 ≤ i ≤ n，有：

$$ \Vert A\mathbf{v}_i \Vert^2=(A\mathbf{v}_i)^T A\mathbf{v}_i=\mathbf{v}_i^T A^TA\mathbf{v}_i\\ =\mathbf{v}_i^T (\lambda_i \mathbf{v}_i)\\ =\lambda_i $$

所以A^TA的特征值都非负，假设所有的特征值重新排列为满足：

λ₁ ≥ λ₂ ≥ ⋯ ≥ λ_n

则A的奇异值就是A^TA的特征值的平方根，记作σ₁, σ₂, ⋯, σ_n递减排列。A的奇异值就是向量Av₁, v₂, ⋯, v_n的长度。

定理7：假若{v₁, v₂, ⋯, v_n}是包含A^TA的特征向量的ℝⁿ中的单位正交基，重新整理使得对应的特征值满足λ₁ ≥ λ₂ ≥ ⋯ ≥ λ_n.假若A有r个非零奇异值，那么{Av₁, Av₂, ⋯, Av_n}是ColA的一个正交基，且rankA = r.

矩阵A的分解涉及到一个m × n的“对角”矩阵Σ,其形式为：

$$ \Sigma = \begin{bmatrix} D & 0 \\ 0 & 0 \end{bmatrix} $$

其中D是一个r × r的对角矩阵，且r不超过m和n中的较小值。（如果r=m或r=n或都相等，则M中不会出现零矩阵。）

定理8：设A是一个秩为r的m × n矩阵，那么存在一个m × r矩阵Σ其中D的对角元素是A的前r个奇异值,σ₁ ≥ σ₂ ≥ ⋯ ≥ σ_r > 0,并且存在一个m × m的正交矩阵U和一个n × n的正交矩阵V，满足：

A = UΣV^T

这样一个分解中的U的列称为A的左奇异向量，而V的列称为A的右奇异向量。

可逆矩阵定理：设A是一个n × n矩阵，那么下述命题中每一个都与A是可逆矩阵等价：

(ColA)^⟂ = {0}
(NulA)^⟂ = ℝⁿ
RowA = ℝⁿ
A有n个非零的奇异值

伪逆

取r = rankA,那么将U和V矩阵分块为第一块包含r列的子矩阵，于是有。

$$ A=[U_r \quad U_{m-r}] \begin{bmatrix} D & 0 \\ 0 & 0 \end{bmatrix}\begin{bmatrix} V_r^T \\ V_{n-r}^T \end{bmatrix}=U_rD V_r^T $$

称为A的简化奇异值分解，由于D的对角线元素非零，因此D是可逆矩阵。矩阵A的伪逆为：

A⁺ = V_rD⁻¹U_r^T

数学

#线性代数

RAG概述——原理和实现上一篇

集合通信下一篇