线性代数及其应用
笔记
本文是临近夏令营,简单地复习了一下线性代数方面相关的内容,果然重学了一遍才知道当初什么都没学懂!之后还会更新一些进阶的内容,希望我能记得起来。 ## 线性代数及其应用
线性方程组
线性方程式形如a1x1 + a2x2 + ⋯ + anxn = b的式子,其中ai为系数,xi为未知数,b为常数。
一个线性方程组则为:
$$ \begin{cases} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n&=b_1\\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n&=b_2\\ \vdots \\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n&=b_m \end{cases} $$
其中m为方程个数,n为未知数个数。
线性方程组的解只有三种情况:
- 无解
- 唯一解
- 无穷多解
注意到:一个线性方程组是相容的,指的若它有一个解或者无穷多解;而一个方程组是不相容的,指的若它无解。
矩阵乘法
线性方程组可以用矩阵形式表示:
$$ \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_m \end{bmatrix} $$
其中,这个线性方程组的增广矩阵形式为:
$$ \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} & b_1\\ a_{21} & a_{22} & \cdots & a_{2n} & b_2\\ \vdots & \vdots & \ddots & \vdots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} & b_m \end{bmatrix} $$
矩阵的维数指的是矩阵的行数和列数。
求解线性方程组
基本方法:
- 初等行变换
- (倍加变换)把某一行换成它本身与另一行的倍数的和。
- (倍乘变换)把某一行乘以一个非零常数。
- (对换变换)把某两行互换位置。
如果两个矩阵是行等价的,那么其中某一个矩阵可以通过一系列初等行变换变换成另一个矩阵。
初等行变换是可逆的!
推论:若两个线性方程组的增广矩阵是行等价的,则它们的解集相同。
注意: 线性方程组的两个基本问题:存在和唯一性
存在与唯一性定理:
线性方程组相容的充要条件是增广矩阵的最右列不是主元列,就是说增广矩阵没有形如
[ 0 ... 0 b] b!= 0
的行,若线性方程组相容它的解集有两种情况:
(i)当没有自由变量时,有唯一解;
(ii)当至少有一个自由变量时,有无穷多解。
向量方程
仅含一列的矩阵称为列向量,仅含一行的矩阵称为行向量(简称向量)。
向量的加法:
$$ \begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} + \begin{bmatrix} b_1\\ b_2\\ \vdots \\ b_n \end{bmatrix} = \begin{bmatrix} a_1+b_1\\ a_2+b_2\\ \vdots \\ a_n+b_n \end{bmatrix} $$
向量的数乘(标量乘法):
$$ c\begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} = \begin{bmatrix} ca_1\\ ca_2\\ \vdots \\ ca_n \end{bmatrix} $$
向量的内积:
$$ \begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} \cdot \begin{bmatrix} b_1\\ b_2\\ \vdots \\ b_n \end{bmatrix} = \sum_{i=1}^n a_ib_i $$
线性组合:
给定Rn中的向量 v1, v2, ⋯, vn,以及相应的系数 c1, c2, ⋯, cn,则:
y = c1v1 + c2v2 + ⋯ + cnvn
称为向量 v1, v2, ⋯, vn 以系数 c1, c2, ⋯, cn 为权的的线性组合,其中 y 是 Rn 中的一个向量。
向量方程:
向量方程:
a1x1 + a2x2 + ⋯ + anxn = b
和增广矩阵
$$ \begin{bmatrix} \mathbf{a_1} & \mathbf{a_2} & \cdots & \mathbf{a_n} & \mathbf{b} \end{bmatrix} $$
的线性方程组具有相同的解集,其中b可以看作是a1, a2, ⋯, an的线性组合,当且仅当线性方程组有解。
给定Rn中的向量 v1, v2, ⋯, vn,则v1, v2, ⋯, vn的所有线性组合构成了Rn中的一个向量空间,记作𝒱,也可表示为Span{v1, v2, ⋯, vn}。 即形如:
a1c1 + a2c2 + ⋯ + ancn
的向量的集合,其中c1, c2, ⋯, cn为标量。
线性方程Ax=b
若A是m行n列的矩阵,它的各列为a1, a2, ⋯, an,x是Rn中的列向量,则A与x的乘积就是A的各列以x中对应元素为权的线性组合。
$$ \mathbf{A}\mathbf{x}= \begin{bmatrix} \mathbf{a}_1 & \mathbf{a}_2 & \cdots & \mathbf{a}_n \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{bmatrix} = \begin{bmatrix} \mathbf{a}_1 x_1+\mathbf{a}_2 x_2+\cdots+\mathbf{a}_n x_n \end{bmatrix} $$
注意:当且仅当 Ax 中A的列数等于x的维数时,才有定义
方程Ax=b有解当且仅当b是A的各列行向量的线性组合。
性质: 若A是m行n列的矩阵,u和v是Rn中的向量,c是标量,则:
- A(u + v) = Au + Av
- A(cu) = cAu
齐次线性方程组
齐次线性方程组:
线性方程组称为齐次的,当前仅当它可以写为:Ax = 0的形式,其中A是m行n列的矩阵,x是Rn中的列向量,0是Rm中的零向量。这样的方程组至少有一个解,即x = 0。更重要的是我们需要知道它是否有非平凡解
齐次线性方程组有非平凡解当且仅当方程至少含有一个自由变量。
参数表示的非齐次线性方程组的解
设方程Ax = b对某个b是相容的,p是一个特解,则Ax = b的解集可以表示为: w = p + vh,其中vh是齐次方程Ax = 0的任意一个解。
说明若Ax = b有解,则解集可由Ax = 0的解平移向量p得到。
线性无关
Rn中一组向量{v1, v2, ⋯, vn}线性无关,若向量方程
x1v1 + x2v2 + ⋯ + xnvn = 0
仅有平凡解。若为线性相关的,则存在不全为0的权{c1, c2, ⋯, cn}使得
c1v1 + c2v2 + ⋯ + cnvn = 0
线性相关的特征
两个或更多向量的集合S = {v1, v2, ⋯, vn}线性相关,当且仅当S中至少有一个向量是其他向量的线性组合,事实上,若S线性相关,且v1 ≠ 0,则某个vj(j > 1)是它前面几个向量{v1, v2, ⋯, vj − 1}的线性组合。
定理:若一个向量组的向量个数超过每个向量元素的个数,则该向量组线性相关。
定理:若向量组S里包含零向量,则S线性相关。
线性变换
变换T是线性的,若:
- 对T的定义域中的一切u和v,都有T(u + v) = T(u) + T(v)
- 对一切的标量c和向量u,都有T(cu) = cT(u)
线性变换的矩阵
设T是Rn到Rm的线性变换,T的矩阵形式为A,则:
T(x) = Ax
对一切Rn中的向量x,都有T(x)是Rm中的向量。事实上,A是m × n矩阵,它的第i行是T(ei),其中ei是单位矩阵In中的第i列。 即:
A = [T(e1), T(e2), …, T(en)]
矩阵代数
设A和B为m × n矩阵,则有如下的结果:
1、(AT)T = A,即AT的转置等于A 2、(AB)T = BTAT,即AB的转置等于BTAT 3、(A + B)T = AT + BT,即(A + B)的转置等于AT + BT
可逆矩阵
设A为m × n矩阵,如果存在非零元素的n × n矩阵B,使得AB = BA = In,则称A为可逆矩阵。不可逆矩阵也称为奇异矩阵。
对于二阶矩阵$\begin{bmatrix}a & b\\c & d \end{bmatrix}$的逆矩阵,有:
$$ A^{-1}=\frac{1}{ad-bc}\begin{bmatrix} d & -b\\ -c & a \end{bmatrix} $$
其中,若ad − bc ≠ 0,则A为可逆矩阵;若ad − bc = 0,则A为奇异矩阵。
如果一个维度为n × n的矩阵A可逆,则对Rn中任一向量b,方程Ax = b的解x也可唯一确定,解为:
$$ \mathbf{x}=\begin{bmatrix} A^{-1} \end{bmatrix}\mathbf{b} $$
可逆矩阵定理:
1、对于任意数r,有(rA)T = rAT 2、(AT)−1 = (A−1)T 3、(AB)−1 = B−1A−1,即(AB)−1等于B−1A−1。
初等变换与矩阵求逆
初等变换是指将单位矩阵进行一次初等行变换。行变换是可逆的,因此得到的初等矩阵也是可逆的,并且有初等矩阵E的逆是一个同类型的初等矩阵,它将矩阵E变换到单位阵。
定理:nxn的矩阵A可逆,当且仅当A行等价于单位阵I,此时,把A变为单位阵的一系列初等行变换同时把单位阵I变为矩阵A的逆矩阵。
求逆矩阵的算法
将矩阵A和单位阵I排在一起写为增广矩阵的形式$\begin{bmatrix}A & I \end{bmatrix}$,对增广矩阵进行行变换时,A与I同时进行同一变换,那么如果有一系列的初等行变换将A变换到单位阵,那么I将变换得到矩阵A−1,否则A没有逆矩阵。
注意:更有实际意义的一个观点是,将增广矩阵$\begin{bmatrix}A & I \end{bmatrix}$变换为$\begin{bmatrix}I & A^{-1} \end{bmatrix}$实际上是在解n个方程组:
Ax = e1, Ax = e2, ..., Ax = en
其中ei是n维单位向量。 实际应用中并不需要求解所有方程组,只需要求解需要的Ax = ei的解即可。
矩阵的因式分解
LU分解
设矩阵A为m × n矩阵,A = LU,其中L为m × m单位下三角矩阵,U为m × n为与A等价的阶梯型矩阵。LU分解是用来求解线性方程组的一种方法。当矩阵A = LU时,方程组Ax = b可写为L(Ux) = L(y),即转换为求解两个方程组:
Ly = b
Ux = y
这两个方程都很容易求解,因为它们都是三角矩阵。
LU分解的步骤: 设A可以仅用行倍加变换化简为阶梯型矩阵U。即存在一系列单位下三角初等矩阵E1, E2, ..., Ep,使得Ep⋯E1A = U。于是,A = (Ep⋯E1)−1U = LU. 其中L = (Ep⋯E1)−1
有意思的是,我们需要注意到,将A转换成U的一系列行变换,同时也将L转换成I。这是因为,Ep⋯E1A = U,因此,Ep⋯E1L = I。那么显然,因为U的下三角部分均为0,I的下三角部分也均为0,因此L的下三角部分其实为A的下三角部分除以其对应主元列元素的结果。
子空间
定义:Rn中的子空间是指,Rn中的集合H,满足:
- H中任意两个向量x, y ∈ H,x + y ∈ H
- x ∈ H,λx ∈ H (λ ∈ R)
- 零向量0 ∈ H
子空间的性质: 1.矩阵A的列空间Col(A)是指A的列向量各线性组合构成的集合。且是矩阵A的主元列向量构成的集合。 2.矩阵A的零空间Nul(A)是指A的零空间,即Ax = 0的解x构成的集合。且是矩阵A的自由变量构成的集合。
子空间的基
设H为Rn中的子空间,H的基是指H中向量的集合B,使得H = Span{b1, b2, ⋯, bk},其中b1, b2, ⋯, bk是H中的线性无关向量。
维数与秩
坐标系
假设B = {b1, b2, ⋯, bk}是H的一个基,对H中的每一个向量x,可以用基B中的向量{b1, b2, ⋯, bk}的坐标表示:
$$ \mathbf{x}=\sum_{i=1}^k \alpha_i\mathbf{b}_i $$
其中α1, α2, ⋯, αk是x在基B中的坐标。
维数
非零子空间H的维数是指,用dim(H)表示,是指H中任意一个基的向量的个数。
秩
矩阵A的秩,记作rank(A),是指A列空间的维数。
如果一矩阵A有n列,则n = rank(A) + dim(Nul(A))。
秩与可逆矩阵定理: 如果一个矩阵A可逆,则有:
- rank(A) = n
- A的列向量构成一个Rn的基.
- Col(A) = Rn
- Nul(A) = {0}
- dim(Col(A)) = n
- dim(Nul(A)) = 0
行列式
定义:当n ≥ 2时,n × n矩阵A的行列式det(A)是形如+ − a1jdetA1j的n个项的和,其中加减号在交替出现,其中元素a1j是A的第1行第j列元素。
$$ detA = a_{11}detA_{11} - a_{12}detA_{12} + a_{13}detA_{13} - \cdots + (-1)^{n+1}a_{1n}detA_{1n}\\ = \sum_{j=1}^n (-1)^{j+1}a_{1j}detA_{1j} $$
余因子展开式:A的(i, j)余因子Cij由下式给出:
Cij = (−1)i + jdetAij
于是有,
$$ detA = \sum_{j=1}^n a_{1j}C_{1j} $$
行列式的性质
行变换定理:若A是n阶方阵,
- 若A的第i行与第j行交换,则detA的符号改变;
- 若A的某一行的倍数加到另一行得到矩阵B,则detA = detB。
- 若A的某行乘以倍数k得到矩阵B,则detB = k ⋅ detA。
定理:若A 为三角阵,则detA等于A的主对角线上元素的乘积。
计算行列式可以将其化为三角矩阵来进行求解。
转置: 方阵A的转置的行列式等于A的行列式。即det(AT) = detA。
乘法: 若方阵A与B均为n × n矩阵,则detAB = detA ⋅ detB。
克拉默法则
定义对任意n × n矩阵A和Rn中的向量b,Ai(b)*表示A中第i列由向量b替换得到的矩阵。
Ai(b) = [a1⋯b⋯an]
克拉默法则: 设A是一个可逆的n × n矩阵,b是一个n维向量,方程Ax = b的唯一解x存在,可由下式给出:
$$ x_i = \frac{detA_i(\mathbf{b})}{detA},i=1,2,\cdots,n $$
逆矩阵公式:
$$ A^{-1} = \frac{1}{detA}\begin{bmatrix} C_{11} & C_{21} & \cdots & C_{n1}\\ C_{12} & C_{22} & \cdots & C_{n2}\\ \vdots & \vdots & \ddots & \vdots\\ C_{1n} & C_{2n} & \cdots & C_{nn} \end{bmatrix} $$
其中Cij是A的(i, j)余因子,所构成的矩阵称为伴随矩阵,记作adjA。
向量空间与子空间
向量空间的定义: 一个向量空间是由一些被称为向量的对象构成的非空集合V,以及两个运算:
- 加法:v, w ∈ V,v + w ∈ V
- 标量乘法:α ∈ R, v ∈ V,αv ∈ V并且有以下公理:
- u + v = v + u
- (u + v) + w = u + (v + w)
- V中存在一个零向量0,使得∀v ∈ V, v + 0 = v。
- 对每一个v ∈ V,存在一个负向量−v,使得v + −v = 0。
- c(v + w) = cv + cw
- (a + b)v = av + bv
- c(dv) = (cd)v
- 1v = v
子空间
定义:设V是一个向量空间,H ⊂ V,如果H是一个子空间如果满足以下三个性质: a. H中存在一个零向量0 b. H对向量加法封闭,即∀v ∈ H, ∀w ∈ H, v + w ∈ H c. H对标量乘法封闭,即∀α ∈ R, ∀v ∈ H, αv ∈ H
定理:若v1, v2, ⋯, vn是V中的向量,则Span{v1, v2, ⋯, vn}是V的一个子空间。
矩阵的零空间
定义:设A是一个m × n矩阵,v ∈ Rn,则Av = 0的解集称为矩阵A的零空间。表示为:
Nul(A) = {v ∈ Rn : Av = 0}
定理:A是一个m × n矩阵,则Nul(A)是Rn的一个子空间。等价地说,m个方程,n个未知数的齐次线性方程组Ax = 0的解集是Rn的一个子空间。
列空间
定义:设A是一个m × n矩阵,则A的列的所有线性组合组成的集合是A的列空间,记作Col(A) = Span{a1, a2, ⋯, an}。
定理:A是一个m × n矩阵,则Col(A)是Rm的一个子空间。 注意到,Col(A)可以写为
Col(A) = {b : b = Ax, x ∈ Rn}, x为某向量。
线性变换的核与值域
定义:设T : V → W是一个线性变换,它将V中的每个向量v映射到W中的一个向量唯一向量w = T(v),并且满足:
- T(u + v) = T(u) + T(v)
- T(αv) = αT(v), 对所有α ∈ R和∀v ∈ V均成立。
线性变换T的核(kernel): 设T : V → W是一个线性变换,则线性变换T的核是V中所有满足T(v) = 0的向量的集合。记作ker(T)。T的值域是W中所有具有形式T(v)(∀v ∈ V)的向量的集合。
如果一个线性变换T是由一个矩阵变换得到的,即T(x) = Ax,则T的值域与核恰好是A的列空间核与零空间。
基
定义:设V是一个向量空间,令H是向量空间V的一个子空间,V中向量的指标集B = {b1, b2, ⋯, bm}称为H的一个基,如果有:
- B是一个线性无关集。
- 由B生成的子空间与H相同。
定理:矩阵A的主元列构成了A的列空间的基。
生成集定理: 令S = {v1, v2, ⋯, vn}是V中的向量集,且有H = Span{v1, v2, ⋯, vn} a. 若S中的某一个向量vk,是S其余向量的线性组合,则S去掉vk后形成的集合仍然能够生成H。 b. 若H ≠ {0},则S的某一子集是H的一个基。
坐标系
对于向量空间V中的一组基B = {b1, b2, ⋯, bn},则对V中的每个向量x,可以用基B中的元素表示为:
$$ \mathbf{x} = \sum_{i=1}^n a_i\mathbf{b_i} $$
于是,定义x相对于基B的坐标是使得$\mathbf{x}=\sum_{i=1}^n a_i\mathbf{b_i}$的权a1, a2, ⋯, an。记作
$$ [\mathbf{x}]_B = \begin{bmatrix} a_1\\ a_2\\ \vdots\\ a_n \end{bmatrix} $$
令
PB = [b1, b2, ⋯, bn]
则x = a1b1 + a2b2 + ⋯ + anbn等价于x = PB[x]B.称PB为从B到Rn的坐标变换矩阵。
向量空间的维数
若向量空间V中存在一组基{b1, b2, ⋯, bn},则V中任意包含多于n个向量的集合一定线性相关。
定理:若向量空间V是由一个有限集生成的,则称V为有限维的,其维数写为dim(V)。是指V的基中含有向量的个数。零向量空间 {0} 的维数定义为0。反之,如果V不是由一有限集生成,那么其称为无穷维的。
定理:令H为V的一个子空间,则H中任意一个线性无关集均可以扩充为H的一个基,H也是有限维的,且有:
dim(H) ≤ dim(V)
NulA的维数是方程Ax=0中自由变量的个数,ColA的维数是A中主元列的个数。
秩
定理:若两个矩阵A和B行等价,则它们的行空间相同。若B为阶梯型矩阵,则B的非零行构成A的行空间的一个基的同时也构成了B的行空间的一个基。
A的秩即为A的列空间的维数。
秩定理:设A为m × n矩阵,A的行空间与列空间的维数相等,这个维数称为A的秩,还等于A的主元位置的个数且满足:
rank(A) + dim(NulA) = n
秩与可逆矩阵定理:设A为n × n矩阵,如果A是可逆矩阵,则有:
- A的列构成Rn的一个基。
- ColA = Rn
- dimColA = n
- rank(A) = n
- NulA = {0}
- dim(NulA) = 0
注意到:A的行空间是AT的列空间,又A可逆当且仅当AT可逆。,所以对上述一系列判读可逆矩阵同样适用于AT。
基变换
设B = {b1, b2, ⋯, bn}与C = {c1, c2, ⋯, cn}是向量空间V的两个基,则存在一个n × n矩阵P,使得:
[x]C = P[x]B
且,P的列是基B中向量的C − 坐标向量,即:
$$ P = \begin{bmatrix} [\mathbf{b_1}]_C, [\mathbf{b_2}]_C, \cdots [\mathbf{b_n}]_C \end{bmatrix} $$
若B = {b1, b2, ⋯, bn},E是Rn的标准基{e1, e2, ⋯, en},则[b1]E = b1,B中的其他向量也类似,引入坐标变换矩阵PE ← B,则其与PB等价。
马尔科夫链的矩阵形式
定义: 概率向量:一个具有非负分量,且各分量的数值相加等于1的向量称为概率向量。 概率矩阵:随机矩阵是指各列向量都是概率向量的矩阵。 马尔科夫链:一个马尔科夫链是一个概率向量序列x1, x2, ⋯, xn和一个随机转移矩阵P,满足:
xi = Pxi − 1, i = 2, 3, ⋯, n0
xk中的数值分别列出来一个系统在n各可能状态下的概率,或者实验结果是n个可能概率之一的概率。因此,xk通常被称为状态向量。
稳态向量:若P是一个随机矩阵,则相对于P的稳态向量是一个满足:
Pq = q
的概率向量q。每一个随机矩阵都有一个稳态向量。
定理:若P是一个n × n正规的随机矩阵,则P具有唯一的稳态向量q.进一步的,如果x0是任一个起始状态,且有xk + 1 = Pxk, k = 0, 1, ⋯,则当k → ∞时,马尔科夫链{xk}收敛到稳态向量q.
特征值与特征向量
定义:A为n × n矩阵,x为非零向量,若存在数λ使得Ax = λx成立,则称λ为A的特征值,x称为对应于λ的特征向量。
定理:三角矩阵的主对角线元素是特征值。
注意:λ是A的特征值当且仅当
(A − λI)x = 0
定理:λ1, ⋯, λr是n × n矩阵A相异的特征值,v1, ⋯, vr是与λ1, ⋯, λr对应的特征向量,那么向量集合{v1, ⋯, vr}线性无关。
特征方程
求解特征方程是指,找出所有的λ,使得Ax = λx成立。等价于要求出所有的λ,使得矩阵A − λI为不可逆矩阵。
行列式与特征方程:设A为n × n矩阵,则A是可逆的当且仅当 1.0不是A的特征值。 2.A的行列式不为0。
行列式的性质
设A和B为n × n矩阵,则: a. A可逆的充分必要条件是A的行列式不为0。 b. det(AB) = det(A)det(B) c. detAT = detA d.若A是三角矩阵,那么detA是A的主对角线元素的乘积。 e.对A作行替换不改变院行列式的值,做一次行交换使其行列式值的符号改变一次。数乘一行后,行列式的值等于用此数乘原来的行列式。
定理:数λ是n × n矩阵A的特征值的充分必要条件是λ是特征方程det(A − λI) = 0的根。
相似性
设A和B为n × n矩阵,如果存在可逆矩阵P,使得P−1AP = B,或者等价地A = PBP−1,则称A相似于B。记Q = P−1,则有Q−1BQ = A,即B也相似于A。把A变为P−1AP的变换称为相似变换。
定理:如果n × n矩阵A与B是相似的,那么它们有相同的特征多项式,从而有相同的特征值。
对角化
如果n × n矩阵A相似于对角矩阵,即存在可逆矩阵P和对角矩阵D,有A = P−1DP,则称A为可对角化矩阵。
定理:如果n × n矩阵A可对角化可对角化的充分必要条件是A有n个线性无关的特征向量。事实上,A = P−1DP,D为对角矩阵的充分必要条件是P的列向量是A的n个线性无关的特征向量。此时,D中对角线上的元素分别是A的对应于P中特征向量的特征值。
注意到,A可对角化也就是说有足够的特征向量形成Rn的一个基,我们称这组基为特征向量基。
定理:有n个相异特征值的n × n矩阵可对角化。(是充分的,但不是充要的)
微分方程中的应用
(待续)
正交性和最小二乘法
向量的长度:向量 v的长度(范数)是非负数||v||,定义为:
$$ ||\mathbf{v}||=\sqrt{\mathbf{v} \cdot \mathbf{v}}=\sqrt{\sum_{i=1}^n v_i^2} 且 ||\mathbf{v}||^2 = \mathbf{v} \cdot \mathbf{v} $$
对于任意数c ∈ ℝ,有:
c||v|| = |c|‖v‖
长度为1的向量称为单位向量,如果把一个非零向量除以自身长度,即乘以1/||v||,那么得到的向量就是单位向量,这称为向量v的单位化。
ℝn空间中的向量v和w的距离,记作dist(v, w),定义为:
$$ dist(\mathbf{v},\mathbf{w})=\left \Vert \mathbf{v}-\mathbf{w} \right \Vert = \sqrt{(\mathbf{v}-\mathbf{w}) \cdot (\mathbf{v}-\mathbf{w})} $$
正交向量
如果向量v ⋅ w = 0,则称v和w是相互正交的,记作v ⟂ w。
毕达哥斯拉定理:两个向量v和w相互正交的充要条件是‖v + w‖2 = ‖v‖2 + ‖w‖2。
正交补
如果向量z与ℝn的子空间W中的任意向量都正交,则称z正交于W。那么与子空间W正交的向量z的集合称为W的正交补,记作W⟂。
定理1:
- 向量x属于W⟂的充分必要条件是向量x与生成空间W中任一向量w都不正交。
- W⟂是ℝn的一个子空间。
定理2:假设矩阵A是m × n的矩阵,那么A的行向量空间的正交补空间是A的零空间,且A的列向量空间的正交补是A⊺的零空间:
(RowA)⟂ = Nul(A) 且 (ColA)⟂ = Nul(AT)
正交集
ℝn中的向量集合{v1, v2, ⋯, vk}称为正交向量集,如果集合中任意两个不同的向量都正交,即当i ≠ j时,有vi ⟂ vj。
定理3:如果S = {u1, u2, ⋯, uk}是ℝn中的非零向量构成的正交向量集,那么S是线性无关集,因此构成所生成子空间S的一组基。
定理4:假设{u1, u2, ⋯, up}是ℝ中子空间𝕎的正交基,则对𝕎中的每个向量y,线性组合y = c1u1 + c2u2 + ⋯ + cpup的系数c1, c2, ⋯, cp中的权值可以由$c_j=\frac{\mathbf{y} \cdot \mathbf{u}_j}{\mathbf{u}_j \cdot \mathbf{u}_j} \quad (j=1,2,\cdots,p)$给出。
正交投影
考虑ℝn中的一个向量y分解为两个向量之和的问题,一个向量是u的数量乘积,另一个向量与u垂直,其中向量u是给定的。写为:
y = ŷ + z
其中,$\mathbf{\hat{y}}=\alpha \mathbf{u} \quad \alpha是个数$,z是一个垂直于u的向量。
可以求得, $\alpha = \frac{\mathbf{y} \cdot \mathbf{u}}{\mathbf{u} \cdot \mathbf{u}}$ $\mathbf{\hat{y}}=\frac{\mathbf{y}\cdot\mathbf{u}}{\mathbf{u} \cdot \mathbf{u}} \cdot \mathbf{u}$。 称向量ŷ是y在u上的正交投影,而向量z是y垂直u的分量。
例子:对于向量空间W = ℝ2 = Span{u1, u2},u1, u2相互正交,那么对于任意ℝ2中的向量y,都有:
$$ \mathbf{y}=\frac{\mathbf{y}\cdot\mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1} \cdot \mathbf{u}_1+\frac{\mathbf{y}\cdot\mathbf{u}_2}{\mathbf{u}_2 \cdot \mathbf{u}_2} \cdot \mathbf{u}_2 $$
单位正交集
集合{u1, ⋯, un}是一个单位正交集,如果它们是由单位向量构成的正交集。如果W是一个由单位正交集组成的子空间,那么{u1, ⋯, un}是W的单位正交基,因为这类集合自然线性无关。
定理5:一个m × n矩阵U具有单位正交列向量的充分必要条件是U⊺U = I。
定理6:假设U是一个具有单位正交列向量的m × n矩阵,且x和y是ℝn中的向量,那么: a. ‖Ux‖ = ‖x‖ b. (‖Ux‖)(‖Uy‖) = x ⋅ y c. (‖Ux‖)(‖Uy‖) = 0的充要条件是x ⟂ y。 这些性质表明:线性映射x ↦ Ux保持长度和正交性。
定理5和定理6表明一个 正交矩阵 就是一个可逆的方阵U,且满足:UT = U−1。这样的矩阵具有单位正交列,且任何具有单位正交列的方阵是正交矩阵。
正交分解
正交分解定理:若W是ℝn的子空间,那么ℝn中的每一个向量y都可以唯一表示为:
y = ŷ + z
其中ŷ属于W,z属于W⟂。如果{u1, u2, ⋯, up}是W的正交基,那么y可以唯一表示为:
$$ \mathbf{y}=\sum_{i=1}^p \frac{\mathbf{y}\cdot\mathbf{u}_i}{\mathbf{u}_i \cdot \mathbf{u}_i} \mathbf{u}_i $$
且z = y − ŷ。式中,ŷ称为 y在W上的正交投影,记作projw(y)。
正交投影的性质:如果{u1, u2, ⋯, up}是W的正交基,且如果y属于W,那么projw(y) = y。
最佳逼近定理:假设W是一个ℝn的子空间,y是ℝn中的任意向量,ŷ是y在W上的正交投影,那么ŷ是W上最接近y的点,也就是
‖y − ŷ‖ ≤ ‖y − v‖
对于所有属于W又异于ŷ的向量v成立。
定理7:如果{u1, u2, ⋯, up}是ℝn中子空间W的单位正交基,那么:
projw(y) = (y ⋅ u1)u1 + ⋯ + (y ⋅ up)up
如果U = [u1 ⋯ up],则:
projw(y) = UUTy, 对所有y ∈ ℝn成立
格拉姆-施密特方法
格拉姆-施密特方法是对ℝn中任何非零子空间构造正交集或标准正交集的简单算法。
步骤: 对ℝn中的子空间的一个基{x1, x2, ⋯, xp},定义:
$$ \mathbf{v}_1=\mathbf{x}_1\\ \mathbf{v}_2=\mathbf{x}_2-\frac{\mathbf{x}_2 \cdot \mathbf{v}_1}{\mathbf{v}_1\cdot\mathbf{v}_1}\mathbf{v}_1\\ \cdots\\ \mathbf{v}_p=\mathbf{x}_p-\frac{\mathbf{x}_p \cdot \mathbf{v}_1}{\mathbf{v}_1\cdot\mathbf{v}_1}\mathbf{v}_1-\frac{\mathbf{x}_p \cdot \mathbf{v}_2}{\mathbf{v}_2\cdot\mathbf{v}_2}\mathbf{v}_2+\cdots-\frac{\mathbf{x}_p \cdot \mathbf{v}_{p-1}}{\mathbf{v}_{p-1}\cdot\mathbf{v}_{p-1}}\mathbf{v}_{p-1} $$
那么{v1, v2, ⋯, vp}就是W的一个正交基,此外
Span{v1, v2, ⋯, vp} = Span{x1, x2, ⋯, xk}, 其中1 ≤ k ≤ p
注意到,如果需要得到一个标准正交基,只需要单位化所有的向量vk即可。
QR分解:如果m × n矩阵A的列线性无关,A可以分解为A = QR,其中Q是一个m × n的矩阵,其列形成了ColA的一个标准正交基,R是一个n × n的上三角矩阵可逆矩阵且在对角线上的元素为正数。
应用:A的列向量构成ColA的一个基{x1, x2, ⋯, xn},构造W = ColA的一个标准正交基{u1, u2, ⋯, un},这个基可以由格拉姆-施密特方法构造。 取
Q = [u1 ⋯ un]
对k = 1, 2, ⋯, n,xk属于Span{x1, x2, ⋯, xk} = Span{u1, u2, ⋯, uk},所以存在常数r1k, r2k, ⋯, rkk使得:
xk = r1ku1 + ⋯ + rkkuk + 0 ⋅ uk + 1 + ⋯ + 0 ⋅ un
可以假设rkk ≥ 0(否则,则对rkk和uk都乘以-1),那这表明xk是Q的列的线性组合,且其权为
$$ \begin{bmatrix} r_{1k}\\ \vdots\\ r_{kk}\\ 0\\ \vdots\\ 0 \end{bmatrix} $$
即xk = Qrk,其中k = 1, 2, ⋯, n。取R = [r1 ⋯ rn],那么
A = [x1 ⋯ xn] = [Qr1 ⋯ Qrn] = QR
注意到,如果Q的列是单位正交向量,则有QTA = QT(QR) = IR = R
最小二乘法
考虑Ax作为b的一个近似,b和Ax之间的距离越小,‖b − Ax‖近似程度越好。一般的最小二乘问题就是找出使得‖b − Ax‖尽量小的x。
定义:如果m × n矩阵A和向量b属于ℝm,则Ax = b的最小二乘解是ℝ中的向量x̂,使得:
‖b − Ax̂‖ ≤ ‖b − Ax‖
对于所有x ∈ ℝn成立。
对于上述问题的A和b,应用最佳逼近定理与子空间ColA 取
b̂ = projColA(b)
由于b̂属于A的列空间,故方程Ax = b̂是相容的且存在一个属于ℝn的x̂使得
Ax̂ = b̂
由于b̂是ColA中最接近b的点,因此一个向量x̂是Ax = b的一个最小二乘解的充分必要条件x̂满足(1)式。这个属于ℝn的x̂是由一系列由A的列构造的b̂的权。
若x̂满足Ax̂ = b̂,则由正交分解定理,投影b̂具有性质b − b̂与ColA正交,即b − Ax̂正交于A的每一列。如果aj是A的某一列,那么aj ⋅ (b − Ax̂) = 0且ajT ⋅ (b − Ax̂) = 0.由于每一个ajT是AT的行,于是
AT(b − Ax̂) = 0
于是
ATb = ATAx̂
于是方程(2)表示的线性方程组称为Ax = b的法方程,其解用x̂表示。
定理8:方程Ax = b的最小二乘解集和法方程ATb = ATAx̂的非空解集一致。
定理9:设A是m × n矩阵,则下面的条件是逻辑等价的
- 对于ℝn中的每个b,方程Ax = b有唯一最小二乘解
- A的列是线性无关的
- 矩阵ATA是可逆的 当上述条件成立时,唯一的最小二乘解x̂可以表示为:
x̂ = (ATA)−1ATb
定理10:给定一个m × n矩阵A,它具有线性无关的列,取A = QR是A的QR分解,那么对于每一个属于ℝn的向量b,方程Ax = b的有唯一的最小二乘解为:
x̂ = R−1QTb
应用
(待续)
内积空间
定义:向量空间V上的内积是一个函数,对每一对属于V的向量u和v,存在一个实数 < u, v>满足下述公理,其中u, v和w都是V中的向量,c是所有数:
- < u, v > = < v, u>
- < u + v, w > = < u, w > + < v, w>
- < cu, v > = c < u, v>
- < u, u > ≥ 0且 < u, u > = 0当且仅当u = 0
一个赋予上述内积的向量空间称为内积空间。
长度、距离和正交性
设V是一个内积空间,其内积记作 < u, v>.像ℝn一样,我们定义一个向量v的长度或范数为:
$$ \left \Vert \mathbf{v} \right \Vert=\sqrt{<\mathbf{v},\mathbf{v}>} $$
一个 单位向量是长度为1的向量,向量u和v的距离是‖u − v‖。向量u和向量v正交,如果 < u, v > = 0。
给定内积空间V中的向量v和有限维子空间W,我们可以得到:
‖v‖2 = ‖projW(v)‖2 + ‖v − projW(v)‖2
柯西-施瓦茨不等式:对于V中的任意向量v和u,有:
‖ < v, u>‖ ≤ ‖v‖‖u‖
定理11:对属于V的任意向量v和u,有:
‖u + v‖ ≤ ‖u‖ + ‖v‖
对称矩阵与二次型
对称矩阵是一个n × n方阵,满足AT = A。
定理1:如果A是对称矩阵,那么不同特征空间的任意两个特征向量是正交的。
一个矩阵A称为可正交对角化,如果存在一个正交矩阵P(满足P−1 = PT)和一个对角矩阵D,使得
A = PDPT = PDP−1
定理2:一个n × n矩阵A可正交对角化当且仅当A是对称矩阵。
谱定理:矩阵A的特征值的集合称为A的谱。一个对称的n × n矩阵A有如下性质:
- A有n个实特征值,包含重复的特征值。
- 对每一个特征值λ,对应的特征空间的维数等于λ作为特征方程的根的重数。
- 特征空间相互正交,这种正交性是在特征向量对应于不同特征值的意义下成立的。
- A可正交对角化
谱分解
假设A = PDP−1,其中P的列是A的单位正交特征向量{u1, u2, ⋯, un},且对应的特征值为{λ1, λ2, ⋯, λn},属于对角矩阵D。由于PT = P−1,所以:
A = λ1u1Tu1 + λ2u2Tu2 + ⋯ + λnunTun
将A分解为由A的谱确定的小块,这个A的表示就称为A的谱分解。
二次型
ℝn上的一个二次型是一个定义在ℝn上的函数,它在向量x处的值为可由表达式ℚ(x) = xTAx给出。A是一个n × n对称矩阵,称为关于二次型的矩阵。
二次型的变量代换:如果x表示ℝn中的一个向量,那么变量代换是如下的形式:
x = Py or x = P−1y
其中P是一个n × n的可逆矩阵。 于是对于二次型xTAx,有:
xTAx = (Py)TA(Py) = yTAPTPy = yT(PTAP)y
新的二次型矩阵变为PTAP。因为A是对称矩阵,于是存在正交矩阵P使得PTAP是角矩阵D,于是新的二次型变为yTDy。
主轴定理:设A是一个n × n对称矩阵,那么存在一个正交变量代换x = Py,它将二次型xTAx变为不含交叉乘积项的二次型yTDy。 定理中的矩阵P的列称为二次型xTAx的主轴,向量y是向量x的在这些主轴构造的ℝn中的单位正交基下的坐标向量。
二次型的分类: 一个二次型Q是:
- 正定的,如果对所有x ≠ 0,有Q(x) > 0。
- 负定的,如果对所有x ≠ 0,有Q(x) < 0。
- 不定的,如果Q(x)既有正值也有负值。 此外,Q被称为半正定的,如果对所有x,有Q(x) ≥ 0;被称为半负定的,如果对所有x,有Q(x) ≤ 0。
定理3:设A是一个n × n对称矩阵,那么一个二次型xTAx是:
- 正定的,当且仅当A的所有特征值都是正的。
- 负定的,当且仅当A的所有特征值都是负的。
- 不定的,当且仅当A有正的和负的特征值。
对任何对称矩阵A,在‖x‖ = 1的条件下,xTAx所有可能值的集合是实轴上的闭区间。分别用m和M表示区间的左端点和右端点,即:
m = min{xTAx : ‖x‖ = 1} and M = max{xTAx : ‖x‖ = 1}
定理4:设A是一个n × n对称矩阵,那么有M是A的最大特征值λ1,m是A的最小特征值。如果x是对应于M的单位特征向量u1,那么xTAx的值等于M。如果x是对应于m的单位特征向量,那么xTAx的值等于m。
定理5:设A是一个n × n对称矩阵,在条件:
xTx = 1 xTu1 = 0
xTAx的最大值是第二大特征值λ2,这个最大值可以在x对应于λ2的特征向量u2的条件下得到。
定理6:设A是一个n × n对称矩阵,其可正交对角化为PDP−1,,将对角矩阵D的对角元素重新排列,使得λ1 ≥ λ2 ≥ ⋯ ≥ λn,那么P的列是其对应的单位特征向量u1, u2, ⋯, un。那么对k = 2, 3, ⋯, n,在以下条件的的限制下:
xTx = 1, xTu1 = 0, ⋯ xTuk = 0
xTAx的最大值是λk,这个最大值可以在x等于λk的特征向量uk的条件下得到。
奇异值分解
并非所有的矩阵都能分解为A = PDP−1,且D是对角的,但分解A = QDP−1对于任意m × n的矩阵A都是可能的,此类分解称为奇异值分解。
令A为m × n矩阵,那么ATA是对称矩阵且可以正交对角化。令{v1, v2, ⋯, vn}是ℝn中的单位正交基且构成ATA的特征向量,λ1, λ2, ⋯, λn是ATA的特征值。那么对于1 ≤ i ≤ n,有:
$$ \Vert A\mathbf{v}_i \Vert^2=(A\mathbf{v}_i)^T A\mathbf{v}_i=\mathbf{v}_i^T A^TA\mathbf{v}_i\\ =\mathbf{v}_i^T (\lambda_i \mathbf{v}_i)\\ =\lambda_i $$
所以ATA的特征值都非负,假设所有的特征值重新排列为满足:
λ1 ≥ λ2 ≥ ⋯ ≥ λn
则A的奇异值就是ATA的特征值的平方根,记作σ1, σ2, ⋯, σn递减排列。A的奇异值就是向量Av1, v2, ⋯, vn的长度。
定理7:假若{v1, v2, ⋯, vn}是包含ATA的特征向量的ℝn中的单位正交基,重新整理使得对应的特征值满足λ1 ≥ λ2 ≥ ⋯ ≥ λn.假若A有r个非零奇异值,那么{Av1, Av2, ⋯, Avn}是ColA的一个正交基,且rankA = r.
矩阵A的分解涉及到一个m × n的“对角”矩阵Σ,其形式为:
$$ \Sigma = \begin{bmatrix} D & 0 \\ 0 & 0 \end{bmatrix} $$
其中D是一个r × r的对角矩阵,且r不超过m和n中的较小值。(如果r=m或r=n或都相等,则M中不会出现零矩阵。)
定理8:设A是一个秩为r的m × n矩阵,那么存在一个m × r矩阵Σ其中D的对角元素是A的前r个奇异值,σ1 ≥ σ2 ≥ ⋯ ≥ σr > 0,并且存在一个m × m的正交矩阵U和一个n × n的正交矩阵V,满足:
A = UΣVT
这样一个分解中的U的列称为A的左奇异向量,而V的列称为A的右奇异向量。
可逆矩阵定理: 设A是一个n × n矩阵,那么下述命题中每一个都与A是可逆矩阵等价:
- (ColA)⟂ = {0}
- (NulA)⟂ = ℝn
- RowA = ℝn
- A有n个非零的奇异值
伪逆
取r = rankA,那么将U和V矩阵分块为第一块包含r列的子矩阵,于是有。
$$ A=[U_r \quad U_{m-r}] \begin{bmatrix} D & 0 \\ 0 & 0 \end{bmatrix}\begin{bmatrix} V_r^T \\ V_{n-r}^T \end{bmatrix}=U_rD V_r^T $$
称为A的简化奇异值分解,由于D的对角线元素非零,因此D是可逆矩阵。 矩阵A的伪逆为:
A+ = VrD−1UrT