线性代数及其应用

笔记

本文是临近夏令营,简单地复习了一下线性代数方面相关的内容,果然重学了一遍才知道当初什么都没学懂!之后还会更新一些进阶的内容,希望我能记得起来。 ## 线性代数及其应用

线性方程组

线性方程式形如a1x1 + a2x2 + ⋯ + anxn = b的式子,其中ai为系数,xi为未知数,b为常数。

一个线性方程组则为:

$$ \begin{cases} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n&=b_1\\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n&=b_2\\ \vdots \\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n&=b_m \end{cases} $$

其中m为方程个数,n为未知数个数。

线性方程组的解只有三种情况:

  • 无解
  • 唯一解
  • 无穷多解

注意到:一个线性方程组是相容的,指的若它有一个解或者无穷多解;而一个方程组是不相容的,指的若它无解。

矩阵乘法

线性方程组可以用矩阵形式表示:

$$ \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_m \end{bmatrix} $$

其中,这个线性方程组的增广矩阵形式为:

$$ \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} & b_1\\ a_{21} & a_{22} & \cdots & a_{2n} & b_2\\ \vdots & \vdots & \ddots & \vdots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} & b_m \end{bmatrix} $$

矩阵的维数指的是矩阵的行数和列数。

求解线性方程组

基本方法:

  • 初等行变换
    • (倍加变换)把某一行换成它本身与另一行的倍数的和。
    • (倍乘变换)把某一行乘以一个非零常数。
    • (对换变换)把某两行互换位置。

如果两个矩阵是行等价的,那么其中某一个矩阵可以通过一系列初等行变换变换成另一个矩阵。

初等行变换是可逆的!

推论:若两个线性方程组的增广矩阵是行等价的,则它们的解集相同。

注意: 线性方程组的两个基本问题:存在和唯一性

存在与唯一性定理:
    线性方程组相容的充要条件是增广矩阵的最右列不是主元列,就是说增广矩阵没有形如
                [ 0 ...  0  b] b!= 0

的行,若线性方程组相容它的解集有两种情况:
    (i)当没有自由变量时,有唯一解;
    (ii)当至少有一个自由变量时,有无穷多解。

向量方程

仅含一列的矩阵称为列向量,仅含一行的矩阵称为行向量(简称向量)。

向量的加法:

$$ \begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} + \begin{bmatrix} b_1\\ b_2\\ \vdots \\ b_n \end{bmatrix} = \begin{bmatrix} a_1+b_1\\ a_2+b_2\\ \vdots \\ a_n+b_n \end{bmatrix} $$

向量的数乘(标量乘法):

$$ c\begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} = \begin{bmatrix} ca_1\\ ca_2\\ \vdots \\ ca_n \end{bmatrix} $$

向量的内积:

$$ \begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} \cdot \begin{bmatrix} b_1\\ b_2\\ \vdots \\ b_n \end{bmatrix} = \sum_{i=1}^n a_ib_i $$

线性组合:

给定Rn中的向量 v1, v2, ⋯, vn,以及相应的系数 c1, c2, ⋯, cn,则:

y = c1v1 + c2v2 + ⋯ + cnvn

称为向量 v1, v2, ⋯, vn 以系数 c1, c2, ⋯, cn 为权的的线性组合,其中 yRn 中的一个向量。

向量方程:

向量方程:

a1x1 + a2x2 + ⋯ + anxn = b

和增广矩阵

$$ \begin{bmatrix} \mathbf{a_1} & \mathbf{a_2} & \cdots & \mathbf{a_n} & \mathbf{b} \end{bmatrix} $$

的线性方程组具有相同的解集,其中b可以看作是a1, a2, ⋯, an的线性组合,当且仅当线性方程组有解。

给定Rn中的向量 v1, v2, ⋯, vn,则v1, v2, ⋯, vn的所有线性组合构成了Rn中的一个向量空间,记作𝒱,也可表示为Span{v1, v2, ⋯, vn}。 即形如:

a1c1 + a2c2 + ⋯ + ancn

的向量的集合,其中c1, c2, ⋯, cn为标量。

线性方程Ax=b

A是m行n列的矩阵,它的各列为a1, a2, ⋯, anxRn中的列向量,则Ax的乘积就是A的各列以x中对应元素为权的线性组合。

$$ \mathbf{A}\mathbf{x}= \begin{bmatrix} \mathbf{a}_1 & \mathbf{a}_2 & \cdots & \mathbf{a}_n \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{bmatrix} = \begin{bmatrix} \mathbf{a}_1 x_1+\mathbf{a}_2 x_2+\cdots+\mathbf{a}_n x_n \end{bmatrix} $$

注意:当且仅当 AxA的列数等于x的维数时,才有定义

方程Ax=b有解当且仅当b是A的各列行向量的线性组合。

性质: 若A是m行n列的矩阵,uvRn中的向量,c是标量,则:

  • A(u + v) = Au + Av
  • A(cu) = cAu

齐次线性方程组

齐次线性方程组:

线性方程组称为齐次的,当前仅当它可以写为:Ax = 0的形式,其中A是m行n列的矩阵,xRn中的列向量,0Rm中的零向量。这样的方程组至少有一个解,即x = 0更重要的是我们需要知道它是否有非平凡解

齐次线性方程组有非平凡解当且仅当方程至少含有一个自由变量。
参数表示的非齐次线性方程组的解

设方程Ax = b对某个b是相容的,p是一个特解,则Ax = b的解集可以表示为: w = p + vh,其中vh是齐次方程Ax = 0的任意一个解。

说明若Ax = b有解,则解集可由Ax = 0的解平移向量p得到。

线性无关

Rn中一组向量{v1, v2, ⋯, vn}线性无关,若向量方程

x1v1 + x2v2 + ⋯ + xnvn = 0

仅有平凡解。若为线性相关的,则存在不全为0的权{c1, c2, ⋯, cn}使得

c1v1 + c2v2 + ⋯ + cnvn = 0

线性相关的特征

两个或更多向量的集合S = {v1, v2, ⋯, vn}线性相关,当且仅当S中至少有一个向量是其他向量的线性组合,事实上,若S线性相关,且v1 ≠ 0,则某个vj(j > 1)是它前面几个向量{v1, v2, ⋯, vj1}的线性组合。

定理:若一个向量组的向量个数超过每个向量元素的个数,则该向量组线性相关。

定理:若向量组S里包含零向量,则S线性相关。

线性变换

变换T是线性的,若:

  • T的定义域中的一切uv,都有T(u + v) = T(u) + T(v)
  • 对一切的标量c和向量u,都有T(cu) = cT(u)

线性变换的矩阵

TRnRm的线性变换,T的矩阵形式为A,则:

T(x) = Ax

对一切Rn中的向量x,都有T(x)Rm中的向量。事实上,Am × n矩阵,它的第i行是T(ei),其中ei是单位矩阵In中的第i列。 即:

A = [T(e1), T(e2), …, T(en)]

矩阵代数

ABm × n矩阵,则有如下的结果:

1、(AT)T = A,即AT的转置等于A 2、(AB)T = BTAT,即AB的转置等于BTAT 3、(A + B)T = AT + BT,即(A + B)的转置等于AT + BT

可逆矩阵

Am × n矩阵,如果存在非零元素的n × n矩阵B,使得AB = BA = In,则称A为可逆矩阵。不可逆矩阵也称为奇异矩阵。

对于二阶矩阵$\begin{bmatrix}a & b\\c & d \end{bmatrix}$的逆矩阵,有:

$$ A^{-1}=\frac{1}{ad-bc}\begin{bmatrix} d & -b\\ -c & a \end{bmatrix} $$

其中,若ad − bc ≠ 0,则A为可逆矩阵;若ad − bc = 0,则A为奇异矩阵。

如果一个维度为n × n的矩阵A可逆,则对Rn中任一向量b,方程Ax = b的解x也可唯一确定,解为:

$$ \mathbf{x}=\begin{bmatrix} A^{-1} \end{bmatrix}\mathbf{b} $$

可逆矩阵定理:

1、对于任意数r,有(rA)T = rAT 2、(AT)−1 = (A−1)T 3、(AB)−1 = B−1A−1,即(AB)−1等于B−1A−1

初等变换与矩阵求逆

初等变换是指将单位矩阵进行一次初等行变换。行变换是可逆的,因此得到的初等矩阵也是可逆的,并且有初等矩阵E的逆是一个同类型的初等矩阵,它将矩阵E变换到单位阵。

定理:nxn的矩阵A可逆,当且仅当A行等价于单位阵I,此时,把A变为单位阵的一系列初等行变换同时把单位阵I变为矩阵A的逆矩阵。
求逆矩阵的算法

将矩阵A和单位阵I排在一起写为增广矩阵的形式$\begin{bmatrix}A & I \end{bmatrix}$,对增广矩阵进行行变换时,AI同时进行同一变换,那么如果有一系列的初等行变换将A变换到单位阵,那么I将变换得到矩阵A−1,否则A没有逆矩阵。

注意:更有实际意义的一个观点是,将增广矩阵$\begin{bmatrix}A & I \end{bmatrix}$变换为$\begin{bmatrix}I & A^{-1} \end{bmatrix}$实际上是在解n个方程组:

Ax = e1, Ax = e2, ..., Ax = en

其中ein维单位向量。 实际应用中并不需要求解所有方程组,只需要求解需要的Ax = ei的解即可。

矩阵的因式分解

LU分解

设矩阵Am × n矩阵,A = LU,其中Lm × m单位下三角矩阵,Um × n为与A等价的阶梯型矩阵。LU分解是用来求解线性方程组的一种方法。当矩阵A = LU时,方程组Ax = b可写为L(Ux) = L(y),即转换为求解两个方程组:

Ly = b

Ux = y

这两个方程都很容易求解,因为它们都是三角矩阵。

LU分解的步骤: 设A可以仅用行倍加变换化简为阶梯型矩阵U。即存在一系列单位下三角初等矩阵E1, E2, ..., Ep,使得EpE1A = U。于是,A = (EpE1)−1U = LU. 其中L = (EpE1)−1

有意思的是,我们需要注意到,将A转换成U的一系列行变换,同时也将L转换成I。这是因为,EpE1A = U,因此,EpE1L = I。那么显然,因为U的下三角部分均为0,I的下三角部分也均为0,因此L的下三角部分其实为A的下三角部分除以其对应主元列元素的结果。

子空间

定义:Rn中的子空间是指,Rn中的集合H,满足:

  1. H中任意两个向量x, y ∈ Hx + y ∈ H
  2. x ∈ Hλx ∈ H (λ ∈ R)
  3. 零向量0 ∈ H

子空间的性质: 1.矩阵A的列空间Col(A)是指A的列向量各线性组合构成的集合。且是矩阵A的主元列向量构成的集合。 2.矩阵A的零空间Nul(A)是指A的零空间,即Ax = 0的解x构成的集合。且是矩阵A的自由变量构成的集合。

子空间的基

HRn中的子空间,H的基是指H中向量的集合B,使得H = Span{b1, b2, ⋯, bk},其中b1, b2, ⋯, bkH中的线性无关向量。

维数与秩

坐标系

假设B = {b1, b2, ⋯, bk}H的一个基,对H中的每一个向量x,可以用基B中的向量{b1, b2, ⋯, bk}的坐标表示:

$$ \mathbf{x}=\sum_{i=1}^k \alpha_i\mathbf{b}_i $$

其中α1, α2, ⋯, αkx在基B中的坐标。

维数

非零子空间H的维数是指,用dim(H)表示,是指H中任意一个基的向量的个数。

矩阵A的秩,记作rank(A),是指A列空间的维数。

如果一矩阵A有n列,则n = rank(A) + dim(Nul(A))

秩与可逆矩阵定理: 如果一个矩阵A可逆,则有:

  1. rank(A) = n
  2. A的列向量构成一个Rn的基.
  3. Col(A) = Rn
  4. Nul(A) = {0}
  5. dim(Col(A)) = n
  6. dim(Nul(A)) = 0

行列式

定义:当n ≥ 2时,n × n矩阵A的行列式det(A)是形如+ − a1jdetA1j的n个项的和,其中加减号在交替出现,其中元素a1jA的第1行第j列元素。

$$ detA = a_{11}detA_{11} - a_{12}detA_{12} + a_{13}detA_{13} - \cdots + (-1)^{n+1}a_{1n}detA_{1n}\\ = \sum_{j=1}^n (-1)^{j+1}a_{1j}detA_{1j} $$

余因子展开式:A(i, j)余因子Cij由下式给出:

Cij = (−1)i + jdetAij

于是有,

$$ detA = \sum_{j=1}^n a_{1j}C_{1j} $$

行列式的性质

行变换定理:若A是n阶方阵,

  1. 若A的第i行与第j行交换,则detA的符号改变;
  2. 若A的某一行的倍数加到另一行得到矩阵B,则detA = detB
  3. 若A的某行乘以倍数k得到矩阵B,则detB = k ⋅ detA

定理:若A 为三角阵,则detA等于A的主对角线上元素的乘积。

计算行列式可以将其化为三角矩阵来进行求解。

转置: 方阵A的转置的行列式等于A的行列式。即det(AT) = detA

乘法: 若方阵A与B均为n × n矩阵,则detAB = detA ⋅ detB

克拉默法则

定义对任意n × n矩阵ARn中的向量bAi(b)*表示A中第i列由向量b替换得到的矩阵。

Ai(b) = [a1ban]

克拉默法则: 设A是一个可逆的n × n矩阵,b是一个n维向量,方程Ax = b的唯一解x存在,可由下式给出:

$$ x_i = \frac{detA_i(\mathbf{b})}{detA},i=1,2,\cdots,n $$

逆矩阵公式:

$$ A^{-1} = \frac{1}{detA}\begin{bmatrix} C_{11} & C_{21} & \cdots & C_{n1}\\ C_{12} & C_{22} & \cdots & C_{n2}\\ \vdots & \vdots & \ddots & \vdots\\ C_{1n} & C_{2n} & \cdots & C_{nn} \end{bmatrix} $$

其中CijA(i, j)余因子,所构成的矩阵称为伴随矩阵,记作adjA

向量空间与子空间

向量空间的定义: 一个向量空间是由一些被称为向量的对象构成的非空集合V,以及两个运算:

  1. 加法:v, w ∈ Vv + w ∈ V
  2. 标量乘法:α ∈ R, v ∈ Vαv ∈ V并且有以下公理:
  3. u + v = v + u
  4. (u + v) + w = u + (v + w)
  5. V中存在一个零向量0,使得v ∈ V, v + 0 = v
  6. 对每一个v ∈ V,存在一个负向量v,使得v + v = 0
  7. c(v + w) = cv + cw
  8. (a + b)v = av + bv
  9. c(dv) = (cd)v
  10. 1v = v

子空间

定义:设V是一个向量空间,H ⊂ V,如果H是一个子空间如果满足以下三个性质: a. H中存在一个零向量0 b. H对向量加法封闭,即v ∈ H, ∀w ∈ H, v + w ∈ H c. H对标量乘法封闭,即α ∈ R, ∀v ∈ H, αv ∈ H

定理:若v1, v2, ⋯, vnV中的向量,则Span{v1, v2, ⋯, vn}V的一个子空间。

矩阵的零空间

定义:设A是一个m × n矩阵,v ∈ Rn,则Av = 0的解集称为矩阵A的零空间。表示为:

Nul(A) = {v ∈ Rn : Av = 0}

定理A是一个m × n矩阵,则Nul(A)Rn的一个子空间。等价地说,m个方程,n个未知数的齐次线性方程组Ax = 0的解集是Rn的一个子空间。

列空间

定义:设A是一个m × n矩阵,则A的列的所有线性组合组成的集合是A的列空间,记作Col(A) = Span{a1, a2, ⋯, an}

定理A是一个m × n矩阵,则Col(A)Rm的一个子空间。 注意到,Col(A)可以写为

Col(A) = {b : b = Ax, x ∈ Rn}, x

线性变换的核与值域

定义:设T : V → W是一个线性变换,它将V中的每个向量v映射到W中的一个向量唯一向量w = T(v),并且满足:

  1. T(u + v) = T(u) + T(v)
  2. T(αv) = αT(v), 对所有α ∈ Rv ∈ V均成立。

线性变换T的核(kernel): 设T : V → W是一个线性变换,则线性变换T的核是V中所有满足T(v) = 0的向量的集合。记作ker(T)。T的值域是W中所有具有形式T(v)(∀v ∈ V)的向量的集合。

如果一个线性变换T是由一个矩阵变换得到的,即T(x) = Ax,则T的值域与核恰好是A的列空间核与零空间。

定义:设V是一个向量空间,令H是向量空间V的一个子空间,V中向量的指标集B = {b1, b2, ⋯, bm}称为H的一个基,如果有:

  1. B是一个线性无关集。
  2. B生成的子空间与H相同。

定理:矩阵A的主元列构成了A的列空间的基。

生成集定理:S = {v1, v2, ⋯, vn}V中的向量集,且有H = Span{v1, v2, ⋯, vn} a. 若S中的某一个向量vk,是S其余向量的线性组合,则S去掉vk后形成的集合仍然能够生成H。 b. 若H ≠ {0},则S的某一子集是H的一个基。

坐标系

对于向量空间V中的一组基B = {b1, b2, ⋯, bn},则对V中的每个向量x,可以用基B中的元素表示为:

$$ \mathbf{x} = \sum_{i=1}^n a_i\mathbf{b_i} $$

于是,定义x相对于基B的坐标是使得$\mathbf{x}=\sum_{i=1}^n a_i\mathbf{b_i}$的权a1, a2, ⋯, an。记作

$$ [\mathbf{x}]_B = \begin{bmatrix} a_1\\ a_2\\ \vdots\\ a_n \end{bmatrix} $$

PB = [b1, b2, ⋯, bn]

x = a1b1 + a2b2 + ⋯ + anbn等价于x = PB[x]B.称PB为从BRn坐标变换矩阵

向量空间的维数

若向量空间V中存在一组基{b1, b2, ⋯, bn},则V中任意包含多于n个向量的集合一定线性相关。

定理:若向量空间V是由一个有限集生成的,则称V为有限维的,其维数写为dim(V)。是指V的基中含有向量的个数。零向量空间 {0} 的维数定义为0。反之,如果V不是由一有限集生成,那么其称为无穷维的。

定理:令HV的一个子空间,则H中任意一个线性无关集均可以扩充为H的一个基,H也是有限维的,且有:

dim(H) ≤ dim(V)

NulA的维数是方程Ax=0中自由变量的个数,ColA的维数是A中主元列的个数。

定理:若两个矩阵AB行等价,则它们的行空间相同。若B为阶梯型矩阵,则B的非零行构成A的行空间的一个基的同时也构成了B的行空间的一个基。

A的秩即为A的列空间的维数。

秩定理:设Am × n矩阵,A的行空间与列空间的维数相等,这个维数称为A的秩,还等于A的主元位置的个数且满足:

rank(A) + dim(NulA) = n

秩与可逆矩阵定理:设An × n矩阵,如果A是可逆矩阵,则有:

  1. A的列构成Rn的一个基。
  2. ColA = Rn
  3. dimColA = n
  4. rank(A) = n
  5. NulA = {0}
  6. dim(NulA) = 0

注意到:A的行空间是AT的列空间,又A可逆当且仅当AT可逆。,所以对上述一系列判读可逆矩阵同样适用于AT

基变换

B = {b1, b2, ⋯, bn}C = {c1, c2, ⋯, cn}是向量空间V的两个基,则存在一个n × n矩阵P,使得:

[x]C = P[x]B

且,P的列是基B中向量的C − ,即:

$$ P = \begin{bmatrix} [\mathbf{b_1}]_C, [\mathbf{b_2}]_C, \cdots [\mathbf{b_n}]_C \end{bmatrix} $$

B = {b1, b2, ⋯, bn}ERn的标准基{e1, e2, ⋯, en},则[b1]E = b1,B中的其他向量也类似,引入坐标变换矩阵PE ← B,则其与PB等价。

马尔科夫链的矩阵形式

定义: 概率向量:一个具有非负分量,且各分量的数值相加等于1的向量称为概率向量。 概率矩阵:随机矩阵是指各列向量都是概率向量的矩阵。 马尔科夫链:一个马尔科夫链是一个概率向量序列x1, x2, ⋯, xn和一个随机转移矩阵P,满足:

xi = Pxi1, i = 2, 3, ⋯, n0

xk中的数值分别列出来一个系统在n各可能状态下的概率,或者实验结果是n个可能概率之一的概率。因此,xk通常被称为状态向量。

稳态向量:若P是一个随机矩阵,则相对于P的稳态向量是一个满足:

Pq = q

的概率向量q。每一个随机矩阵都有一个稳态向量。

定理:若P是一个n × n正规的随机矩阵,则P具有唯一的稳态向量q.进一步的,如果x0任一个起始状态,且有xk+1 = Pxk, k = 0, 1, ⋯,则当k → ∞时,马尔科夫链{xk}收敛到稳态向量q.

特征值与特征向量

定义:An × n矩阵,x为非零向量,若存在数λ使得Ax = λx成立,则称λA的特征值,x称为对应于λ的特征向量。

定理:三角矩阵的主对角线元素是特征值。

注意:λA的特征值当且仅当

(A − λI)x = 0

定理λ1, ⋯, λrn × n矩阵A相异的特征值,v1, ⋯, vr是与λ1, ⋯, λr对应的特征向量,那么向量集合{v1, ⋯, vr}线性无关。

特征方程

求解特征方程是指,找出所有的λ,使得Ax = λx成立。等价于要求出所有的λ,使得矩阵A − λI为不可逆矩阵。

行列式与特征方程:设A为n × n矩阵,则A是可逆的当且仅当 1.0不是A的特征值。 2.A的行列式不为0。

行列式的性质

设A和B为n × n矩阵,则: a. A可逆的充分必要条件是A的行列式不为0。 b. det(AB) = det(A)det(B) c. detAT = detA d.若A是三角矩阵,那么detAA的主对角线元素的乘积。 e.对A作行替换不改变院行列式的值,做一次行交换使其行列式值的符号改变一次。数乘一行后,行列式的值等于用此数乘原来的行列式。

定理:数λn × n矩阵A的特征值的充分必要条件是λ是特征方程det(A − λI) = 0的根。

相似性

设A和B为n × n矩阵,如果存在可逆矩阵P,使得P−1AP = B,或者等价地A = PBP−1,则称A相似于B。记Q = P−1,则有Q−1BQ = A,即B也相似于A。把A变为P−1AP的变换称为相似变换。

定理:如果n × n矩阵A与B是相似的,那么它们有相同的特征多项式,从而有相同的特征值。

对角化

如果n × n矩阵A相似于对角矩阵,即存在可逆矩阵P和对角矩阵D,有A = P−1DP,则称A为可对角化矩阵。

定理:如果n × n矩阵A可对角化可对角化的充分必要条件是A有n个线性无关的特征向量。事实上,A = P−1DP,D为对角矩阵的充分必要条件是P的列向量是A的n个线性无关的特征向量。此时,D中对角线上的元素分别是A的对应于P中特征向量的特征值。

注意到,A可对角化也就是说有足够的特征向量形成Rn的一个基,我们称这组基为特征向量基。

定理:有n个相异特征值的n × n矩阵可对角化。(是充分的,但不是充要的)

微分方程中的应用

(待续)

正交性和最小二乘法

向量的长度:向量 v的长度(范数)是非负数||v||,定义为:

$$ ||\mathbf{v}||=\sqrt{\mathbf{v} \cdot \mathbf{v}}=\sqrt{\sum_{i=1}^n v_i^2} 且 ||\mathbf{v}||^2 = \mathbf{v} \cdot \mathbf{v} $$

对于任意数c ∈ ℝ,有:

c||v|| = |c|‖v

长度为1的向量称为单位向量,如果把一个非零向量除以自身长度,即乘以1/||v||,那么得到的向量就是单位向量,这称为向量v的单位化。

n空间中的向量vw的距离,记作dist(v, w),定义为:

$$ dist(\mathbf{v},\mathbf{w})=\left \Vert \mathbf{v}-\mathbf{w} \right \Vert = \sqrt{(\mathbf{v}-\mathbf{w}) \cdot (\mathbf{v}-\mathbf{w})} $$

正交向量

如果向量v ⋅ w = 0,则称vw是相互正交的,记作v ⟂ w

毕达哥斯拉定理:两个向量vw相互正交的充要条件是v + w2 = ‖v2 + ‖w2

正交补

如果向量zn的子空间W中的任意向量都正交,则称zW。那么与子空间W正交的向量z的集合称为W的正交补,记作W

定理1

  1. 向量x属于W的充分必要条件是向量x与生成空间W中任一向量w都不正交。
  2. Wn的一个子空间。

定理2:假设矩阵Am × n的矩阵,那么A的行向量空间的正交补空间是A的零空间,且A的列向量空间的正交补是A的零空间:

(RowA) = Nul(A)    (ColA) = Nul(AT)

正交集

n中的向量集合{v1, v2, ⋯, vk}称为正交向量集,如果集合中任意两个不同的向量都正交,即当i ≠ j时,有vi ⟂ vj

定理3:如果S = {u1, u2, ⋯, uk}n中的非零向量构成的正交向量集,那么S是线性无关集,因此构成所生成子空间S的一组基。

定理4:假设{u1, u2, ⋯, up}中子空间𝕎的正交基,则对𝕎中的每个向量y,线性组合y = c1u1 + c2u2 + ⋯ + cpup的系数c1, c2, ⋯, cp中的权值可以由$c_j=\frac{\mathbf{y} \cdot \mathbf{u}_j}{\mathbf{u}_j \cdot \mathbf{u}_j} \quad (j=1,2,\cdots,p)$给出。

正交投影

考虑n中的一个向量y分解为两个向量之和的问题,一个向量是u的数量乘积,另一个向量与u垂直,其中向量u是给定的。写为:

y =  + z

其中,$\mathbf{\hat{y}}=\alpha \mathbf{u} \quad \alpha是个数$z是一个垂直于u的向量。

可以求得, $\alpha = \frac{\mathbf{y} \cdot \mathbf{u}}{\mathbf{u} \cdot \mathbf{u}}$ $\mathbf{\hat{y}}=\frac{\mathbf{y}\cdot\mathbf{u}}{\mathbf{u} \cdot \mathbf{u}} \cdot \mathbf{u}$。 称向量yu上的正交投影,而向量zy垂直u的分量。

例子:对于向量空间W = ℝ2 = Span{u1, u2}u1, u2相互正交,那么对于任意2中的向量y,都有:

$$ \mathbf{y}=\frac{\mathbf{y}\cdot\mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1} \cdot \mathbf{u}_1+\frac{\mathbf{y}\cdot\mathbf{u}_2}{\mathbf{u}_2 \cdot \mathbf{u}_2} \cdot \mathbf{u}_2 $$

单位正交集

集合{u1, ⋯, un}是一个单位正交集,如果它们是由单位向量构成的正交集。如果W是一个由单位正交集组成的子空间,那么{u1, ⋯, un}W单位正交基,因为这类集合自然线性无关。

定理5:一个m × n矩阵U具有单位正交列向量的充分必要条件是UU = I

定理6:假设U是一个具有单位正交列向量的m × n矩阵,且xyn中的向量,那么: a. Ux‖ = ‖x b. (‖Ux‖)(‖Uy‖) = x ⋅ y c. (‖Ux‖)(‖Uy‖) = 0的充要条件是x ⟂ y。 这些性质表明:线性映射x ↦ Ux保持长度和正交性

定理5和定理6表明一个 正交矩阵 就是一个可逆的方阵U,且满足:UT = U−1。这样的矩阵具有单位正交列,且任何具有单位正交列的方阵是正交矩阵。

正交分解

正交分解定理:若Wn的子空间,那么n中的每一个向量y都可以唯一表示为:

y =  + z

其中属于Wz属于W。如果{u1, u2, ⋯, up}W的正交基,那么y可以唯一表示为:

$$ \mathbf{y}=\sum_{i=1}^p \frac{\mathbf{y}\cdot\mathbf{u}_i}{\mathbf{u}_i \cdot \mathbf{u}_i} \mathbf{u}_i $$

z = y − 。式中,称为 yW上的正交投影,记作projw(y)

正交投影的性质:如果{u1, u2, ⋯, up}W的正交基,且如果y属于W,那么projw(y) = y

最佳逼近定理:假设W是一个n的子空间,yn中的任意向量,yW上的正交投影,那么W上最接近y的点,也就是

y − ‖ ≤ ‖y − v

对于所有属于W又异于的向量v成立。

定理7:如果{u1, u2, ⋯, up}n中子空间W的单位正交基,那么:

projw(y) = (y ⋅ u1)u1 + ⋯ + (y ⋅ up)up

如果U = [u1 ⋯ up],则:

projw(y) = UUTy, y ∈ ℝn

格拉姆-施密特方法

格拉姆-施密特方法是对n中任何非零子空间构造正交集或标准正交集的简单算法。

步骤: 对n中的子空间的一个基{x1, x2, ⋯, xp},定义:

$$ \mathbf{v}_1=\mathbf{x}_1\\ \mathbf{v}_2=\mathbf{x}_2-\frac{\mathbf{x}_2 \cdot \mathbf{v}_1}{\mathbf{v}_1\cdot\mathbf{v}_1}\mathbf{v}_1\\ \cdots\\ \mathbf{v}_p=\mathbf{x}_p-\frac{\mathbf{x}_p \cdot \mathbf{v}_1}{\mathbf{v}_1\cdot\mathbf{v}_1}\mathbf{v}_1-\frac{\mathbf{x}_p \cdot \mathbf{v}_2}{\mathbf{v}_2\cdot\mathbf{v}_2}\mathbf{v}_2+\cdots-\frac{\mathbf{x}_p \cdot \mathbf{v}_{p-1}}{\mathbf{v}_{p-1}\cdot\mathbf{v}_{p-1}}\mathbf{v}_{p-1} $$

那么{v1, v2, ⋯, vp}就是W的一个正交基,此外

Span{v1, v2, ⋯, vp} = Span{x1, x2, ⋯, xk}, 1 ≤ k ≤ p

注意到,如果需要得到一个标准正交基,只需要单位化所有的向量vk即可。

QR分解:如果m × n矩阵A的列线性无关,A可以分解为A = QR,其中Q是一个m × n的矩阵,其列形成了ColA的一个标准正交基,R是一个n × n的上三角矩阵可逆矩阵且在对角线上的元素为正数。

应用:A的列向量构成ColA的一个基{x1, x2, ⋯, xn},构造W = ColA的一个标准正交基{u1, u2, ⋯, un},这个基可以由格拉姆-施密特方法构造。 取

Q = [u1 ⋯ un]

k = 1, 2, ⋯, nxk属于Span{x1, x2, ⋯, xk} = Span{u1, u2, ⋯, uk},所以存在常数r1k, r2k, ⋯, rkk使得:

xk = r1ku1 + ⋯ + rkkuk + 0 ⋅ uk + 1 + ⋯ + 0 ⋅ un

可以假设rkk ≥ 0(否则,则对rkkuk都乘以-1),那这表明xkQ的列的线性组合,且其权为

$$ \begin{bmatrix} r_{1k}\\ \vdots\\ r_{kk}\\ 0\\ \vdots\\ 0 \end{bmatrix} $$

xk = Qrk,其中k = 1, 2, ⋯, n。取R = [r1 ⋯ rn],那么

A = [x1 ⋯ xn] = [Qr1 ⋯ Qrn] = QR

注意到,如果Q的列是单位正交向量,则有QTA = QT(QR) = IR = R

最小二乘法

考虑Ax作为b的一个近似,bAx之间的距离越小,b − Ax近似程度越好。一般的最小二乘问题就是找出使得b − Ax尽量小的x

定义:如果m × n矩阵A和向量b属于m,则Ax = b的最小二乘解是中的向量,使得:

b − A‖ ≤ ‖b − Ax

对于所有x ∈ ℝn成立。

对于上述问题的Ab,应用最佳逼近定理与子空间ColA

 = projColA(b)

由于属于A的列空间,故方程Ax = 是相容的且存在一个属于n使得

A = 

由于ColA中最接近b的点,因此一个向量Ax = b的一个最小二乘解的充分必要条件满足(1)式。这个属于n是由一系列由A的列构造的的权。

满足A = ,则由正交分解定理,投影具有性质b − ColA正交,即b − A正交于A的每一列。如果ajA的某一列,那么aj ⋅ (b − A) = 0ajT ⋅ (b − A) = 0.由于每一个ajTAT的行,于是

AT(b − A) = 0

于是

ATb = ATA

于是方程(2)表示的线性方程组称为Ax = b的法方程,其解用表示。

定理8:方程Ax = b的最小二乘解集和法方程ATb = ATA的非空解集一致。

定理9:设Am × n矩阵,则下面的条件是逻辑等价的

  1. 对于n中的每个b,方程Ax = b有唯一最小二乘解
  2. A的列是线性无关的
  3. 矩阵ATA是可逆的 当上述条件成立时,唯一的最小二乘解可以表示为:

 = (ATA)−1ATb

定理10:给定一个m × n矩阵A,它具有线性无关的列,取A = QRA的QR分解,那么对于每一个属于n的向量b,方程Ax = b的有唯一的最小二乘解为:

 = R−1QTb

应用

(待续)

内积空间

定义:向量空间V上的内积是一个函数,对每一对属于V的向量uv,存在一个实数 < u, v>满足下述公理,其中u, vw都是V中的向量,c是所有数:

  1.  < u, v >  =  < v, u>
  2.  < u + v, w >  =  < u, w > + < v, w>
  3.  < cu, v >  = c < u, v>
  4.  < u, u >  ≥ 0 < u, u >  = 0当且仅当u = 0

一个赋予上述内积的向量空间称为内积空间。

长度、距离和正交性

V是一个内积空间,其内积记作 < u, v>.像n一样,我们定义一个向量v的长度或范数为:

$$ \left \Vert \mathbf{v} \right \Vert=\sqrt{<\mathbf{v},\mathbf{v}>} $$

一个 单位向量是长度为1的向量,向量uv的距离是u − v。向量u和向量v正交,如果 < u, v >  = 0

给定内积空间V中的向量v和有限维子空间W,我们可以得到:

v2 = ‖projW(v)‖2 + ‖v − projW(v)‖2

柯西-施瓦茨不等式:对于V中的任意向量vu,有:

‖ < v, u>‖ ≤ ‖v‖‖u

定理11:对属于V的任意向量vu,有:

u + v‖ ≤ ‖u‖ + ‖v

对称矩阵与二次型

对称矩阵是一个n × n方阵,满足AT = A

定理1:如果A是对称矩阵,那么不同特征空间的任意两个特征向量是正交的。

一个矩阵A称为可正交对角化,如果存在一个正交矩阵P(满足P−1 = PT)和一个对角矩阵D,使得

A = PDPT = PDP−1

定理2:一个n × n矩阵A可正交对角化当且仅当A是对称矩阵。

谱定理:矩阵A的特征值的集合称为A的谱。一个对称的n × n矩阵A有如下性质:

  1. A有n个实特征值,包含重复的特征值。
  2. 对每一个特征值λ,对应的特征空间的维数等于λ作为特征方程的根的重数。
  3. 特征空间相互正交,这种正交性是在特征向量对应于不同特征值的意义下成立的。
  4. A可正交对角化

谱分解

假设A = PDP−1,其中P的列是A的单位正交特征向量{u1, u2, ⋯, un},且对应的特征值为{λ1, λ2, ⋯, λn},属于对角矩阵D。由于PT = P−1,所以:

A = λ1u1Tu1 + λ2u2Tu2 + ⋯ + λnunTun

A分解为由A的谱确定的小块,这个A的表示就称为A的谱分解

二次型

n上的一个二次型是一个定义在n上的函数,它在向量x处的值为可由表达式ℚ(x) = xTAx给出。A是一个n × n对称矩阵,称为关于二次型的矩阵

二次型的变量代换:如果x表示n中的一个向量,那么变量代换是如下的形式:

x = Py  or  x = P−1y

其中P是一个n × n的可逆矩阵。 于是对于二次型xTAx,有:

xTAx = (Py)TA(Py) = yTAPTPy = yT(PTAP)y

新的二次型矩阵变为PTAP。因为A是对称矩阵,于是存在正交矩阵P使得PTAP是角矩阵D,于是新的二次型变为yTDy

主轴定理:设A是一个n × n对称矩阵,那么存在一个正交变量代换x = Py,它将二次型xTAx变为不含交叉乘积项的二次型yTDy。 定理中的矩阵P的列称为二次型xTAx主轴,向量y是向量x的在这些主轴构造的n中的单位正交基下的坐标向量。

二次型的分类: 一个二次型Q是:

  1. 正定的,如果对所有x ≠ 0,有Q(x) > 0
  2. 负定的,如果对所有x ≠ 0,有Q(x) < 0
  3. 不定的,如果Q(x)既有正值也有负值。 此外,Q被称为半正定的,如果对所有x,有Q(x) ≥ 0;被称为半负定的,如果对所有x,有Q(x) ≤ 0

定理3:设A是一个n × n对称矩阵,那么一个二次型xTAx是:

  1. 正定的,当且仅当A的所有特征值都是正的。
  2. 负定的,当且仅当A的所有特征值都是负的。
  3. 不定的,当且仅当A有正的和负的特征值。

对任何对称矩阵A,在x‖ = 1的条件下,xTAx所有可能值的集合是实轴上的闭区间。分别用mM表示区间的左端点和右端点,即:

m = min{xTAx : ‖x‖ = 1}  and  M = max{xTAx : ‖x‖ = 1}

定理4:设A是一个n × n对称矩阵,那么有MA的最大特征值λ1mA的最小特征值。如果x是对应于M的单位特征向量u1,那么xTAx的值等于M。如果x是对应于m的单位特征向量,那么xTAx的值等于m

定理5:设A是一个n × n对称矩阵,在条件:

xTx = 1  xTu1 = 0

xTAx的最大值是第二大特征值λ2,这个最大值可以在x对应于λ2的特征向量u2的条件下得到。

定理6:设A是一个n × n对称矩阵,其可正交对角化为PDP−1,,将对角矩阵D的对角元素重新排列,使得λ1 ≥ λ2 ≥ ⋯ ≥ λn,那么P的列是其对应的单位特征向量u1, u2, ⋯, un。那么对k = 2, 3, ⋯, n,在以下条件的的限制下:

xTx = 1,  xTu1 = 0,  ⋯  xTuk = 0

xTAx的最大值是λk,这个最大值可以在x等于λk的特征向量uk的条件下得到。

奇异值分解

并非所有的矩阵都能分解为A = PDP−1,且D是对角的,但分解A = QDP−1对于任意m × n的矩阵A都是可能的,此类分解称为奇异值分解

Am × n矩阵,那么ATA是对称矩阵且可以正交对角化。令{v1, v2, ⋯, vn}n中的单位正交基且构成ATA的特征向量,λ1, λ2, ⋯, λnATA的特征值。那么对于1 ≤ i ≤ n,有:

$$ \Vert A\mathbf{v}_i \Vert^2=(A\mathbf{v}_i)^T A\mathbf{v}_i=\mathbf{v}_i^T A^TA\mathbf{v}_i\\ =\mathbf{v}_i^T (\lambda_i \mathbf{v}_i)\\ =\lambda_i $$

所以ATA的特征值都非负,假设所有的特征值重新排列为满足:

λ1 ≥ λ2 ≥ ⋯ ≥ λn

A的奇异值就是ATA的特征值的平方根,记作σ1, σ2, ⋯, σn递减排列。A的奇异值就是向量Av1, v2, ⋯, vn的长度

定理7:假若{v1, v2, ⋯, vn}是包含ATA的特征向量的n中的单位正交基,重新整理使得对应的特征值满足λ1 ≥ λ2 ≥ ⋯ ≥ λn.假若A有r个非零奇异值,那么{Av1, Av2, ⋯, Avn}ColA的一个正交基,且rankA = r.

矩阵A的分解涉及到一个m × n的“对角”矩阵Σ,其形式为:

$$ \Sigma = \begin{bmatrix} D & 0 \\ 0 & 0 \end{bmatrix} $$

其中D是一个r × r的对角矩阵,且r不超过m和n中的较小值。(如果r=m或r=n或都相等,则M中不会出现零矩阵。)

定理8:设A是一个秩为r的m × n矩阵,那么存在一个m × r矩阵Σ其中D的对角元素是A的前r个奇异值,σ1 ≥ σ2 ≥ ⋯ ≥ σr > 0,并且存在一个m × m的正交矩阵U和一个n × n的正交矩阵V,满足:

A = UΣVT

这样一个分解中的U的列称为A左奇异向量,而V的列称为A右奇异向量

可逆矩阵定理: 设A是一个n × n矩阵,那么下述命题中每一个都与A是可逆矩阵等价:

  1. (ColA) = {0}
  2. (NulA) = ℝn
  3. RowA = ℝn
  4. A有n个非零的奇异值
伪逆

r = rankA,那么将UV矩阵分块为第一块包含r列的子矩阵,于是有。

$$ A=[U_r \quad U_{m-r}] \begin{bmatrix} D & 0 \\ 0 & 0 \end{bmatrix}\begin{bmatrix} V_r^T \\ V_{n-r}^T \end{bmatrix}=U_rD V_r^T $$

称为A简化奇异值分解,由于D的对角线元素非零,因此D是可逆矩阵。 矩阵A的伪逆为:

A+ = VrD−1UrT