线性代数复习
本文是临近夏令营,简单地复习了一下线性代数方面相关的内容,果然重学了一遍才知道当初什么都没学懂!之后还会更新一些进阶的内容,希望我还能想起这回事来。 如果发现问题,欢迎指正(改天有空配置一个评论区),知乎上一并发布了分章节的内容。
笔记
线性代数及其应用
线性方程组
线性方程式形如\(a_1x_1+a_2x_2+\cdots+a_nx_n=b\)的式子,其中\(a_i\)为系数,\(x_i\)为未知数,\(b\)为常数。
一个线性方程组则为:
\[ \begin{cases} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n=b_1\\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n=b_2\\ \vdots \\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n=b_m \end{cases} \]
其中\(m\)为方程个数,\(n\)为未知数个数。
线性方程组的解只有三种情况:
- 无解
- 唯一解
- 无穷多解
注意到:一个线性方程组是相容的,指的若它有一个解或者无穷多解;而一个方程组是不相容的,指的若它无解。
矩阵乘法
线性方程组可以用矩阵形式表示:
\[ \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{bmatrix} = \begin{bmatrix} b_1\\ b_2\\ \vdots \\ b_m \end{bmatrix} \]
其中,这个线性方程组的增广矩阵形式为:
\[ \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} & b_1\\ a_{21} & a_{22} & \cdots & a_{2n} & b_2\\ \vdots & \vdots & \ddots & \vdots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} & b_m \end{bmatrix} \]
矩阵的维数指的是矩阵的行数和列数。
求解线性方程组
基本方法:
- 初等行变换
- (倍加变换)把某一行换成它本身与另一行的倍数的和。
- (倍乘变换)把某一行乘以一个非零常数。
- (对换变换)把某两行互换位置。
如果两个矩阵是行等价的,那么其中某一个矩阵可以通过一系列初等行变换变换成另一个矩阵。
初等行变换是可逆的!
推论:若两个线性方程组的增广矩阵是行等价的,则它们的解集相同。
注意: 线性方程组的两个基本问题:存在和唯一性
存在与唯一性定理:
线性方程组相容的充要条件是增广矩阵的最右列不是主元列,就是说增广矩阵没有形如
[ 0 ... 0 b] b!= 0
的行,若线性方程组相容它的解集有两种情况:
(i)当没有自由变量时,有唯一解;
(ii)当至少有一个自由变量时,有无穷多解。
向量方程
仅含一列的矩阵称为列向量,仅含一行的矩阵称为行向量(简称向量)。
向量的加法:
\[ \begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} + \begin{bmatrix} b_1\\ b_2\\ \vdots \\ b_n \end{bmatrix} = \begin{bmatrix} a_1+b_1\\ a_2+b_2\\ \vdots \\ a_n+b_n \end{bmatrix} \]
向量的数乘(标量乘法):
\[ c\begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} = \begin{bmatrix} ca_1\\ ca_2\\ \vdots \\ ca_n \end{bmatrix} \]
向量的内积:
\[ \begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix} \cdot \begin{bmatrix} b_1\\ b_2\\ \vdots \\ b_n \end{bmatrix} = \sum_{i=1}^n a_ib_i \]
线性组合:
给定\(\mathbb{R}^n\)中的向量 \(\mathbf{v_1}, \mathbf{v_2}, \cdots, \mathbf{v_n}\),以及相应的系数 \(c_1, c_2, \cdots, c_n\),则:
\[ \mathbf{y}=c_1\mathbf{v_1}+c_2\mathbf{v_2}+\cdots+c_n\mathbf{v_n} \]
称为向量 \(\mathbf{v_1}, \mathbf{v_2}, \cdots, \mathbf{v_n}\) 以系数 \(c_1, c_2, \cdots, c_n\) 为权的的线性组合,其中 \(\mathbf{y}\) 是 \(\mathbb{R}^n\) 中的一个向量。
向量方程:
向量方程:
\[ \mathbf{a}_1x_1+\mathbf{a}_2x_2+\cdots+\mathbf{a}_n\mathbf{x}_n=\mathbf{b} \]
和增广矩阵
\[ \begin{bmatrix} \mathbf{a_1} & \mathbf{a_2} & \cdots & \mathbf{a_n} & \mathbf{b} \end{bmatrix} \]
的线性方程组具有相同的解集,其中\(\mathbf{b}\)可以看作是\(\mathbf{a_1}, \mathbf{a_2}, \cdots, \mathbf{a_n}\)的线性组合,当且仅当线性方程组有解。
给定\(\mathbb{R}^n\)中的向量 \(\mathbf{v_1}, \mathbf{v_2}, \cdots, \mathbf{v_n}\),则\(\mathbf{v_1}, \mathbf{v_2}, \cdots, \mathbf{v_n}\)的所有线性组合构成了\(\mathbb{R}^n\)中的一个向量空间,记作\(\mathcal{V}\),也可表示为\(Span\{\mathbf{v_1}, \mathbf{v_2}, \cdots, \mathbf{v_n}\}\)。 即形如:
\[ \mathbf{a}_1c_1+\mathbf{a}_2c_2+\cdots+\mathbf{a}_n\mathbf{c}_n \]
的向量的集合,其中\(c_1, c_2, \cdots, c_n\)为标量。
线性方程Ax=b
若\(\mathbf{A}\)是m行n列的矩阵,它的各列为\(\mathbf{a_1}, \mathbf{a_2}, \cdots, \mathbf{a_n}\),\(\mathbf{x}\)是\(\mathbb{R}^n\)中的列向量,则\(\mathbf{A}\)与\(\mathbf{x}\)的乘积就是\(\mathbf{A}\)的各列以\(\mathbf{x}\)中对应元素为权的线性组合。
\[ \mathbf{A}\mathbf{x}=\begin{bmatrix} \mathbf{a}_1 & \mathbf{a}_2 & \cdots & \mathbf{a}_n \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{bmatrix} = \begin{bmatrix} \mathbf{a}_1x_1+\mathbf{a}_2x_2+\cdots+\mathbf{a}_n\mathbf{x}_n \end{bmatrix} \]
注意:当且仅当 \(\mathbf{Ax}\) 中\(\mathbf{A}\)的列数等于\(\mathbf{x}\)的维数时,才有定义
方程Ax=b有解当且仅当b是A的各列行向量的线性组合。
性质: 若\(\mathbf{A}\)是m行n列的矩阵,\(\mathbf{u}\)和\(\mathbf{v}\)是\(\mathbb{R}^n\)中的向量,\(c\)是标量,则:
- \(\mathbf{A}(\mathbf{u}+\mathbf{v})=\mathbf{A}\mathbf{u}+\mathbf{A}\mathbf{v}\)
- \(\mathbf{A}(c\mathbf{u})=c\mathbf{A}\mathbf{u}\)
齐次线性方程组
齐次线性方程组:
线性方程组称为齐次的,当前仅当它可以写为:\(\mathbf{A}\mathbf{x}=\mathbf{0}\)的形式,其中\(\mathbf{A}\)是m行n列的矩阵,\(\mathbf{x}\)是\(\mathbb{R}^n\)中的列向量,\(\mathbf{0}\)是\(\mathbb{R}^m\)中的零向量。这样的方程组至少有一个解,即\(\mathbf{x}=\mathbf{0}\)。更重要的是我们需要知道它是否有非平凡解
齐次线性方程组有非平凡解当且仅当方程至少含有一个自由变量。
参数表示的非齐次线性方程组的解
设方程\(\mathbf{Ax}=\mathbf{b}\)对某个\(\mathbf{b}\)是相容的,\(\mathbf{p}\)是一个特解,则\(\mathbf{Ax}=\mathbf{b}\)的解集可以表示为: \(\mathbf{w}=\mathbf{p}+\mathbf{v_h}\),其中\(\mathbf{v_h}\)是齐次方程\(\mathbf{Ax}=\mathbf{0}\)的任意一个解。
说明若\(\mathbf{Ax}=\mathbf{b}\)有解,则解集可由\(\mathbf{Ax}=\mathbf{0}\)的解平移向量\(\mathbf{p}\)得到。
线性无关
\(\mathbb{R}^n\)中一组向量\(\{\mathbf{v_1}, \mathbf{v_2}, \cdots, \mathbf{v_n}\}\)线性无关,若向量方程
\[ x_1\mathbf{v_1}+x_2\mathbf{v_2}+\cdots+x_n\mathbf{v_n}=\mathbf{0} \]
仅有平凡解。若为线性相关的,则存在不全为0的权\(\{c_1, c_2, \cdots, c_n\}\)使得
\[ c_1\mathbf{v_1}+c_2\mathbf{v_2}+\cdots+c_n\mathbf{v_n}=\mathbf{0} \]
线性相关的特征
两个或更多向量的集合\(S=\{\mathbf{v_1}, \mathbf{v_2}, \cdots, \mathbf{v_n}\}\)线性相关,当且仅当\(S\)中至少有一个向量是其他向量的线性组合,事实上,若S线性相关,且\(\mathbf{v_1}\neq\mathbf{0}\),则某个\(\mathbf{v_j}(j>1)\)是它前面几个向量\(\{\mathbf{v_1}, \mathbf{v_2}, \cdots, \mathbf{v_{j-1}}\}\)的线性组合。
定理:若一个向量组的向量个数超过每个向量元素的个数,则该向量组线性相关。
定理:若向量组S里包含零向量,则S线性相关。
线性变换
变换\(\mathbf{T}\)是线性的,若:
- 对\(\mathbf{T}\)的定义域中的一切\(\mathbf{u}\)和\(\mathbf{v}\),都有\(\mathbf{T}(\mathbf{u}+\mathbf{v})=\mathbf{T}(\mathbf{u})+\mathbf{T}(\mathbf{v})\)
- 对一切的标量\(c\)和向量\(\mathbf{u}\),都有\(\mathbf{T}(c\mathbf{u})=c\mathbf{T}(\mathbf{u})\)
线性变换的矩阵
设\(\mathbf{T}\)是\(\mathbb{R}^n\)到\(\mathbb{R}^m\)的线性变换,\(\mathbf{T}\)的矩阵形式为\(\mathbf{A}\),则:
\[ \mathbf{T}(\mathbf{x})=\mathbf{Ax} \]
对一切\(\mathbb{R}^n\)中的向量\(\mathbf{x}\),都有\(\mathbf{T}(\mathbf{x})\)是\(\mathbb{R}^m\)中的向量。事实上,\(\mathbf{A}\)是\(m\times n\)矩阵,它的第\(i\)行是\(\mathbf{T}(\mathbf{e}_i)\),其中\(\mathbf{e}_i\)是单位矩阵\(\mathbf{I}_n\)中的第\(i\)列。 即:
\[ \mathbf{A} = \left[ \mathbf{T}(\mathbf{e}_1), \mathbf{T}(\mathbf{e}_2), \ldots, \ \mathbf{T}(\mathbf{e}_n) \right] \]
矩阵代数
设\(A\)和\(B\)为\(m\times n\)矩阵,则有如下的结果:
1、\((A^T)^T=A\),即\(A^T\)的转置等于\(A\) 2、\((AB)^T=B^TA^T\),即\(AB\)的转置等于\(B^TA^T\) 3、\((A+B)^T=A^T+B^T\),即\((A+B)\)的转置等于\(A^T+B^T\)
可逆矩阵
设\(A\)为\(m\times n\)矩阵,如果存在非零元素的\(n\times n\)矩阵\(B\),使得\(AB=BA=I_n\),则称\(A\)为可逆矩阵。不可逆矩阵也称为奇异矩阵。
对于二阶矩阵\(\begin{bmatrix}a & b\\c & d \end{bmatrix}\)的逆矩阵,有:
\[ A^{-1}=\frac{1}{ad-bc}\begin{bmatrix} d & -b\\ -c & a \end{bmatrix} \]
其中,若\(ad-bc\neq 0\),则\(A\)为可逆矩阵;若\(ad-bc=0\),则\(A\)为奇异矩阵。
如果一个维度为\(n\times n\)的矩阵\(A\)可逆,则对\(\mathbb{R}^n\)中任一向量\(\mathbf{b}\),方程\(A\mathbf{x}=\mathbf{b}\)的解\(\mathbf{x}\)也可唯一确定,解为:
\[ \mathbf{x}=\begin{bmatrix} A^{-1} \end{bmatrix}\mathbf{b} \]
可逆矩阵定理:
1、对于任意数\(r\),有\((rA)^T=rA^T\) 2、\((A^T)^{-1}=(A^{-1})^T\) 3、\((AB)^{-1}=B^{-1}A^{-1}\),即\((AB)^{-1}\)等于\(B^{-1}A^{-1}\)。
初等变换与矩阵求逆
初等变换是指将单位矩阵进行一次初等行变换。行变换是可逆的,因此得到的初等矩阵也是可逆的,并且有初等矩阵\(E\)的逆是一个同类型的初等矩阵,它将矩阵\(E\)变换到单位阵。
定理:nxn的矩阵A可逆,当且仅当A行等价于单位阵I,此时,把A变为单位阵的一系列初等行变换同时把单位阵I变为矩阵A的逆矩阵。
求逆矩阵的算法
将矩阵\(A\)和单位阵\(I\)排在一起写为增广矩阵的形式\(\begin{bmatrix}A & I \end{bmatrix}\),对增广矩阵进行行变换时,\(A\)与\(I\)同时进行同一变换,那么如果有一系列的初等行变换将\(A\)变换到单位阵,那么\(I\)将变换得到矩阵\(A^{-1}\),否则\(A\)没有逆矩阵。
注意:更有实际意义的一个观点是,将增广矩阵\(\begin{bmatrix}A & I \end{bmatrix}\)变换为\(\begin{bmatrix}I & A^{-1} \end{bmatrix}\)实际上是在解n个方程组:
\[ A\mathbf{x}=e_1,A\mathbf{x}=e_2,...,A\mathbf{x}=e_n \]
其中\(e_i\)是\(n\)维单位向量。 实际应用中并不需要求解所有方程组,只需要求解需要的\(A\mathbf{x}=e_i\)的解即可。
矩阵的因式分解
LU分解
设矩阵\(A\)为\(m\times n\)矩阵,\(A=LU\),其中\(L\)为\(m\times m\)单位下三角矩阵,\(U\)为\(m\times n\)为与\(A\)等价的阶梯型矩阵。LU分解是用来求解线性方程组的一种方法。当矩阵\(A=LU\)时,方程组\(Ax=b\)可写为\(L(Ux)=L(y)\),即转换为求解两个方程组:
\[ Ly=b \]
\[ Ux=y \]
这两个方程都很容易求解,因为它们都是三角矩阵。
LU分解的步骤: 设\(A\)可以仅用行倍加变换化简为阶梯型矩阵\(U\)。即存在一系列单位下三角初等矩阵\(E_1,E_2,...,E_p\),使得\(E_p \cdots E_1 A=U\)。于是,\(A=(E_p \cdots E_1)^{-1}U=LU\). 其中\(L=(E_p \cdots E_1)^{-1}\)
有意思的是,我们需要注意到,将A转换成U的一系列行变换,同时也将L转换成I。这是因为,\(E_p \cdots E_1 A=U\),因此,\(E_p \cdots E_1 L = I\)。那么显然,因为\(U\)的下三角部分均为\(0\),\(I\)的下三角部分也均为\(0\),因此\(L\)的下三角部分其实为A的下三角部分除以其对应主元列元素的结果。
子空间
定义:\(\mathbb{R}^n\)中的子空间是指,\(\mathbb{R}^n\)中的集合\(H\),满足:
- \(H\)中任意两个向量\(\mathbf{x},\mathbf{y}\in H\),\(\mathbf{x}+\mathbf{y}\in H\)
- \(\mathbf{x}\in H\),\(\lambda\mathbf{x}\in H\) (\(\lambda\in\mathbb{R}\))
- 零向量\(\mathbf{0}\in H\)
子空间的性质: 1.矩阵\(A\)的列空间\(Col(A)\)是指\(A\)的列向量各线性组合构成的集合。且是矩阵\(A\)的主元列向量构成的集合。 2.矩阵\(A\)的零空间\(Nul(A)\)是指\(A\)的零空间,即\(A\mathbf{x}=0\)的解\(\mathbf{x}\)构成的集合。且是矩阵\(A\)的自由变量构成的集合。
子空间的基
设\(H\)为\(\mathbb{R}^n\)中的子空间,\(H\)的基是指\(H\)中向量的集合\(B\),使得\(H=Span\{ \mathbf{b}_1,\mathbf{b}_2,\cdots,\mathbf{b}_k \}\),其中\(\mathbf{b}_1,\mathbf{b}_2,\cdots,\mathbf{b}_k\)是\(H\)中的线性无关向量。
维数与秩
坐标系
假设\(B=\{\mathbf{b}_1,\mathbf{b}_2,\cdots,\mathbf{b}_k\}\)是\(H\)的一个基,对\(\mathbf{H}\)中的每一个向量\(\mathbf{x}\),可以用基\(B\)中的向量\(\{\mathbf{b}_1,\mathbf{b}_2,\cdots,\mathbf{b}_k\}\)的坐标表示:
\[ \mathbf{x}=\sum_{i=1}^k \alpha_i\mathbf{b}_i \]
其中\(\alpha_1,\alpha_2,\cdots,\alpha_k\)是\(\mathbf{x}\)在基\(B\)中的坐标。
维数
非零子空间\(H\)的维数是指,用\(dim(H)\)表示,是指\(H\)中任意一个基的向量的个数。
秩
矩阵\(A\)的秩,记作\(rank(A)\),是指\(A\)列空间的维数。
如果一矩阵\(A\)有n列,则\(n = rank(A) + dim(Nul(A))\)。
秩与可逆矩阵定理: 如果一个矩阵\(A\)可逆,则有:
- \(rank(A)=n\)
- \(A\)的列向量构成一个\(\mathbb{R}^n\)的基.
- \(Col(A)=\mathbb{R}^n\)
- \(Nul(A)=\{0\}\)
- \(dim(Col(A))=n\)
- \(dim(Nul(A))=0\)
行列式
定义:当\(n\ge 2\)时,\(n\times n\)矩阵\(A\)的行列式\(det(A)\)是形如\(+-a_{1j}detA_{1j}\)的n个项的和,其中加减号在交替出现,其中元素\(a_{1j}\)是\(A\)的第1行第j列元素。
\[ detA = a_{11}detA_{11} - a_{12}detA_{12} + a_{13}detA_{13} - \cdots + (-1)^{n+1}a_{1n}detA_{1n}\\ = \sum_{j=1}^n (-1)^{j+1}a_{1j}detA_{1j} \]
余因子展开式:\(A\)的\((i,j)\)余因子\(C_{ij}\)由下式给出:
\[ C_{ij} = (-1)^{i+j}detA_{ij} \]
于是有,
\[ detA = \sum_{j=1}^n a_{1j}C_{1j} \]
行列式的性质
行变换定理:若A是n阶方阵,
- 若A的第i行与第j行交换,则detA的符号改变;
- 若A的某一行的倍数加到另一行得到矩阵B,则\(detA = detB\)。
- 若A的某行乘以倍数k得到矩阵B,则\(detB = k\cdot detA\)。
定理:若A 为三角阵,则detA等于A的主对角线上元素的乘积。
计算行列式可以将其化为三角矩阵来进行求解。
转置: 方阵A的转置的行列式等于A的行列式。即\(det(A^T) = detA\)。
乘法: 若方阵A与B均为\(n \times n\)矩阵,则\(detAB = detA\cdot detB\)。
克拉默法则
定义对任意\(n\times n\)矩阵\(A\)和\(\mathbb{R}^n\)中的向量\(\mathbf{b}\),\(A_i(\mathbf{b})\)*表示A中第i列由向量\(\mathbf{b}\)替换得到的矩阵。
\[ A_i(\mathbf{b}) = [\mathbf{a_1} \cdots \mathbf{b} \cdots \mathbf{a_n}] \]
克拉默法则: 设\(A\)是一个可逆的\(n \times n\)矩阵,\(\mathbf{b}\)是一个\(n\)维向量,方程\(A\mathbf{x}=\mathbf{b}\)的唯一解\(\mathbf{x}\)存在,可由下式给出:
\[ x_i = \frac{detA_i(\mathbf{b})}{detA},i=1,2,\cdots,n \]
逆矩阵公式:
\[ A^{-1} = \frac{1}{detA}\begin{bmatrix} C_{11} & C_{21} & \cdots & C_{n1}\\ C_{12} & C_{22} & \cdots & C_{n2}\\ \vdots & \vdots & \ddots & \vdots\\ C_{1n} & C_{2n} & \cdots & C_{nn} \end{bmatrix} \]
其中\(C_{ij}\)是\(A\)的\((i,j)\)余因子,所构成的矩阵称为伴随矩阵,记作\(adjA\)。
向量空间与子空间
向量空间的定义: 一个向量空间是由一些被称为向量的对象构成的非空集合\(\mathbf{V}\),以及两个运算:
- 加法:\(\mathbf{v},\mathbf{w}\in\mathbf{V}\),\(\mathbf{v}+\mathbf{w}\in\mathbf{V}\)
- 标量乘法:\(\alpha\in\mathbb{R},\mathbf{v}\in\mathbf{V}\),\(\alpha\mathbf{v}\in\mathbf{V}\)并且有以下公理:
- \(\mathbf{u}+\mathbf{v}=\mathbf{v}+\mathbf{u}\)
- \((\mathbf{u}+\mathbf{v})+\mathbf{w}=\mathbf{u}+(\mathbf{v}+\mathbf{w})\)
- \(\mathbf{V}\)中存在一个零向量\(\mathbf{0}\),使得\(\forall\mathbf{v}\in\mathbf{V},\mathbf{v}+\mathbf{0}=\mathbf{v}\)。
- 对每一个\(\mathbf{v}\in\mathbf{V}\),存在一个负向量\(\mathbf{-v}\),使得\(\mathbf{v}+\mathbf{-v}=\mathbf{0}\)。
- \(c(\mathbf{v}+\mathbf{w})=c\mathbf{v}+c\mathbf{w}\)
- \((a+b)\mathbf{v}=a\mathbf{v}+b\mathbf{ v}\)
- \(c(d\mathbf{v})=(cd)\mathbf{v}\)
- \(1\mathbf{v}=\mathbf{v}\)
子空间
定义:设\(\mathbf{V}\)是一个向量空间,\(\mathbf{H}\subset\mathbf{V}\),如果\(\mathbf{H}\)是一个子空间如果满足以下三个性质: a. \(\mathbf{H}\)中存在一个零向量\(\mathbf{0}\) b. \(\mathbf{H}\)对向量加法封闭,即\(\forall\mathbf{v}\in\mathbf{H},\forall\mathbf{w}\in\mathbf{H},\mathbf{v}+\mathbf{w}\in\mathbf{H}\) c. \(\mathbf{H}\)对标量乘法封闭,即\(\forall\alpha\in\mathbb{R},\forall\mathbf{v}\in\mathbf{H},\alpha\mathbf{v}\in\mathbf{H}\)
定理:若\(v_1,v_2,\cdots,v_n\)是\(\mathbf{V}\)中的向量,则\(Span\{v_1,v_2,\cdots,v_n\}\)是\(\mathbf{V}\)的一个子空间。
矩阵的零空间
定义:设\(A\)是一个\(m\times n\)矩阵,\(\mathbf{v}\in\mathbb{R}^n\),则\(A\mathbf{v}=0\)的解集称为矩阵\(A\)的零空间。表示为:
\[ Nul(A) = \{ \mathbf{v}\in\mathbb{R}^n : A\mathbf{v}=0 \} \]
定理:\(A\)是一个\(m\times n\)矩阵,则\(Nul(A)\)是\(\mathbb{R}^n\)的一个子空间。等价地说,m个方程,n个未知数的齐次线性方程组\(Ax=0\)的解集是\(\mathbb{R}^n\)的一个子空间。
列空间
定义:设\(A\)是一个\(m\times n\)矩阵,则\(A\)的列的所有线性组合组成的集合是\(A\)的列空间,记作\(Col(A)=Span\{ \mathbf{a}_1,\mathbf{a}_2,\cdots,\mathbf{a}_n\}\)。
定理:\(A\)是一个\(m\times n\)矩阵,则\(Col(A)\)是\(\mathbb{R}^m\)的一个子空间。 注意到,\(Col(A)\)可以写为
\[ Col(A) = \{\mathbf{b}:\mathbf{b}=A\mathbf{x},\mathbf{x}\in \mathbb{R}^n\},\mathbf{x}为某向量。 \]
线性变换的核与值域
定义:设\(T:V\to W\)是一个线性变换,它将\(\mathbf{V}\)中的每个向量\(\mathbf{v}\)映射到\(\mathbf{W}\)中的一个向量唯一向量\(\mathbf{w} = T(v)\),并且满足:
- \(T(\mathbf{u}+\mathbf{v})=T(\mathbf{u})+T(\mathbf{v})\)
- \(T(\alpha\mathbf{v})=\alpha T(\mathbf{v})\), 对所有\(\alpha\in\mathbb{R}\)和\(\forall\mathbf{v}\in\mathbf{V}\)均成立。
线性变换T的核(kernel): 设\(T:V\to W\)是一个线性变换,则线性变换T的核是\(\mathbf{V}\)中所有满足\(T(\mathbf{v})=\mathbf{0}\)的向量的集合。记作\(ker(T)\)。T的值域是\(\mathbf{W}\)中所有具有形式\(T(v)(\forall v\in V)\)的向量的集合。
如果一个线性变换T是由一个矩阵变换得到的,即\(T(x)=Ax\),则T的值域与核恰好是A的列空间核与零空间。
基
定义:设\(\mathbf{V}\)是一个向量空间,令\(\mathbf{H}\)是向量空间\(\mathbf{V}\)的一个子空间,\(\mathbf{V}\)中向量的指标集\(\mathbf{B}=\{\mathbf{b}_1,\mathbf{b}_2,\cdots,\mathbf{b}_m\}\)称为\(\mathbf{H}\)的一个基,如果有:
- \(\mathbf{B}\)是一个线性无关集。
- 由\(\mathbf{B}\)生成的子空间与\(\mathbf{H}\)相同。
定理:矩阵A的主元列构成了A的列空间的基。
生成集定理: 令\(S=\{v_1,v_2,\cdots,v_n\}\)是\(\mathbf{V}\)中的向量集,且有\(H=Span\{v_1,v_2,\cdots,v_n\}\) a. 若\(S\)中的某一个向量\(\mathbf{v_k}\),是S其余向量的线性组合,则S去掉\(\mathbf{v_k}\)后形成的集合仍然能够生成\(\mathbf{H}\)。 b. 若\(H\neq \{\mathbf{0}\}\),则S的某一子集是H的一个基。
坐标系
对于向量空间\(V\)中的一组基\(B=\{b_1,b_2,\cdots,b_n\}\),则对\(V\)中的每个向量\(x\),可以用基\(B\)中的元素表示为:
\[ \mathbf{x} = \sum_{i=1}^n a_i\mathbf{b_i} \]
于是,定义\(\mathbf{x}\)相对于基\(B\)的坐标是使得\(\mathbf{x}=\sum_{i=1}^n a_i\mathbf{b_i}\)的权\(a_1,a_2,\cdots,a_n\)。记作
\[ [\mathbf{x}]_B = \begin{bmatrix} a_1\\ a_2\\ \vdots\\ a_n \end{bmatrix} \]
令
\[ P_B = [\mathbf{b_1},\mathbf{b_2},\cdots,\mathbf{b_n}] \]
则\(\mathbf{x}=a_1\mathbf{b_1}+a_2\mathbf{b_2}+\cdots+a_n\mathbf{b_n}\)等价于\(\mathbf{x}=P_B[\mathbf{x}]_B\).称\(P_B\)为从\(B\)到\(\mathbb{R}^n\)的坐标变换矩阵。
向量空间的维数
若向量空间\(\mathbf{V}\)中存在一组基\(\{\mathbf{b}_1,\mathbf{b}_2,\cdots,\mathbf{b}_n\}\),则\(\mathbf{V}\)中任意包含多于n个向量的集合一定线性相关。
定理:若向量空间\(\mathbf{V}\)是由一个有限集生成的,则称\(\mathbf{V}\)为有限维的,其维数写为\(dim(\mathbf{V})\)。是指\(\mathbf{V}\)的基中含有向量的个数。零向量空间 \(\{\mathbf{0}\}\) 的维数定义为0。反之,如果\(\mathbf{V}\)不是由一有限集生成,那么其称为无穷维的。
定理:令\(\mathbf{H}\)为\(\mathbf{V}\)的一个子空间,则\(\mathbf{H}\)中任意一个线性无关集均可以扩充为\(\mathbf{H}\)的一个基,\(\mathbf{H}\)也是有限维的,且有:
\[ dim(\mathbf{H}) \leq dim(\mathbf{V}) \]
NulA的维数是方程Ax=0中自由变量的个数,ColA的维数是A中主元列的个数。
秩
定理:若两个矩阵\(A\)和\(B\)行等价,则它们的行空间相同。若B为阶梯型矩阵,则B的非零行构成A的行空间的一个基的同时也构成了B的行空间的一个基。
A的秩即为A的列空间的维数。
秩定理:设\(A\)为\(m\times n\)矩阵,A的行空间与列空间的维数相等,这个维数称为A的秩,还等于A的主元位置的个数且满足:
\[ rank(A) + dim(NulA) = n \]
秩与可逆矩阵定理:设\(A\)为\(n\times n\)矩阵,如果A是可逆矩阵,则有:
- A的列构成\(\mathbb{R}^n\)的一个基。
- \(ColA=\mathbb{R}^n\)
- \(dimColA=n\)
- \(rank(A)=n\)
- \(NulA=\{\mathbf{0}\}\)
- \(dim(NulA)=0\)
注意到:A的行空间是\(A^T\)的列空间,又A可逆当且仅当\(A^T\)可逆。,所以对上述一系列判读可逆矩阵同样适用于\(A^T\)。
基变换
设\(B=\{\mathbf{b_1},\mathbf{b_2},\cdots,\mathbf{b_n}\}\)与\(C=\{\mathbf{c_1},\mathbf{c_2},\cdots,\mathbf{c_n}\}\)是向量空间\(\mathbf{V}\)的两个基,则存在一个\(n \times n\)矩阵\(P\),使得:
\[ [\mathbf{x}]_C = P[\mathbf{x}]_B \]
且,\(P\)的列是基\(B\)中向量的\(C-坐标向量\),即:
\[ P = \begin{bmatrix} [\mathbf{b_1}]_C, [\mathbf{b_2}]_C, \cdots [\mathbf{b_n}]_C \end{bmatrix} \]
若\(B=\{\mathbf{b_1},\mathbf{b_2},\cdots,\mathbf{b_n}\}\),\(E\)是\(\mathbb{R}^n\)的标准基\(\{\mathbf{e}_1,\mathbf{e}_2,\cdots,\mathbf{e}_n\}\),则\([\mathbf{b_1}]_E=\mathbf{b_1}\),\(B\)中的其他向量也类似,引入坐标变换矩阵\(P_{E\leftarrow B}\),则其与\(P_B\)等价。
马尔科夫链的矩阵形式
定义: 概率向量:一个具有非负分量,且各分量的数值相加等于1的向量称为概率向量。 概率矩阵:随机矩阵是指各列向量都是概率向量的矩阵。 马尔科夫链:一个马尔科夫链是一个概率向量序列\(\mathbf{x_1},\mathbf{x_2},\cdots,\mathbf{x_n}\)和一个随机转移矩阵\(P\),满足:
\[ \mathbf{x_i} = P\mathbf{x_{i-1}},i=2,3,\cdots,n0 \]
\(\mathbf{x_k}\)中的数值分别列出来一个系统在n各可能状态下的概率,或者实验结果是n个可能概率之一的概率。因此,\(\mathbf{x_k}\)通常被称为状态向量。
稳态向量:若P是一个随机矩阵,则相对于P的稳态向量是一个满足:
\[ P\mathbf{q}=\mathbf{q} \]
的概率向量\(\mathbf{q}\)。每一个随机矩阵都有一个稳态向量。
定理:若P是一个\(n\times n\)正规的随机矩阵,则P具有唯一的稳态向量\(\mathbf{q}\).进一步的,如果\(\mathbf{x_0}\)是任一个起始状态,且有\(\mathbf{x_{k+1}}=P\mathbf{x_k},k=0,1,\cdots\),则当\(k\rightarrow\infty\)时,马尔科夫链\(\{\mathbf{x_k}\}\)收敛到稳态向量\(\mathbf{q}\).
特征值与特征向量
定义:\(\mathbf{A}\)为\(n \times n\)矩阵,\(\mathbf{x}\)为非零向量,若存在数\(\lambda\)使得\(\mathbf{Ax}=\lambda \mathbf{x}\)成立,则称\(\lambda\)为\(\mathbf{A}\)的特征值,\(\mathbf{x}\)称为对应于\(\lambda\)的特征向量。
定理:三角矩阵的主对角线元素是特征值。
注意:\(\lambda\)是\(A\)的特征值当且仅当
\[ (A-\lambda I)\mathbf{x}=\mathbf{0} \]
定理:\(\lambda_1,\cdots,\lambda_r\)是\(n \times n\)矩阵A相异的特征值,\(\mathbf{v}_1,\cdots,\mathbf{v}_r\)是与\(\lambda_1,\cdots,\lambda_r\)对应的特征向量,那么向量集合\(\{\mathbf{v}_1,\cdots,\mathbf{v}_r\}\)线性无关。
特征方程
求解特征方程是指,找出所有的\(\lambda\),使得\(\mathbf{A}\mathbf{x}=\lambda\mathbf{x}\)成立。等价于要求出所有的\(\lambda\),使得矩阵\(\mathbf{A}-\lambda I\)为不可逆矩阵。
行列式与特征方程:设A为\(n\times n\)矩阵,则\(\mathbf{A}\)是可逆的当且仅当 1.0不是A的特征值。 2.A的行列式不为0。
行列式的性质
设A和B为\(n\times n\)矩阵,则: a. A可逆的充分必要条件是A的行列式不为0。 b. \(det(AB)=det(A)det(B)\) c. \(detA^T=detA\) d.若\(A\)是三角矩阵,那么\(detA\)是\(A\)的主对角线元素的乘积。 e.对\(A\)作行替换不改变院行列式的值,做一次行交换使其行列式值的符号改变一次。数乘一行后,行列式的值等于用此数乘原来的行列式。
定理:数\(\lambda\)是\(n \times n\)矩阵A的特征值的充分必要条件是\(\lambda\)是特征方程\(det(A-\lambda I)=0\)的根。
相似性
设A和B为\(n\times n\)矩阵,如果存在可逆矩阵P,使得\(P^{-1}AP=B\),或者等价地\(A=PBP^{-1}\),则称A相似于B。记\(Q=P^{-1}\),则有\(Q^{-1}BQ=A\),即B也相似于A。把A变为\(P^{-1}AP\)的变换称为相似变换。
定理:如果\(n\times n\)矩阵A与B是相似的,那么它们有相同的特征多项式,从而有相同的特征值。
对角化
如果\(n\times n\)矩阵A相似于对角矩阵,即存在可逆矩阵P和对角矩阵D,有\(A=P^{-1}DP\),则称A为可对角化矩阵。
定理:如果\(n\times n\)矩阵A可对角化可对角化的充分必要条件是\(\mathbf{A}\)有n个线性无关的特征向量。事实上,\(A=P^{-1}DP\),D为对角矩阵的充分必要条件是P的列向量是A的n个线性无关的特征向量。此时,D中对角线上的元素分别是A的对应于P中特征向量的特征值。
注意到,A可对角化也就是说有足够的特征向量形成\(\mathbb{R}^n\)的一个基,我们称这组基为特征向量基。
定理:有n个相异特征值的\(n\times n\)矩阵可对角化。(是充分的,但不是充要的)
微分方程中的应用
(待续)
正交性和最小二乘法
向量的长度:向量 \(\mathbf{v}\)的长度(范数)是非负数\(||\mathbf{v}||\),定义为:
\[ ||\mathbf{v}||=\sqrt{\mathbf{v} \cdot \mathbf{v}}=\sqrt{\sum_{i=1}^n v_i^2} 且 ||\mathbf{v}||^2 = \mathbf{v} \cdot \mathbf{v} \]
对于任意数\(c \in \mathbb{R}\),有:
\[ c||\mathbf{v}||= \left |c \right| \left \Vert \mathbf{v} \right \Vert \]
长度为1的向量称为单位向量,如果把一个非零向量除以自身长度,即乘以\(1/||\mathbf{v}||\),那么得到的向量就是单位向量,这称为向量\(\mathbf{v}\)的单位化。
\(\mathbb{R}^n\)空间中的向量\(\mathbf{v}\)和\(\mathbf{w}\)的距离,记作\(dist(\mathbf{v},\mathbf{w})\),定义为:
\[ dist(\mathbf{v},\mathbf{w})=\left \Vert \mathbf{v}-\mathbf{w} \right \Vert = \sqrt{(\mathbf{v}-\mathbf{w}) \cdot (\mathbf{v}-\mathbf{w})} \]
正交向量
如果向量\(\mathbf{v} \cdot \mathbf{w}=0\),则称\(\mathbf{v}\)和\(\mathbf{w}\)是相互正交的,记作\(\mathbf{v} \perp \mathbf{w}\)。
毕达哥斯拉定理:两个向量\(\mathbf{v}\)和\(\mathbf{w}\)相互正交的充要条件是\({\left \Vert \mathbf{v}+\mathbf{w} \right \Vert}^2=\left \Vert \mathbf{v} \right \Vert^2+\left \Vert \mathbf{w} \right \Vert^2\)。
正交补
如果向量\(\mathbf{z}\)与\(\mathbb{R}^n\)的子空间\(\mathbf{W}\)中的任意向量都正交,则称\(\mathbf{z}正交于\mathbf{W}\)。那么与子空间\(\mathbf{W}\)正交的向量\(\mathbf{z}\)的集合称为\(\mathbf{W}\)的正交补,记作\(\mathbf{W}^{\perp}\)。
定理1:
- 向量\(\mathbf{x}\)属于\(\mathbf{W}^{\perp}\)的充分必要条件是向量\(\mathbf{x}\)与生成空间\(\mathbf{W}\)中任一向量\(\mathbf{w}\)都不正交。
- \(\mathbf{W}^{\perp}\)是\(\mathbb{R}^n\)的一个子空间。
定理2:假设矩阵\(\mathbf{A}\)是\(m\times n\)的矩阵,那么\(\mathbf{A}\)的行向量空间的正交补空间是\(\mathbf{A}\)的零空间,且\(\mathbf{A}\)的列向量空间的正交补是\(\mathbf{A}^{\intercal}\)的零空间:
\[ (Row A)^{\perp}= Nul(A) \quad 且\quad(Col A)^{\perp}= Nul(A^T) \]
正交集
\(\mathbb{R}^n\)中的向量集合\(\{\mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_k\}\)称为正交向量集,如果集合中任意两个不同的向量都正交,即当\(i \neq j\)时,有\(\mathbf{v}_i \perp \mathbf{v}_j\)。
定理3:如果\(S=\{\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_k\}\)是\(\mathbb{R}^n\)中的非零向量构成的正交向量集,那么\(S\)是线性无关集,因此构成所生成子空间\(\mathbf{S}\)的一组基。
定理4:假设\(\{\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_p\}\)是\(\mathbb{R}\)中子空间\(\mathbb{W}\)的正交基,则对\(\mathbb{W}\)中的每个向量\(\mathbf{y}\),线性组合\(\mathbf{y}=c_1\mathbf{u}_1+c_2\mathbf{u}_2+\cdots+c_p\mathbf{u}_p\)的系数\(c_1,c_2,\cdots,c_p\)中的权值可以由\(c_j=\frac{\mathbf{y} \cdot \mathbf{u}_j}{\mathbf{u}_j \cdot \mathbf{u}_j} \quad (j=1,2,\cdots,p)\)给出。
正交投影
考虑\(\mathbb{R}^n\)中的一个向量\(\mathbf{y}\)分解为两个向量之和的问题,一个向量是\(\mathbf{u}\)的数量乘积,另一个向量与\(\mathbf{u}\)垂直,其中向量\(\mathbf{u}\)是给定的。写为:
\[ \mathbf{y}= \mathbf{\hat{y}}+\mathbf{z} \]
其中,\(\mathbf{\hat{y}}=\alpha \mathbf{u} \quad \alpha是个数\),\(\mathbf{z}\)是一个垂直于\(\mathbf{u}\)的向量。
可以求得, \(\alpha = \frac{\mathbf{y} \cdot \mathbf{u}}{\mathbf{u} \cdot \mathbf{u}}\) \(\mathbf{\hat{y}}=\frac{\mathbf{y}\cdot\mathbf{u}}{\mathbf{u} \cdot \mathbf{u}} \cdot \mathbf{u}\)。 称向量\(\mathbf{\hat{y}}\)是\(\mathbf{y}\)在\(\mathbf{u}\)上的正交投影,而向量\(\mathbf{z}\)是\(\mathbf{y}\)垂直\(\mathbf{u}\)的分量。
例子:对于向量空间\(\mathbf{W}=\mathbb{R}^2=Span\{\mathbf{u}_1,\mathbf{u}_2\}\),\(\mathbf{u}_1,\mathbf{u}_2\)相互正交,那么对于任意\(\mathbb{R}^2\)中的向量\(\mathbf{y}\),都有:
\[ \mathbf{y}=\frac{\mathbf{y}\cdot\mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1} \cdot \mathbf{u}_1+\frac{\mathbf{y}\cdot\mathbf{u}_2}{\mathbf{u}_2 \cdot \mathbf{u}_2} \cdot \mathbf{u}_2 \]
单位正交集
集合\(\{\mathbf{u}_1,\cdots,\mathbf{u}_n\}\)是一个单位正交集,如果它们是由单位向量构成的正交集。如果\(\mathbf{W}\)是一个由单位正交集组成的子空间,那么\(\{\mathbf{u}_1,\cdots,\mathbf{u}_n\}\)是\(\mathbf{W}\)的单位正交基,因为这类集合自然线性无关。
定理5:一个\(m \times n\)矩阵\(\mathbf{U}\)具有单位正交列向量的充分必要条件是\(\mathbf{U}^{\intercal}\mathbf{U}=\mathbf{I}\)。
定理6:假设\(\mathbf{U}\)是一个具有单位正交列向量的\(m \times n\)矩阵,且\(\mathbf{x}\)和\(\mathbf{y}\)是\(\mathbb{R}^n\)中的向量,那么: a. \(\left \Vert U\mathbf{x} \right \Vert=\left \Vert \mathbf{x} \right \Vert\) b. \((\left \Vert U\mathbf{x} \right \Vert)(\left \Vert U\mathbf{y} \right \Vert)= \mathbf{x} \cdot \mathbf{y}\) c. \((\left \Vert U\mathbf{x} \right \Vert)(\left \Vert U\mathbf{y} \right \Vert)=0\)的充要条件是\(\mathbf{x} \perp \mathbf{y}\)。 这些性质表明:线性映射\(\mathbf{x}\mapsto U\mathbf{x}\)保持长度和正交性。
定理5和定理6表明一个 正交矩阵 就是一个可逆的方阵\(U\),且满足:\(U^T=U^{-1}\)。这样的矩阵具有单位正交列,且任何具有单位正交列的方阵是正交矩阵。
正交分解
正交分解定理:若\(W\)是\(\mathbb{R}^n\)的子空间,那么\(\mathbb{R}^n\)中的每一个向量\(\mathbf{y}\)都可以唯一表示为:
\[ \mathbf{y}=\mathbf{\hat{y}}+\mathbf{z} \]
其中\(\mathbf{\hat{y}}\)属于\(\mathbf{W}\),\(\mathbf{z}\)属于\(\mathbf{W}^{\perp}\)。如果\(\{\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_p\}\)是\(\mathbf{W}\)的正交基,那么\(\mathbf{y}\)可以唯一表示为:
\[ \mathbf{y}=\sum_{i=1}^p \frac{\mathbf{y}\cdot\mathbf{u}_i}{\mathbf{u}_i \cdot \mathbf{u}_i} \mathbf{u}_i \]
且\(\mathbf{z}=\mathbf{y}-\mathbf{\hat{y}}\)。式中,\(\mathbf{\hat{y}}\)称为 \(\mathbf{y}\)在\(W\)上的正交投影,记作\(proj_w(\mathbf{y})\)。
正交投影的性质:如果\(\{\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_p\}\)是\(\mathbf{W}\)的正交基,且如果\(\mathbf{y}\)属于\(\mathbf{W}\),那么\(proj_w(\mathbf{y})=\mathbf{y}\)。
最佳逼近定理:假设\(W\)是一个\(\mathbb{R}^n\)的子空间,\(\mathbf{y}\)是\(\mathbb{R}^n\)中的任意向量,\(\mathbf{\hat{y}}\)是\(\mathbf{y}\)在\(W\)上的正交投影,那么\(\mathbf{\hat{y}}\)是\(W\)上最接近\(\mathbf{y}\)的点,也就是
\[ \left \Vert \mathbf{y}-\mathbf{\hat{y}} \right \Vert \leq \left \Vert \mathbf{y}-\mathbf{v} \right \Vert \]
对于所有属于\(W\)又异于\(\mathbf{\hat{y}}\)的向量\(\mathbf{v}\)成立。
定理7:如果\(\{\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_p\}\)是\(\mathbb{R}^n\)中子空间\(\mathbf{W}\)的单位正交基,那么:
\[ proj_w(\mathbf{y})=(\mathbf{y}\cdot\mathbf{u}_1)\mathbf{u}_1+\cdots+(\mathbf{y}\cdot\mathbf{u}_p)\mathbf{u}_p \]
如果\(U=[\mathbf{u}_1\ \cdots\ \mathbf{u}_p]\),则:
\[ proj_w(\mathbf{y})=UU^T\mathbf{y},对所有\mathbf{y}\in\mathbb{R}^n成立 \]
格拉姆-施密特方法
格拉姆-施密特方法是对\(\mathbb{R}^n\)中任何非零子空间构造正交集或标准正交集的简单算法。
步骤: 对\(\mathbb{R}^n\)中的子空间的一个基\(\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_p\}\),定义:
\[ \mathbf{v}_1=\mathbf{x}_1\\ \mathbf{v}_2=\mathbf{x}_2-\frac{\mathbf{x}_2 \cdot \mathbf{v}_1}{\mathbf{v}_1\cdot\mathbf{v}_1}\mathbf{v}_1\\ \cdots\\ \mathbf{v}_p=\mathbf{x}_p-\frac{\mathbf{x}_p \cdot \mathbf{v}_1}{\mathbf{v}_1\cdot\mathbf{v}_1}\mathbf{v}_1-\frac{\mathbf{x}_p \cdot \mathbf{v}_2}{\mathbf{v}_2\cdot\mathbf{v}_2}\mathbf{v}_2+\cdots-\frac{\mathbf{x}_p \cdot \mathbf{v}_{p-1}}{\mathbf{v}_{p-1}\cdot\mathbf{v}_{p-1}}\mathbf{v}_{p-1} \]
那么\(\{\mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_p\}\)就是\(\mathbf{W}\)的一个正交基,此外
\[ Span\{\mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_p\}=Span\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_k\},其中1\leq k\leq p \]
注意到,如果需要得到一个标准正交基,只需要单位化所有的向量\(\mathbf{v}_k\)即可。
QR分解:如果\(m \times n\)矩阵\(\mathbf{A}\)的列线性无关,\(\mathbf{A}\)可以分解为\(A=QR\),其中\(Q\)是一个\(m \times n\)的矩阵,其列形成了\(ColA\)的一个标准正交基,\(R\)是一个\(n \times n\)的上三角矩阵可逆矩阵且在对角线上的元素为正数。
应用:\(A\)的列向量构成\(ColA\)的一个基\(\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\}\),构造\(W=ColA\)的一个标准正交基\(\{\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_n\}\),这个基可以由格拉姆-施密特方法构造。 取
\[ Q= [\mathbf{u}_1\ \cdots\ \mathbf{u}_n] \]
对\(k=1,2,\cdots,n\),\(\mathbf{x_k}\)属于\(Span\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_{k}\}=Span\{\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_{k}\}\),所以存在常数\(r_{1k},r_{2k},\cdots,r_{kk}\)使得:
\[ \mathbf{x}_k=r_{1k}\mathbf{u}_1+\cdots+r_{kk}\mathbf{u}_k+0\cdot \mathbf{u}_{k+1}+\cdots+0\cdot \mathbf{u}_n \]
可以假设\(r_{kk}\geq 0\)(否则,则对\(r_{kk}\)和\(\mathbf{u}_k\)都乘以-1),那这表明\(\mathbf{x_k}\)是\(Q\)的列的线性组合,且其权为
\[ \begin{bmatrix} r_{1k}\\ \vdots\\ r_{kk}\\ 0\\ \vdots\\ 0 \end{bmatrix} \]
即\(\mathbf{x}_k=Q\mathbf{r}_k\),其中\(k=1,2,\cdots,n\)。取\(R=[\mathbf{r}_1\ \cdots\ \mathbf{r}_n]\),那么
\[ A=[\mathbf{x}_1\ \cdots\ \mathbf{x}_n]=[Q\mathbf{r}_1\ \cdots\ Q\mathbf{r}_n]=QR \]
注意到,如果Q的列是单位正交向量,则有\(Q^TA=Q^T(QR)=IR=R\)
最小二乘法
考虑\(A\mathbf{x}\)作为\(\mathbf{b}\)的一个近似,\(\mathbf{b}\)和\(A\mathbf{x}\)之间的距离越小,\(\left \Vert \mathbf{b}-A\mathbf{x} \right \Vert\)近似程度越好。一般的最小二乘问题就是找出使得\(\left \Vert \mathbf{b}-A\mathbf{x} \right \Vert\)尽量小的\(\mathbf{x}\)。
定义:如果\(m \times n\)矩阵\(A\)和向量\(\mathbf{b}\)属于\(\mathbb{R}^m\),则\(A\mathbf{x}=\mathbf{b}\)的最小二乘解是\(\mathbb{R}\)中的向量\(\mathbf{\hat{x}}\),使得:
\[ \left \Vert \mathbf{b}-A\mathbf{\hat{x}} \right \Vert \leq \left \Vert \mathbf{b}-A\mathbf{x} \right \Vert \]
对于所有\(\mathbf{x}\in \mathbb{R}^n\)成立。
对于上述问题的\(A\)和\(\mathbf{b}\),应用最佳逼近定理与子空间\(ColA\) 取
\[ \mathbf{\hat{b}}=proj_{ColA}(\mathbf{b}) \]
由于\(\mathbf{\hat{b}}\)属于\(A\)的列空间,故方程\(A\mathbf{x}=\mathbf{\hat{b}}\)是相容的且存在一个属于\(\mathbb{R}^n\)的\(\mathbf{\hat{x}}\)使得
\[ \begin{equation} A\mathbf{\hat{x}}=\mathbf{\hat{b}} \end{equation} \]
由于\(\mathbf{\hat{b}}\)是\(ColA\)中最接近\(\mathbf{b}\)的点,因此一个向量\(\mathbf{\hat{x}}\)是\(A\mathbf{x}=\mathbf{b}\)的一个最小二乘解的充分必要条件\(\mathbf{\hat{x}}\)满足(1)式。这个属于\(\mathbb{R}^n\)的\(\mathbf{\hat{x}}\)是由一系列由A的列构造的\(\mathbf{\hat{b}}\)的权。
若\(\mathbf{\hat{x}}\)满足\(A\mathbf{\hat{x}}=\mathbf{\hat{b}}\),则由正交分解定理,投影\(\mathbf{\hat{b}}\)具有性质\(\mathbf{b}-\mathbf{\hat{b}}\)与\(ColA\)正交,即\(\mathbf{b}-A\mathbf{\hat{x}}\)正交于\(A\)的每一列。如果\(\mathbf{a}_j\)是\(A\)的某一列,那么\(\mathbf{a}_j \cdot (\mathbf{b}-A\mathbf{\hat{x}})=0\)且\(\mathbf{a}_j^T\cdot (\mathbf{b}-A\mathbf{\hat{x}})=0\).由于每一个\(\mathbf{a}_j^T\)是\(A^T\)的行,于是
\[ A^T(\mathbf{b}-A\mathbf{\hat{x}})=\mathbf{0} \]
于是
\[ \begin{equation} A^T\mathbf{b}=A^T A\mathbf{\hat{x}} \end{equation} \]
于是方程(2)表示的线性方程组称为\(A\mathbf{x}=\mathbf{b}\)的法方程,其解用\(\mathbf{\hat{x}}\)表示。
定理8:方程\(A\mathbf{x}=\mathbf{b}\)的最小二乘解集和法方程\(A^T\mathbf{b}=A^T A\mathbf{\hat{x}}\)的非空解集一致。
定理9:设\(A\)是\(m \times n\)矩阵,则下面的条件是逻辑等价的
- 对于\(\mathbb{R}^n\)中的每个\(\mathbf{b}\),方程\(A\mathbf{x}=\mathbf{b}\)有唯一最小二乘解
- \(A\)的列是线性无关的
- 矩阵\(A^T A\)是可逆的 当上述条件成立时,唯一的最小二乘解\(\mathbf{\hat{x}}\)可以表示为:
\[ \mathbf{\hat{x}}=(A^T A)^{-1}A^T\mathbf{b} \]
定理10:给定一个\(m \times n\)矩阵\(A\),它具有线性无关的列,取\(A=QR\)是\(A\)的QR分解,那么对于每一个属于\(\mathbb{R}^n\)的向量\(\mathbf{b}\),方程\(A\mathbf{x}=\mathbf{b}\)的有唯一的最小二乘解为:
\[ \mathbf{\hat{x}}=R^{-1}Q^T\mathbf{b} \]
应用
(待续)
内积空间
定义:向量空间\(V\)上的内积是一个函数,对每一对属于\(V\)的向量\(\mathbf{u}\)和\(\mathbf{v}\),存在一个实数\(<\mathbf{u},\mathbf{v}>\)满足下述公理,其中\(\mathbf{u},\mathbf{v}和\mathbf{w}\)都是\(V\)中的向量,\(c\)是所有数:
- \(<\mathbf{u},\mathbf{v}>=<\mathbf{v},\mathbf{u}>\)
- \(<\mathbf{u}+\mathbf{v},\mathbf{w}>=<\mathbf{u},\mathbf{w}>+<\mathbf{v},\mathbf{w}>\)
- \(<c\mathbf{u},\mathbf{v}>=c<\mathbf{u},\mathbf{v}>\)
- \(<\mathbf{u},\mathbf{u}>\geq 0\)且\(<\mathbf{u},\mathbf{u}>=0\)当且仅当\(\mathbf{u}=0\)
一个赋予上述内积的向量空间称为内积空间。
长度、距离和正交性
设\(V\)是一个内积空间,其内积记作\(<\mathbf{u},\mathbf{v}>\).像\(\mathbb{R}^n\)一样,我们定义一个向量\(\mathbf{v}\)的长度或范数为:
\[ \left \Vert \mathbf{v} \right \Vert=\sqrt{<\mathbf{v},\mathbf{v}>} \]
一个 单位向量是长度为1的向量,向量\(\mathbf{u}\)和\(\mathbf{v}\)的距离是\(\left \Vert \mathbf{u}-\mathbf{v} \right \Vert\)。向量\(\mathbf{u}\)和向量\(\mathbf{v}\)正交,如果\(<\mathbf{u},\mathbf{v}>=0\)。
给定内积空间\(V\)中的向量\(\mathbf{v}\)和有限维子空间\(W\),我们可以得到:
\[ \left \Vert \mathbf{v} \right \Vert^2=\left \Vert proj_W(\mathbf{v}) \right \Vert^2+\left \Vert \mathbf{v}-proj_W(\mathbf{v}) \right \Vert^2 \]
柯西-施瓦茨不等式:对于\(V\)中的任意向量\(\mathbf{v}\)和\(\mathbf{u}\),有:
\[ \left \Vert <\mathbf{v},\mathbf{u}> \right \Vert\leq \left \Vert \mathbf{v} \right \Vert\left \Vert \mathbf{u} \right \Vert \]
定理11:对属于\(V\)的任意向量\(\mathbf{v}\)和\(\mathbf{u}\),有:
\[ \left \Vert \mathbf{u}+\mathbf{v} \right \Vert\leq \left \Vert \mathbf{u} \right \Vert+\left \Vert \mathbf{v} \right \Vert \]
对称矩阵与二次型
对称矩阵是一个\(n\times n\)方阵,满足\(A_T=A\)。
定理1:如果\(A\)是对称矩阵,那么不同特征空间的任意两个特征向量是正交的。
一个矩阵\(A\)称为可正交对角化,如果存在一个正交矩阵\(P\)(满足\(P^{-1}=P^T\))和一个对角矩阵\(D\),使得
\[ A=PDP^T=PDP^{-1} \]
定理2:一个\(n\times n\)矩阵\(A\)可正交对角化当且仅当\(A\)是对称矩阵。
谱定理:矩阵\(A\)的特征值的集合称为\(A\)的谱。一个对称的\(n\times n\)矩阵\(A\)有如下性质:
- \(A\)有n个实特征值,包含重复的特征值。
- 对每一个特征值\(\lambda\),对应的特征空间的维数等于\(\lambda\)作为特征方程的根的重数。
- 特征空间相互正交,这种正交性是在特征向量对应于不同特征值的意义下成立的。
- \(A\)可正交对角化
谱分解
假设\(A=PDP^{-1}\),其中\(P\)的列是\(A\)的单位正交特征向量\(\{\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_n\}\),且对应的特征值为\(\{\lambda_1,\lambda_2,\cdots,\lambda_n\}\),属于对角矩阵\(D\)。由于\(P^T=P^{-1}\),所以:
\[ A = \lambda_1 \mathbf{u}_1^T \mathbf{u}_1 + \lambda_2 \mathbf{u}_2^T \mathbf{u}_2 + \cdots + \lambda_n \mathbf{u}_n^T \mathbf{u}_n \]
将\(A\)分解为由\(A\)的谱确定的小块,这个\(A\)的表示就称为A的谱分解。
二次型
\(\mathbb{R}^n\)上的一个二次型是一个定义在\(\mathbb{R}^n\)上的函数,它在向量\(\mathbf{x}\)处的值为可由表达式\(\mathbb{Q}(\mathbf{x})=\mathbf{x}^TAx\)给出。\(A\)是一个\(n\times n\)对称矩阵,称为关于二次型的矩阵。
二次型的变量代换:如果\(\mathbf{x}\)表示\(\mathbb{R}^n\)中的一个向量,那么变量代换是如下的形式:
\[ \mathbf{x}=P\mathbf{y} \quad or \quad \mathbf{x}=P^{-1}\mathbf{y} \]
其中\(P\)是一个\(n\times n\)的可逆矩阵。 于是对于二次型\(\mathbf{x}^TA\mathbf{x}\),有:
\[ \mathbf{x}^TA\mathbf{x}=(P\mathbf{y})^T A (P\mathbf{y}) = \mathbf{y}^T A P^T P \mathbf{y} = \mathbf{y}^T (P^T A P) \mathbf{y} \]
新的二次型矩阵变为\(P^T A P\)。因为\(A\)是对称矩阵,于是存在正交矩阵\(P\)使得\(P^T A P\)是角矩阵\(D\),于是新的二次型变为\(\mathbf{y}^T D \mathbf{y}\)。
主轴定理:设\(A\)是一个\(n\times n\)对称矩阵,那么存在一个正交变量代换\(\mathbf{x}=P\mathbf{y}\),它将二次型\(\mathbf{x}^TA\mathbf{x}\)变为不含交叉乘积项的二次型\(\mathbf{y}^T D \mathbf{y}\)。 定理中的矩阵\(P\)的列称为二次型\(\mathbf{x}^TA\mathbf{x}\)的主轴,向量\(\mathbf{y}\)是向量\(\mathbf{x}\)的在这些主轴构造的\(\mathbb{R}^n\)中的单位正交基下的坐标向量。
二次型的分类: 一个二次型\(Q\)是:
- 正定的,如果对所有\(\mathbf{x}\neq\mathbf{0}\),有\(Q(\mathbf{x})>0\)。
- 负定的,如果对所有\(\mathbf{x}\neq\mathbf{0}\),有\(Q(\mathbf{x})<0\)。
- 不定的,如果\(Q(\mathbf{x})\)既有正值也有负值。 此外,\(Q\)被称为半正定的,如果对所有\(\mathbf{x}\),有\(Q(\mathbf{x})\geq 0\);被称为半负定的,如果对所有\(\mathbf{x}\),有\(Q(\mathbf{x})\leq 0\)。
定理3:设\(A\)是一个\(n\times n\)对称矩阵,那么一个二次型\(\mathbf{x}^TA\mathbf{x}\)是:
- 正定的,当且仅当\(A\)的所有特征值都是正的。
- 负定的,当且仅当\(A\)的所有特征值都是负的。
- 不定的,当且仅当\(A\)有正的和负的特征值。
对任何对称矩阵\(A\),在\(\Vert\mathbf{x}\Vert =1\)的条件下,\(\mathbf{x}^TA\mathbf{x}\)所有可能值的集合是实轴上的闭区间。分别用\(m\)和\(M\)表示区间的左端点和右端点,即:
\[ m=min\{\mathbf{x}^TA\mathbf{x}:\Vert\mathbf{x}\Vert=1\} \quad and \quad M=max\{\mathbf{x}^TA\mathbf{x}: \Vert\mathbf{x}\Vert=1\} \]
定理4:设\(A\)是一个\(n\times n\)对称矩阵,那么有\(M\)是\(A\)的最大特征值\(\lambda_1\),\(m\)是\(A\)的最小特征值。如果\(\mathbf{x}\)是对应于\(M\)的单位特征向量\(\mathbf{u}_1\),那么\(\mathbf{x}^TA\mathbf{x}\)的值等于\(M\)。如果\(\mathbf{x}\)是对应于\(m\)的单位特征向量,那么\(\mathbf{x}^TA\mathbf{x}\)的值等于\(m\)。
定理5:设\(A\)是一个\(n\times n\)对称矩阵,在条件:
\[ \mathbf{x}^T\mathbf{x}=1 \quad \mathbf{x}^T \mathbf{u}_1=0 \]
\(\mathbf{x}^TA\mathbf{x}\)的最大值是第二大特征值\(\lambda_2\),这个最大值可以在\(\mathbf{x}\)对应于\(\lambda_2\)的特征向量\(\mathbf{u}_2\)的条件下得到。
定理6:设\(A\)是一个\(n\times n\)对称矩阵,其可正交对角化为\(PDP^{-1}\),,将对角矩阵\(D\)的对角元素重新排列,使得\(\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n\),那么\(P\)的列是其对应的单位特征向量\({\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_n}\)。那么对\(k=2,3,\cdots,n\),在以下条件的的限制下:
\[ \mathbf{x}^T\mathbf{x}=1,\quad \mathbf{x}^T\mathbf{u}_1=0,\quad\cdots \quad \mathbf{x}^T\mathbf{u}_k=0 \]
\(\mathbf{x}^TA\mathbf{x}\)的最大值是\(\lambda_k\),这个最大值可以在\(\mathbf{x}\)等于\(\lambda_k\)的特征向量\(\mathbf{u}_k\)的条件下得到。
奇异值分解
并非所有的矩阵都能分解为\(A=PDP^{-1}\),且\(D\)是对角的,但分解\(A=QDP^{-1}\)对于任意\(m\times n\)的矩阵\(A\)都是可能的,此类分解称为奇异值分解。
令\(A\)为\(m\times n\)矩阵,那么\(A^TA\)是对称矩阵且可以正交对角化。令\(\{\mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_n\}\)是\(\mathbb{R}^n\)中的单位正交基且构成\(A^TA\)的特征向量,\(\lambda_1 ,\lambda_2,\cdots,\lambda_n\)是\(A^TA\)的特征值。那么对于\(1\leq i\leq n\),有:
\[ \Vert A\mathbf{v}_i \Vert^2=(A\mathbf{v}_i)^T A\mathbf{v}_i=\mathbf{v}_i^T A^TA\mathbf{v}_i\\ =\mathbf{v}_i^T (\lambda_i \mathbf{v}_i)\\ =\lambda_i \]
所以\(A^TA\)的特征值都非负,假设所有的特征值重新排列为满足:
\[ \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \]
则\(A\)的奇异值就是\(A^TA\)的特征值的平方根,记作\(\sigma_1,\sigma_2,\cdots,\sigma_n\)递减排列。\(A\)的奇异值就是向量\(A\mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_n\)的长度。
定理7:假若\(\{\mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_n\}\)是包含\(A^TA\)的特征向量的\(\mathbb{R}^n\)中的单位正交基,重新整理使得对应的特征值满足\(\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n\).假若\(A\)有r个非零奇异值,那么\(\{A\mathbf{v}_1,A\mathbf{v}_2,\cdots,A\mathbf{v}_n\}\)是\(ColA\)的一个正交基,且\(rank A = r\).
矩阵\(A\)的分解涉及到一个\(m\times n\)的“对角”矩阵\(\Sigma\),其形式为:
\[ \Sigma = \begin{bmatrix} D & 0 \\ 0 & 0 \end{bmatrix} \]
其中\(D\)是一个\(r\times r\)的对角矩阵,且r不超过m和n中的较小值。(如果r=m或r=n或都相等,则\(M\)中不会出现零矩阵。)
定理8:设\(A\)是一个秩为r的\(m\times n\)矩阵,那么存在一个\(m\times r\)矩阵\(\Sigma\)其中\(D\)的对角元素是\(A\)的前r个奇异值,\(\sigma_1\geq \sigma_2\geq \cdots \geq \sigma_r > 0\),并且存在一个\(m\times m\)的正交矩阵\(U\)和一个\(n\times n\)的正交矩阵\(V\),满足:
\[ A = U\Sigma V^T \]
这样一个分解中的\(U\)的列称为\(A\)的左奇异向量,而\(V\)的列称为\(A\)的右奇异向量。
可逆矩阵定理: 设\(A\)是一个\(n\times n\)矩阵,那么下述命题中每一个都与\(A\)是可逆矩阵等价:
- \((Col A)^\perp = \{\mathbf{0}\}\)
- \((Nul A)^\perp = \mathbb{R}^n\)
- \(Row A = \mathbb{R}^n\)
- \(A\)有n个非零的奇异值
伪逆
取\(r=rank A\),那么将\(U\)和\(V\)矩阵分块为第一块包含r列的子矩阵,于是有。
\[ A=[U_r \quad U_{m-r}]\begin{bmatrix} D & 0 \\ 0 & 0 \end{bmatrix}\begin{bmatrix} V_r^T \\ V_{n-r}^T \end{bmatrix}=U_rD V_r^T \]
称为\(A\)的简化奇异值分解,由于\(D\)的对角线元素非零,因此\(D\)是可逆矩阵。 矩阵\(A\)的伪逆为:
\[ A^+ = V_rD^{-1}U_r^T \]