Одной из важнейших задач геометрии является задача измерения расстояния между двумя объектами. В произвольном линейном пространстве мы пока не можем определить насколько «близки» между собой объекты. В настоящем разделе понятие расстояния между двумя векторами — элементами линейного пространства — будет вводиться посредством скалярного произведения векторов. Насколько обоснован такой порядок введения понятий:
$ \mbox{} \qquad $ скалярное произведение $ \to $ длина ?
Ведь в аналитической геометрии последовательность кажется более «естественной»: скалярное произведение двух векторов $ X_{} $ и $ Y_{} $ определялось как произведение длин этих векторов на косинус угла между ними: $ \langle X,Y \rangle = |X| \cdot |Y| \cdot \cos (\widehat{X,Y}) $. Тем не менее, формально непротиворечива и обратная схема: если допустить, что скалярное произведение любых двух векторов может быть как-то вычислено (например, в $ \mathbb R^{3} $ по формуле $ \langle X,Y \rangle = x_1y_1+x_2y_2+x_3y_3 $ при заданных координатах $ (x_1,x_2,x_3) $ и $ (y_1,y_2,y_3) $ векторов $ X_{} $ и $ Y_{} $), то и длину векторов и угол между ними можно выразить через подходящие скалярные произведения: $$ |X|=\sqrt{ \langle X,X \rangle},\qquad \widehat{X,Y}=\arccos \frac{ \langle X,Y \rangle}{\sqrt{\langle X,X \rangle \langle Y,Y \rangle}} \ .$$
Вещественное линейное пространство $ \mathbb E_{} $ называется евклидовым1), если в этом пространстве определена функция, ставящая в соответствие паре векторов $ \{X,Y\}\subset \mathbb E $ вещественное число, называемое скалярным произведением векторов2) $ X_{} $ и $ Y_{} $, и обозначаемое $ \langle X,Y \rangle_{} $ или $ (X,Y)_{} $; при этом фцнкция подчиняется аксиомам:
1.
$ \langle X,Y \rangle= \langle Y,X \rangle $ для $ \{ X,\, Y\} \subset \mathbb E $;
2.
$ \langle X_1+X_2,Y \rangle = \langle X_1,Y \rangle + \langle X_2,Y \rangle $ для $ \{ X_1,\, X_2,\, Y \} \subset \mathbb E $;
3.
$ \langle \lambda\, X,Y\rangle=\lambda\, \langle X,Y\rangle $ для $ \{ X,Y\}\subset \mathbb E,\ \lambda \in \mathbb R $;
4.
$ \langle X,X \rangle>0 $ для $ \forall X\ne \mathbb O $, $ \langle \mathbb O,\mathbb O \rangle =0 $.
Из аксиом
1
и
2
вытекает свойство линейности скалярного произведения и по второму вектору:
2'. $ \langle X,Y_1+Y_2 \rangle = \langle X,Y_1 \rangle + \langle X,Y_2 \rangle $ для $ \{X, Y_1,\, Y_2 \} \subset \mathbb E $ .
Пример 1. Пространство $ \mathbb R_{}^{n} $, рассматриваемое как пространство вещественных векторов-столбцов. Для векторов
$$ X=\left[\begin{array}{l} x_1 \\ \vdots \\ x_n \end{array} \right] \quad \mbox{ и } \quad Y=\left[\begin{array}{l} y_1 \\ \vdots \\ y_n \end{array} \right] $$ их скалярное произведение определим обобщением привычной из геометрии формулы $$ \langle X,Y \rangle = \sum_{j=1}^n x_jy_j = X^{\top}Y \ ; $$ в последней формуле $ {}^{\top} $ означает транспонирование. Будем называть это скалярное произведение стандартным. Легко проверить выполнимость аксиом 1 - 4 .
Однако стандартное определение скалярного произведения вовсе не является единственно допустимым; формально скалярное произведение можно ввести и другим способом. Наприме, вот так: $$ \langle X,Y \rangle = x_1y_1+2\, x_2y_2+3\,x_3y_3+\dots+ n\, x_n y_n \ . $$ Все аксиомы скалярного произведения выполняются. Обобщаем дальше: рассмотрим вещественную квадратную матрицу $ A_{} $ порядка $ n_{} $ и положим $$ \begin{array}{cccr} \langle X,Y \rangle = X^{\top} A Y & = & a_{11}x_1y_1+a_{12}x_1y_2+ \dots + a_{1n}x_1y_n &+ \\ &+&a_{21}x_2y_1+a_{22}x_2y_2+ \dots + a_{2n}x_2y_n &+ \\ &+& \dots &+ \\ &+&a_{n1}x_ny_1+a_{n2}x_ny_2+ \dots + a_{nn}x_ny_n & \ . \end{array} $$ (Здесь векторы $ X_{} $ и $ Y_{} $ из $ \mathbb R_{}^{n} $ снова рассматриваются как столбцы.) Если матрица $ A_{} $ является положительно определенной, то все аксиомы скалярного произведения оказываются удовлетворены.
Зачем нужна такая возможность в вариативности, неоднозначности определения скалярного произведения в одном и том же пространстве? — Ответ на этот вопрос откладывается до следующего пункта. А пока приведу одно замечание3).
Пример 2. Пространство $ \mathbb P_{n} $ полиномов одной переменной степеней $ \le n_{} $ с вещественными коэффициентами. Скалярное произведение полиномов
$$ p(x)=a_{0}x^n+a_1x^{n-1}+\dots + a_n \quad \mbox{ и } \quad q(x)=b_{0}x^n+b_1x^{n-1}+\dots + b_n $$ введем формулой $$ \langle p(x), q(x) \rangle = \sum_{j=0}^n a_j b_j. $$ Легко проверить справедливость всех аксиом.
В том же пространстве укажем еще один способ задания скалярного произведения $$ \langle p(x), q(x) \rangle = \int_{a}^b p(t)q(t) d\,t $$ при некоторых фиксированных вещественных константах $ a_{} $ и $ b_{} $, $ a_{}<b $. Аксиомы 1 - 3 следуют из свойств определенного интеграла. Проверка выполнения аксиомы 4 более кропотлива и проводится ☞ ЗДЕСЬ.
В том же пространстве $ \mathbb P_{n} $ можно ли определить скалярное произведение формулой
$$ \langle p(x),q(x) \rangle = \sum_{k=1}^m p(x_k) q(x_k) \quad npu \ \{x_k\}_{k=1}^m \subset \mathbb R \ ? $$
Пример 3. Линейное пространство $ \mathbb R^{n\times n} $ вещественных квадратных матриц порядка $ n_{} $. Скалярное произведение введем формулой
$$ \langle A,B \rangle = \sum_{j,k=1}^n a_{jk}b_{jk} \, . $$
Вторая интерпретация формулы связана с операцией $ \operatorname{Sp} $ нахождения следа матрицы, т.е. суммы элементов ее главной диагонали: $$ \langle A,B \rangle = \operatorname{Sp} \left(A\cdot B^{\top} \right) \, . $$ Эквивалентность последнего представления определению устанавливается непосредственной проверкой.
На основании аксиом скалярного произведения, его вычисление для произвольных векторов $ X_{} $ и $ Y_{} $ может быть сведено к вычислению скалярных произведений векторов произвольного базиса. В самом деле, если система $ \{X_1,\dots,X_{n}\} $ составляет базис пространства $ \mathbb E $, то, разложив оба вектора по этому базису $$X=x_1X_1+ \dots +x_nX_n \quad u \quad Y=y_1X_1+ \dots +y_nX_n \ , $$ получаем: $$\langle X,Y \rangle=\langle x_1X_1+ \dots +x_nX_n , y_1X_1+ \dots +y_nX_n \rangle=$$ $$ = \left\{ \begin{array}{ccc} &&x_1y_1 \langle X_1,X_1 \rangle + x_1y_2 \langle X_1,X_2 \rangle + \dots + x_1y_n \langle X_1,X_n \rangle + \\ &+&x_2y_1 \langle X_2,X_1 \rangle + x_2y_2 \langle X_2,X_2 \rangle + \dots + x_2y_n \langle X_2,X_n \rangle+ \\ &+ & \dots \qquad + \\ &+&x_ny_1 \langle X_n,X_1 \rangle + x_ny_2 \langle X_n,X_2 \rangle + \dots + x_ny_n \langle X_n,X_n \rangle \end{array} \right\} = $$ $$ =(x_1,x_2,\dots,x_n)\left( \begin{array}{cccc} \langle X_1,X_1 \rangle & \langle X_1,X_2 \rangle & \dots & \langle X_1,X_n \rangle \\ \langle X_2,X_1 \rangle & \langle X_2,X_2 \rangle & \dots & \langle X_2,X_n \rangle \\ \dots & & & \dots \\ \langle X_n,X_1 \rangle & \langle X_n,X_2 \rangle & \dots & \langle X_n,X_n \rangle \end{array} \right) \left(\begin{array}{c} y_1 \\ y_2 \\ \vdots \\ y_n \end{array}\right) \ . $$ Итак, при изменении векторов $ X_{} $ и $ Y_{} $ в последней формуле изменятся лишь строка и столбец координат, а промежуточная матрица останется неизменной. Задание этой матрицы, следовательно, полностью определит скалярное произведение в $ \mathbb E_{} $. Фактически задание скалярного произведения в разобранном выше примере пространства $ \mathbb R^{n} $ по формуле $ \langle X,Y \rangle=X^{\top}AY $ можно рассматривать именно как частный случай этого при подходящем подборе базисных векторов. Согласно рассуждениям из примера $ 1_{} $, матрица $$ \left( \begin{array}{cccc} \langle X_1,X_1 \rangle & \langle X_1,X_2 \rangle & \dots & \langle X_1,X_n \rangle \\ \langle X_2,X_1 \rangle & \langle X_2,X_2 \rangle & \dots & \langle X_2,X_n \rangle \\ \dots & & & \dots \\ \langle X_n,X_1 \rangle & \langle X_n,X_2 \rangle & \dots & \langle X_n,X_n \rangle \end{array} \right) $$ должна обладать некоторыми принципиальными свойствами. Так оно и окажется, см. ☟ НИЖЕ.
Матрицей Грама системы векторов4) $ \{X_1,\dots,X_{m} \} $ называется квадратная матрица $$ G(X_1,\dots,X_m)=\left( \begin{array}{cccc} \langle X_1,X_1 \rangle & \langle X_1,X_2 \rangle & \dots & \langle X_1,X_m \rangle \\ \langle X_2,X_1 \rangle & \langle X_2,X_2 \rangle & \dots & \langle X_2,X_m \rangle \\ \dots & & & \dots \\ \langle X_m,X_1 \rangle & \langle X_m,X_2 \rangle & \dots & \langle X_m,X_m \rangle \end{array} \right) = \left[ \langle X_j,X_k \rangle \right]_{j,k=1}^m \ . $$ Ее определитель называется определителем Грама5) (или грамианом) системы векторов $ \{X_1,\dots,X_{m} \} $: $$ {\mathfrak G}(X_1,\dots,X_m)=\left| \begin{array}{cccc} \langle X_1,X_1 \rangle & \langle X_1,X_2 \rangle & \dots & \langle X_1,X_m \rangle \\ \langle X_2,X_1 \rangle & \langle X_2,X_2 \rangle & \dots & \langle X_2,X_m \rangle \\ \dots & & & \dots \\ \langle X_m,X_1 \rangle & \langle X_m,X_2 \rangle & \dots & \langle X_m,X_m \rangle \end{array} \right| = \det \left[ \langle X_j,X_k \rangle \right]_{j,k=1}^m \ . $$
С помощью матрицы Грама формула скалярного произведения записывается в виде $$ \langle X,Y \rangle =[x_1,\dots,x_n] G(X_1,\dots,X_n) \left[ \begin{array}{c} y_1 \\ \vdots \\ y_n \end{array} \right]\ . $$
Пример 4. В пространстве $ \mathbb R^{n} $ столбцов из $ n_{} $ элементов при стандартном способе задания скалярного произведения
$$ \langle X,Y \rangle = \sum_{j=1}^n x_jy_j \quad npu \quad X=[x_1,\dots,x_n]{^{\top}},\ Y=[y_1,\dots,y_n]{^{\top}} \ $$ матрицу Грама системы векторов $ \{X_j=[x_{j1},x_{j2},\dots,x_{jn}]^{\top} \}_{j=1}^m $ можно представить в виде произведения матриц $$ G(X_1,\dots,X_{m})=\left( \begin{array}{llll} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \dots & & & \dots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{array} \right) \left( \begin{array}{llll} x_{11} & x_{21} & \dots & x_{m1} \\ x_{12} & x_{22} & \dots & x_{m2} \\ \vdots & & & \vdots \\ x_{1n} & x_{2n} & \dots & x_{mn} \end{array} \right) \ . $$ Произведение имеет вид $ M\cdot M^{\top} $ и, согласно теореме Бине-Коши, определитель этого произведения равен $ 0_{} $ при $ m>n_{} $ и неотрицателен при $ m \le n $. НИЖЕ будет установлено, что обнаруженные свойства определителя Грама являются универсальными: они выполняются в произвольном евклидовом пространстве. См. также, «обращение» этого результата — задача 4 ☞ ЗДЕСЬ.
Теорема. Имеет место неравенство Коши–Буняковского:
$$ \langle X,Y \rangle ^2 \le \langle X,X \rangle \langle Y,Y \rangle \quad npu \ \forall \ \{X,Y \}\subset \mathbb E \ . $$
Доказательство для случая $ \mathbb R^{n}_{} $ приведено ☞ ЗДЕСЬ. Для доказательства общего случая используем одну вспомогательную конструкцию. Из аксиомы 4 следует, что для $ \forall \lambda \in \mathbb R $ будет выполнено $ \langle \lambda\, X - Y,\, \lambda\, X - Y \rangle \ge 0 $. Имеем: $$ 0 \le \langle \lambda\, X - Y,\, \lambda\, X - Y \rangle \le \lambda^2 \langle X,X \rangle - 2\,\lambda \langle X,Y \rangle +\langle Y,Y \rangle \ . $$ Квадратное относительно $ \lambda_{} $ неравенство будет выполнено при всех вещественных значениях этого параметра тогда и только тогда, когда дискриминант квадратного трехчлена будет отрицателен: $$ \mathcal D=\langle X,Y \rangle^2 - \langle X,X \rangle \langle Y,Y \rangle \le 0 \ . $$ ♦
С помощью скалярного произведения, введенного в предыдущем пункте, можно доказать справедливость интегральной формы неравенства:
$$ \left( \int_a^b p(t)q(t) d\,t \right)^2 \le \int_a^b p^2(t) d\,t \cdot \int_a^b q^2(t) d\,t $$ для произвольных полиномов6) $ \{p(x),q(x) \} \subset \mathbb R [x] $.
Длиною вектора $ X_{} $ в евклидовом пространстве $ \mathbb E_{} $ называется число $$ |X| = \sqrt{\langle X,X \rangle} \ ; $$ здесь квадратный корень понимается как корень арифметический: $ |X| \ge 0 $. Расстоянием между векторами $ X_{} $ и $ Y_{} $ называется число $ |X-Y| $.
См. по этому поводу ☞ Расстояние Махаланобиса.
В $ \mathbb R^{n}_{} $ при скалярном произведении, заданном стандартным способом формулой
$$ \langle X,Y \rangle = \sum_{j=1}^n x_jy_j \quad npu \quad X=[x_1,\dots,x_n]{^{\top}},\ Y=[y_1,\dots,y_n]{^{\top}} \ , $$ длина вектора $ X_{} $ определяется естественным (с точки зрения геометрии) способом: $ |X|=\sqrt{x_1^2+\dots+x_n^2} $.
С помощью введенного определения неравенство Коши-Буняковского можно переписать в виде $$ |\langle X,Y \rangle| \le |X| \cdot |Y| \quad npu \ \forall \{X,Y \}\subset \mathbb E \ , $$ где $ | \cdot | $ в левой части означает модуль, а в правой части — длину.
Теорема. Имеет место неравенство треугольника
$$ |X+Y| \le |X|+|Y| \quad npu \ \forall \{X,Y \}\subset \mathbb E \ . $$
Доказательство. На основании неравенства Коши-Буняковского, имеем: $$ 0 \le \langle X+Y,\, X+Y \rangle=\langle X,X \rangle+2\langle X,Y \rangle+\langle Y,Y \rangle \le |X|^2+2\, |X| \cdot |Y| +|Y|^2 $$ $$ =\left(|X|+|Y| \right)^2 \ . $$ ♦
Углом между векторами $ X_{} $ и $ Y_{} $ называется угол $$\varphi = \widehat{X,Y} = \arccos \frac{\langle X,Y \rangle}{|X|\cdot |Y|} \ .$$ Ввиду неравенства Коши-Буняковского это определение непротиворечиво: дробь под знаком арккосинуса не превосходит 1 по абсолютной величине. Векторы $ X_{} $ и $ Y_{} $ называются ортогональными: $ X \bot Y $ если угол между ними равен $ \pi/2 $, или, что то же, $ \langle X,Y \rangle=0 $.
Введенное таким определением понятие является естественным обобщением понятия угла на плоскости и в трехмерном пространстве. Хотя в пространствах размерностей больших $ 3_{} $ человеческие мозги думать не приучены, тем не менее, абстракция находит практическое применение в задаче информационного поиска.
Пусть задача заключается в сравнении двух текстовых документов «на похожесть». Имеются некоторые наборы ключевых слов, описывающих каждый из этих документов. Составим объединение этих наборов, упорядочим получившийся набор (пронумеруем слова), посчитаем частоты вхождений каждого из слов в каждый из документов. Получим два вектора: $$ X_1=(f_{11},f_{12},\dots), \ X_2=(f_{21},f_{22},\dots) \ , $$ описывающие каждый из документов. Здесь $ f_{jk} \in \{0,1,2,\dots, \} $ — количество вхождений $ k_{} $-го слова в $ j_{} $-й документ. Для оценки близости векторов, на первый взгляд, кажется естественным вычислить расстояние между ними стандартным способом: $$ |X_1-X_2| = \sqrt{ \sum_{k} (f_{1k}-f_{2k})^2} \ . $$ Однако, по здравому размышлению, понимаем, что при таком способе, документы различные по объему (общему количеству слов) будут слишком сильно отличаться друг от друга, при том, что могут оказаться близкими по сути (как будет отличаться большая статья от собственного реферата). Поэтому имеет смысл усреднить частоты в обоих текстах, т.е. рассматривать расстояние между векторами $ X_1/|X_1| $ и $ X_2/|X_2| $ единичной длины: $$ \left|\frac{X_1}{|X_1|}-\frac{X_2}{|X_2|}\right| = \sqrt{2\left( 1- \frac{\langle X_1,X_2 \rangle}{|X_1|\cdot |X_2|} \right)} \ ; $$ скалярное произведение под знаком корня вычисляется стандартным способом: $ \langle X_1,X_2 \rangle=\sum_{k} f_{1k}f_{2k} $. Отсюда и возникает понятие косинусного расстояния: величина $$ \frac{\langle X_1,X_2 \rangle}{|X_1|\cdot |X_2|} $$ неотрицательна (поскольку компоненты векторов $ X_1,X_2 $ неотрицательны), и чем ближе она к $ 1_{} $ тем меньше расстояние между между нормированными векторами. Эта величина называется также похожестью или cходством8) векторов (документов) $ X_{1} $ и $ X_{2} $.
Теорема [Пифагор]. Если $ X \bot Y $, то $ |X+Y|^2=|X|^2+|Y|^2 $.
Если векторы $ X_1,\dots,X_k $ попарно взаимно ортогональны, то
$$|X_1+\dots +X_k|^2=|X_1|^2+\dots +|X_k|^2 \ . $$
Пример. Найти расстояние между полиномами
$$p(x)=x^{100}-1/2\,x^{85}-1/2\,x^{64}+5\,x^{34}-5\,x^{32}+5\,x^2+1 \quad u \quad q(x)=5\,x^2+1 $$ если скалярное произведение задается формулой
а) $ \displaystyle \langle p(x), q(x) \rangle = \sum_{j=0}^{100} a_j b_j $ ;
б) $ \displaystyle \langle p(x), q(x) \rangle = \int_{-1}^1 p(t)q(t) d\, t $.
Решение. Для случая а) нам достаточно просто вычислить сумму квадратов коэффициентов разности $ p(x)-q(x) $: расстояние равно $ \sqrt{103/2} $.
Для случая б) нам придется иметь дело с интегралом $$ \int_{-1}^1 \left(p(t)-q(t) \right)^2 d\, t = \int_{-1}^1 \left(t^{100}-1/2\,t^{85}-1/2\,t^{64}+5\,t^{34}-5\,t^{32} \right)^2 d\, t \ , $$ который, несмотря на свой громоздкий вид, может быть вычислен элементарными приемами математического анализа. В этом случае расстояние будет равно $ \sqrt{95965413818\,\big/ 16503052280715} $.
Ответ. а) $ \approx 7.176 $ ; б) $ \approx 0.076 $.
Теперь прокомментируем последний пример. В разделе, посвященном полиному одной переменной, имеется теорема о непрерывной зависимости корней полинома от его коэффициентов. Смысл этого результата в следующем: если коэффициенты полиномов
$$f(x)=x^n+a_1x^{n-1}+\dots+a_n \quad u \quad {\tilde f}(x)=x^n+{\tilde a}_1x^{n-1}+\dots+{\tilde a}_n$$ из $ \mathbb C[x] $ близки, то и корни этих полиномов (при соответствующей нумерации) будут близки на комплексной плоскости. В этой теореме мера близости полиномов оценивается по формуле $$ \sqrt[n]{\sum_{k=1}^n|a_k-{\tilde a}_k| \gamma^{n-k} } \quad npu \quad \gamma = \max_{j\in \{1,\dots,n\}} \left( \sqrt[j]{|a_j|} \ , \sqrt[j]{|{\tilde a}_j|} \right) \ , $$ которая, хоть и не совпадает с формулой $$ \sqrt{\sum_{k=1}^n \left(a_k-{\tilde a}_k \right)^2} \ , $$ определяющей расстояние в пространстве полиномов, но идейно ей близка. Вычисленное в предыдущем примере расстояние между полиномами $ p_{}(x) $ и $ q_{}(x) $ по формуле а) оказывается достаточно большим в том смысле, что если для полинома $ p_{}(x) $ искать полином, имеющий почти такое же расположение корней на $ \mathbb C_{} $, то полином $ q_{}(x) $ окажется неподходящим кандидатом.9)
Другое дело, если ставится задача приближения полинома $ p_{}(x) $ только на интервале $ [-1,1] $ — тогда полином $ q_{}(x) $ может оказаться вполне полезным. Выясним сначала природу интеграла, возникшего при решении. Пусть сначала $ p_{}(x) $ и $ q_{}(x) $ — произвольные, но (для простоты рассуждений) неотрицательные на интервале $ [a_{},b] $ полиномы. Геометрический смысл интеграла $ \int_a^b p(t) d\, t $ — площадь криволинейной трапеции на плоскости $ (x_{},y) $, ограниченной прямыми $ x=a_{},\,x=b,\,y=0 $ и графиком $ y=p(x) $. Следовательно, геометрический смысл интеграла $$ \int_a^b \left| p(t)-q(t) \right| d\, t $$ — площадь фигуры, ограниченной прямыми $ x=a,\,x=b_{} $ и графиками $ y=p(x), y=q(x) $ (заштрихована коричневым на рисунке). Чем меньше эта площадь, тем «теснее» друг к другу на отрезке $ [a_{},b] $ расположены графики $ y=p(x) $ и $ y=q(x) $. Величина $$ \sqrt{\int_a^b \left( p(t)-q(t) \right)^2 d\, t} \ , $$ вообще говоря, не совпадает с предыдущей, но смысл ее тот же: она позволяет оценивать близость графиков на всем отрезке $ [a_{},b] $. Ответ в примере для варианта б) позволяет заключить, что на отрезке $ [-1,1] $ полином $ p_{}(x) $ неплохо приближается своими младшими одночленами, т.е. на указанном отрезке график $ y=p(x) $ не должен слишком сильно отличаться от параболы $ y=5\,x^2+1 $.
Подводя итог приведенным рассуждениям, можно только повторить: метод, выбираемый для оценки близости между объектами, может зависеть от поставленной задачи. Микроскоп не пригоден для наблюдения за большими объектами, а телескоп — за малыми.
Следующий результат также имеет название, взятое из планиметрии, где он формулируется так: сумма квадратов длин диагоналей параллелограмма равна сумме квадратов длин его сторон.
Теорема. В евклидовом пространстве имеет место равенство параллелограмма
$$ |X+Y|^2+|X-Y|^2 =2(|X|^2+|Y|^2) \quad npu \ \forall \{X,Y \}\subset \mathbb E \ . $$
Пусть $ \dim \mathbb E=n $ и векторы $ \{X_1,\dots,X_n\} $ составляют базис $ \mathbb E_{} $. Этот базис называется ортогональным если векторы попарно ортогональны: $ X_j\bot X_k $; базис называется нормированным если каждый его вектор имеет единичную длину: $ |X_j|=1 $; базис называется ортонормированным если он ортогонален и нормирован, т.е. $$\langle X_j,X_k \rangle=\delta_{jk} ,\quad npu \quad \{j,k\} \subset \{1,\dots,n \} \ .$$ Здесь $ \delta_{jk}^{} $ — символ Кронекера.
Ортогональный базис будем обозначать $ {\mathfrak E}_1,\dots, {\mathfrak E}_n $.
Чему равно расстояние между двумя векторами ортонормированного базиса?
В пространстве $ \mathbb R_{}^{n} $ стандартным ортогональным базисом является базис, состоящий из векторов $$ {\mathfrak e}_j = \big[\underbrace{0,\dots,0,1}_{j},0,\dots,0\big]^{\top} \quad npu \quad j \in \{1,\dots,n\} \ . $$ Существование же ортогонального базиса в произвольном евклидовом пространстве еще требует доказательства. Предварительно установим следующий результат.
Теорема. Если ненулевые векторы $ X_1,\dots, X_{n} $ попарно ортогональны, то они линейно независимы.
Доказательство. В самом деле, если $$ \lambda_1 X_1 + \dots + \lambda_n X_n = \mathbb O \ , $$ то, домножив это равенство скалярно на $ X_{1} $, получим $$ \lambda_1 \langle X_1,X_1 \rangle + \dots + \lambda_n \langle X_1,X_n \rangle = 0 \ . $$ Поскольку $ \langle X_1,X_j \rangle=0 $ для $ j\in \{2,\dots,n\} $, то $ \lambda_1 \langle X_1,X_1 \rangle=0 $, откуда $ \lambda_1=0 $. Аналогично показывается, что и все остальные $ \lambda_j $ равны 0. ♦
Задача. Пусть имеется произвольная система $ \{X_1,\dots,X_k\} $ линейно независимых векторов. Требуется построить систему ортогональных векторов $ \left\{{\mathfrak E}_1,\dots, {\mathfrak E}_k \right\} $ такую, чтобы линейные оболочки любых подсистем совпадали: $$ {\mathcal L}\left(X_1,\dots,X_m \right) ={\mathcal L}\left({\mathfrak E}_1,\dots, {\mathfrak E}_m \right) \quad npu \quad m\in \{1,\dots,k\} \ . $$ Иными словами, вектор $ {\mathfrak E}_1 $ должен линейно зависеть от $ X_{1} $, вектор $ {\mathfrak E}_2 $ должен линейно выражаться через $ X_1,X_2 $, $ {\mathfrak E}_3 $ — через $ X_1,X_2,X_3 $ и т.д.
Алгоритм ортогонализации Грама - Шмидта 10)
В случае $ m_{}=1 $ возьмем $ {\mathfrak E}_1=X_1 $: поскольку вектор $ X_{1} $ входит в линейно независимую систему , то $ {\mathfrak E}_1 \ne \mathbb O $. Далее, будем искать $ {\mathfrak E}_2 $ в виде $${\mathfrak E}_2=X_2 + \alpha_{21} {\mathfrak E}_1 $$ при пока неопределенном коэффициенте $ \alpha_{21} $. Очевидно, что при таком выборе $ {\mathfrak E}_2 $ условие $ {\mathcal L}(X_1,X_2)={\mathcal L}({\mathfrak E}_1,{\mathfrak E}_2) $ будет выполнено. Подберем $ \alpha_{21} $ так, чтобы выполнялось $ {\mathfrak E}_2 \bot {\mathfrak E}_1 $. $$0=\langle {\mathfrak E}_1,{\mathfrak E}_2 \rangle=\langle {\mathfrak E}_1,X_2 \rangle+\alpha_{21} \langle {\mathfrak E}_1,{\mathfrak E}_1 \rangle \ \Rightarrow \ \alpha_{21}=-\langle {\mathfrak E}_1,X_2 \rangle \big/ \langle {\mathfrak E}_1,{\mathfrak E}_1 \rangle \ . $$ Таким образом, коэффициент $ \alpha_{21} $, а вместе с ним и вектор $ {\mathfrak E}_2 $ определяются единственным образом. При этом $ {\mathfrak E}_2\ne \mathbb O $, ибо, в противном случае, векторы $ X_2 $ и $ {\mathfrak E}_1=X_1 $ были бы л.з., что противоречит предположению о линейной независимости системы $ \{X_1,\dots,X_k\} $. Продолжаем процесс далее: вектор $ {\mathfrak E}_3 $ ищем в виде $${\mathfrak E}_3=X_3 + \alpha_{31} {\mathfrak E}_1 + \alpha_{32} {\mathfrak E}_2 $$ при пока неопределенных коэффициентах $ \alpha_{31} $ и $ \alpha_{32} $. Условие $ {\mathcal L}(X_1,X_2,X_3)={\mathcal L}({\mathfrak E}_1,{\mathfrak E}_2,{\mathfrak E}_3) $ выполняется поскольку $$\alpha_{31} {\mathfrak E}_1 + \alpha_{32} {\mathfrak E}_2 \in {\mathcal L}(X_1,X_2) \subset {\mathcal L}(X_1,X_2,X_3) \ .$$ Подберем скаляры $ \alpha_{31} $ и $ \alpha_{32} $ так, чтобы выполнялось $ {\mathfrak E}_3 \bot {\mathfrak E}_1 $ и $ {\mathfrak E}_3 \bot {\mathfrak E}_2 $. Два этих условия задают систему линейных уравнений $$\left\{ \begin{array}{cc} \langle X_3,{\mathfrak E}_1 \rangle + \alpha_{31} \langle {\mathfrak E}_1, {\mathfrak E}_1 \rangle + \alpha_{32} \langle {\mathfrak E}_2 , {\mathfrak E}_1 \rangle &=0 ,\\ \langle X_3,{\mathfrak E}_2 \rangle + \alpha_{31} \langle {\mathfrak E}_1, {\mathfrak E}_2 \rangle + \alpha_{32} \langle {\mathfrak E}_2 , {\mathfrak E}_2 \rangle &=0 , \end{array} \right. \ \iff \begin{array}{c} \alpha_{31}=-\langle X_3,{\mathfrak E}_1 \rangle \big/ |{\mathfrak E}_1|^2 \\ \alpha_{32}=-\langle X_3,{\mathfrak E}_2 \rangle \big/ |{\mathfrak E}_2|^2 \end{array} $$
Процесс продолжается далее аналогично. Допустим, что векторы $ {\mathfrak E}_1,\dots,{\mathfrak E}_{k-1} $ уже построены, они ненулевые, попарно ортогональные и $$ {\mathcal L}\left(X_1,\dots,X_{k-1} \right)= {\mathcal L}\left({\mathfrak E}_1,\dots, {\mathfrak E}_{k-1} \right) \ .$$ Вектор $ {\mathfrak E}_{k} $ ищем в виде: $$ {\mathfrak E}_{k} =X_k+\alpha_{k1} {\mathfrak E}_1 + \alpha_{k2} {\mathfrak E}_2 +\dots + \alpha_{k,k-1} {\mathfrak E}_{k-1} $$ при пока неопределенных коэффициентах $ \alpha_{k1},\dots ,\alpha_{k,k-1} $. Условие $ {\mathcal L}\left(X_1,\dots,X_{k-1},X_k \right)= {\mathcal L}\left({\mathfrak E}_1,\dots, {\mathfrak E}_{k-1},{\mathfrak E}_{k} \right) $ выполнено и, кроме того, $ {\mathfrak E}_{k}\ne \mathbb O $ (в противном случае $ X_k \in {\mathcal L}\left({\mathfrak E}_1,\dots, {\mathfrak E}_{k-1} \right) ={\mathcal L}\left(X_1,\dots,X_{k-1} \right) $, т.е. система $ \{X_1,\dots,X_{k-1},X_k \} $ линейно зависима. Коэффициенты $ \alpha_{k1}, \dots ,\alpha_{k,k-1} $ подбираются из условий $ {\mathfrak E}_{k} \bot {\mathfrak E}_1,\dots, {\mathfrak E}_{k} \bot {\mathfrak E}_{k-1} $. Получающаяся система линейных уравнений имеет единственное решение $$\alpha_{k1}=- \langle X_k,{\mathfrak E}_1 \rangle \big/ |{\mathfrak E}_1|^2 ,\dots, \alpha_{k,k-1}=-\langle X_k,{\mathfrak E}_{k-1} \rangle \big/ |{\mathfrak E}_{k-1}|^2 \ , $$ и это решение определяет единственный вектор $ {\mathfrak E}_{k} $. ♦
Пример. Ортогонализовать систему векторов
$$ X_1=\left[1,0,0,0,1 \right],\ X_2=\left[1,1,0,1,1 \right],\ X_3=\left[1,1,1,1,1 \right] $$ при стандартном способе задания скалярного произведения в $ \mathbb R^5 $.
Решение. Имеем: $$ \begin{array}{lcll} {\mathfrak E}_{1}&=&X_1,\, & \Rightarrow {\mathfrak E}_{1} =\left[1,0,0,0,1 \right] , \\ {\mathfrak E}_{2}&=&X_2+\alpha_{21} {\mathfrak E}_{1}, \ & \\ & &\qquad \alpha_{21}=-\langle X_2,{\mathfrak E}_{1} \rangle/|{\mathfrak E}_{1}|^2=-1 & \Rightarrow {\mathfrak E}_{2}= \left[0,1,0,1,0 \right] , \\ {\mathfrak E}_{3}&=&X_3+\alpha_{31} {\mathfrak E}_{1} +\alpha_{32} {\mathfrak E}_{2}, & \\ & & \qquad \alpha_{31}=- \langle X_3,{\mathfrak E}_{1} \rangle/|{\mathfrak E}_{1}|^2=-1, & \\ & & \qquad \alpha_{32}=- \langle X_3,{\mathfrak E}_{2} \rangle/|{\mathfrak E}_{2}|^2=-1 & \Rightarrow {\mathfrak E}_{3}= \left[0,0,1,0,0 \right] \ . \end{array} $$
Ответ. $ {\mathfrak E}_{1}=\left[1,0,0,0,1 \right],\ {\mathfrak E}_{2}=\left[0,1,0,1,0 \right],\ {\mathfrak E}_{3}=\left[0,0,1,0,0 \right] $.
Пример. Пусть в пространстве полиномов скалярное произведение задается формулой
$$ \langle p(x),q(x) \rangle=\int_{-1}^{1} p(t)q(t) d\, t \ .$$ Построить ортогональный базис этого пространства.
Решение. Искомый базис строится ортогонализацией канонического базиса $ 1,x,x^2,\dots, x^n $. В результате получаем систему полиномов: $$1,\ x,\ x^2-\frac{1}{3},\ x^3-\frac{3}{5}\, x,\ x^4-\frac{6}{7}\, x^2+\frac{3}{35},\dots $$ Полиномы, получающиеся из этих нормированием: $$P_0(x)=1,\ P_1(x)= x,\ P_2(x)=\frac{1}{2}(3\,x^2-1),\ P_3(x)= \frac{1}{2}( 5\,x^3-3\, x),\ $$ $$ P_4(x)= \frac{1}{8}(35\,x^4-30\, x^2+3),\dots $$ $$ P_n(x)=\frac{1}{2^n} \sum_{k=0}^{\lfloor n/2 \rfloor} \frac{(-1)^k(2n-2k)!}{k!(n-k)!(n-2k)!} x^{n-2k} \ $$ известны как полиномы Лежандра. Здесь $ \lfloor \mbox{ } \rfloor $ означает целую часть числа. Рекуррентное соотношение $$kP_{k}(x)-(2k-1)\,xP_{k-1}(x)+(k-1)\,P_{k-2}(x) \equiv 0, \quad k\ge 2 \ ;$$ позволяет найти полином $ P_{k}(x) $ если уже вычислены $ P_{k-1}(x) $ и $ P_{k-2}(x) $. ♦
В ортонормированном базисе пространства $ \mathbb E_{} $ матрица Грама из формулы скалярного произведения $$ \langle X,Y \rangle=(x_1,\dots,x_n) G(X_1,\dots,X_n) \left( \begin{array}{c} y_1 \\ \vdots \\ y_n \end{array} \right) $$ становится единичной и в таком базисе скалярное произведение становится стандартным : $$ \langle X,Y \rangle=\sum_{j=1}^n x_jy_j \ .$$ Как следствие, в таком базисе упрощается вычисление длин векторов и расстояний между ними: $$ |X|=\sqrt{\sum_{j=1}^n x_j^2}, \ |X-Y|= \sqrt{\sum_{j=1}^n (x_j-y_j)^2} \, . $$
Следующая теорема устанавливает связь между двумя ортонормированными базисами в одном и том же пространстве.
Теорема. Матрица перехода от одного ортонормированного базиса к другому является ортогональной.
В пространстве $ \mathbb R^{n}_{} $ матрица, составленная из столбцов произвольного ортонормированного базиса, является ортогональной.
Рассмотрим пример из предыдущего пункта об ортогонализации системы векторов в $ \mathbb R^5 $; только векторы будем рассматривать столбцами: $$ X_1=\left[\begin{array}{c} 1 \\ 0 \\ 0 \\ 0 \\ 1 \end{array} \right],\ X_2=\left[ \begin{array}{c} 1 \\ 1 \\ 0 \\ 1 \\ 1 \end{array} \right],\ X_3=\left[ \begin{array}{c} 1 \\ 1 \\ 1 \\ 1 \\ 1 \end{array} \right] \, . $$ Составим из них матрицу $$ A_{5\times 3} = \left[ X_1,X_2,X_3 \right] \, . $$ Алгоритм Грама-Шмидта означает некоторые действия со столбцами этой матрицы, и эти действия могут быть записаны на языке матричного формализма, а именно — с помощью операции умножения этой матрицы на последовательность матриц определенного вида. В самом деле, на первом шаге алгоритма, «все остается на месте»: столбец $ {\mathfrak E}_1 $ совпадает с $ X_{1} $, а оставшиеся столбцы мы пока не трогаем. Формально это «бездействие» можно записать с помощью умножения матрицы $ A_{} $ на единичную матрицу порядка $ 3_{} $. $$ A\cdot E_{3} = \left[{\mathfrak E}_1,X_2,X_3 \right] \, . $$ Следующий шаг алгоритма уже менее тривиален: в получившейся матрице производятся действия над первыми двумя столбцами. При этом первый столбец остается неизменным, последний — тоже, а изменяется лишь второй: $$ {\mathfrak E}_2 = X_2 + \alpha_{21} {\mathfrak E}_1 \, . $$ Для получившейся на первом шаге матрицы, это действие эквивалентно домножению ее справа на матрицу $$ R_2 = \left( \begin{array}{ccc} 1 & \alpha_{21} & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right) \, . $$ Если значение $ \alpha_{21} $ вычисляется как указано в алгоритме: $$\alpha_{21}=- \langle {\mathfrak E}_1,X_2 \rangle \big/ \langle {\mathfrak E}_1,{\mathfrak E}_1 \rangle =- \langle X_1,X_2 \rangle \big/ \langle X_1,X_1 \rangle \, , $$ то получившаяся матрица $$ A\cdot E_{3} R_2 = \left[{\mathfrak E}_1,{\mathfrak E}_2,X_3 \right] $$ имеет первые два столбца ортогональными. Следующее преобразование получившейся системы столбцов равносильно домножению получившейся матрицы справа на матрицу вида $$ R_3 = \left( \begin{array}{ccc} 1 & 0 & \alpha_{31} \\ 0 & 1 & \alpha_{32} \\ 0 & 0 & 1 \end{array} \right) \, . $$ Если значения $ \alpha_{31} $ и $ \alpha_{32} $ вычисляются как указано в алгоритме, то получившаяся матрица $$ A\cdot E_{3} R_2 R_3 = \left[{\mathfrak E}_1,{\mathfrak E}_2,{\mathfrak E}_3 \right] $$ имеет систему своих столбцов ортогональной. Можно произвести еще одно дополнительное домножение $$ A\cdot E_{3} R_2 R_3 \cdot \left( \begin{array}{ccc} 1/\langle {\mathfrak E}_1,{\mathfrak E}_1 \rangle & 0 & 0 \\ 0 & 1/\langle {\mathfrak E}_2,{\mathfrak E}_2 \rangle & 0 \\ & 0 & 1/ \langle {\mathfrak E}_3,{\mathfrak E}_3 \rangle \end{array} \right) \, , $$ превратив полученную матрицу в матрицу с ортонормированной системой столбцов.
Теперь обдумаем полученный результат. Матрицы, на которые производились домножения матрицы $ A_{} $ имеют довольно специфическую форму: они — либо диагональные, либо же отличаются от единичной матрицы в одном их своих столбцов. Эти матрицы могут быть отнесены к типу матриц элементарных преобразований системы столбцов произвольной матрицы $ A_{} $. Все они являются верхнетреугольными, и их произведение $ R_{} $ относится к тому же типу. Обратная к верхнетреугольной также является верхнетреугольной. В результате, можно получить разложение матрицы $ A_{} $ в произведение $$ A=Q_{5\times 3}R^{-1} \, , $$ где вторая матрица в произведении является верхнетреугольной, а первая имеет свои столбцы ортонормированными.
Теорема [о QR-разложении]. Для любой вещественной матрицы $ A_{m\times n}^{} $ ранга $ n< m $ существует вещественная матрица $ Q_{m\times n} $ c ортонормированными столбцами и верхнетреугольная вещественная матрица11) $ \tilde R_{n\times n} $, такие, что $$ A=Q \tilde R \, . $$
Пример. Для матрицы из предыдущего примера имеем:
$$ \left( \begin{array}{ccc} 1 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 1 \\ 0 & 1 & 1 \\ 1 & 1 & 1 \end{array} \right) = $$ $$ =\left( \begin{array}{ccc} 1/\sqrt{2} & 0 & 0 \\ 0 & 1/\sqrt{2} & 0 \\ 0 & 0 & 1 \\ 0 & 1/\sqrt{2} & 0 \\ 1/\sqrt{2} & 0 & 0 \end{array} \right) \left\{ \left( \begin{array}{rrr} 1 & -1 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right) \left( \begin{array}{rrr} 1 & 0 & -1 \\ 0 & 1 & -1 \\ 0 & 0 & 1 \end{array} \right) \left( \begin{array}{ccc} 1/\sqrt{2} & 0 & 0 \\ 0 & 1/\sqrt{2} & 0 \\ 0 & 0 & 1 \end{array} \right) \right\}^{-1} $$ $$ = \left( \begin{array}{ccc} 1/\sqrt{2} & 0 & 0 \\ 0 & 1/\sqrt{2} & 0 \\ 0 & 0 & 1 \\ 0 & 1/\sqrt{2} & 0 \\ 1/\sqrt{2} & 0 & 0 \end{array} \right)\left( \begin{array}{rrr} \sqrt{2} & \sqrt{2} & \sqrt{2} \\ 0 & \sqrt{2} & \sqrt{2} \\ 0 & 0 & 1 \end{array} \right) \, . $$ ♦
Для квадратной неособенной вещественной матрицы $ A_{} $ матрица $ Q_{} $ в QR-разложении будет ортогональной.
Последний результат имеет уже самостоятельное значение, не относящееся к материалам настоящего раздела. Например, его можно использовать для обращения матрицы $ A_{} $. Дело в том, что ортогональная матрица обращается очень просто: $ Q^{-1} = Q^{\top} $, а для обращения треугольной матрицы существует эффективная вычислительная процедура.
Задача. Найти расстояние от заданного вектора $ X_{} $ до заданного множества $ \mathbb S\subset \mathbb E $.
Такая постановка требует немедленного уточнения: что такое расстояние от вектора до множества? Обратясь за помощью к геометрии, мы можем ввести это понятие, основываясь на понятии расстояния между точками: например, расстояние от точки $ X\in \mathbb R^2 $ до множества $ \mathbb S \subset \mathbb R^2 $ определить как минимальное из возможных расстояний между точками $ X_{} $ и $ Y_{} $, где $ Y\in \mathbb S $. Следующий пример показывает, что наше определение оказывается ущербным.
Пример. Множество
$$ \mathbb S=\{(x,y)\in \mathbb R^2 \mid x^2+y^2<1 \} $$ не содержит своих граничных точек; требуемый минимум расстояний от точки $ X=(2,0) $ до точек круга не достигается так как при любом выборе точки $ Y_1 \in \mathbb S $ найдется более близкая к точке $ X_{} $ точка $ Y_2 \in \mathbb S $.
Расстоянием от вектора $ X\in \mathbb E $ до множества $ \mathbb S\subset \mathbb E $ назовем число $$\inf_{Y\in \mathbb S} |X-Y| \ . $$
В случае произвольного множества $ \mathbb S $ поставленная задача весьма сложна. В настоящем пункте мы будем решать ее только для частного случая расстояния от точки до плоскости, т.е. от вектора $ X\in \mathbb E $ до линейного многообразия $ \mathbb M \subset \mathbb E $.
Говорят, что вектор $ X_{} $ ортогонален множеству $ \mathbb S \subset \mathbb E $, если $ X_{} $ ортогонален любому вектору $ Y_{} $ из $ \mathbb S $.
Теорема 1. Для того, чтобы вектор $ X_{} $ был ортогонален линейному подпространству $ \mathbb E_1 $ необходимо и достаточно, чтобы $ X_{} $ был ортогонален произвольному базису этого подпространства.
Теорема 2. Множество векторов $ X_{} $ ортогональных подпространству $ \mathbb E_{1} \subset \mathbb E $ образует подпространство. Оно называется ортогональным дополнением подпространства $ \mathbb E_1 $ в $ \mathbb E_{ } $ и обозначается $ \mathbb E_1^{^{\bot}} $. Справедливо равенство
$$ \mathbb E=\mathbb E_1 \oplus \mathbb E_1^{^{\bot}} \ , $$ т.е. пространство $ \mathbb E_{ } $ раскладывается в прямую сумму своего произвольного подпространства $ \mathbb E_1 $ и ортогонального дополнения $ \mathbb E_1^{^{\bot}} $ этого подпространства.
Пример. Построить $ \mathbb E_1^{^{\bot}} $ для
$$ \mathbb E_1 ={\mathcal L} \left( \left[ \begin{array}{r} 1 \\ 0 \\ 1 \\ 0 \end{array} \right], \left[ \begin{array}{r} 0 \\ 1 \\ 1 \\ -2 \end{array} \right], \left[ \begin{array}{r} 2 \\ -1 \\ 1 \\ 2 \end{array} \right] \right) $$ и скалярного произведения заданного стандартным способом: $ \langle X,Y \rangle = x_1y_1+\dots+x_4y_4 $.
Решение. Будем искать произвольный — т.е. не обязательно ортогональный — базис $ \mathbb E_1^{^{\bot}} $. Вектор $ X=[x_1,x_2,x_3,x_4]^{^{\top}} $, принадлежащий $ \mathbb E_1^{^{\bot}} $, должен быть ортогонален всем векторам из $ \mathbb E_1 $, и, в частности, тем, на которые натянуто это подпространство. Из полученных равенств составляем систему $$ \left\{ \begin{array}{rrrrl} x_1&&+x_3&&= 0, \\ &x_2&+x_3&-2\,x_4 &=0, \\ 2\,x_1&-x_2&+x_3&+2\,x_4 &=0, \end{array} \right. $$ не заботясь о том, что некоторые уравнения могут оказаться зависимыми от других. Множество решений этой системы как раз и будет совпадать с $ \mathbb E_1^{^{\bot}} $. Нам остается лишь найти базис этого множества, т.е. фудаментальную систему решений: $$ \iff \ \left\{ \begin{array}{rrrrl} x_1&&+x_3&&= 0, \\ &x_2&+x_3&-2\,x_4 &=0 \end{array} \right. \ \Rightarrow \ \begin{array}{cc|cc} x_1 & x_2 & x_3 & x_4 \\ \hline -1 & -1 & 1 & 0 \\ 0 & 2 & 0 & 1 \end{array} $$ Ответ. $ \mathbb E_1^{^{\bot}}={\mathcal L}\left([-1,-1,1,0]^{\top},[0,2,0,1]^{\top} \right) $.
Пример. Построить $ \mathbb E_1^{^{\bot}} $ для
$$ \mathbb E_1= \left\{ X\in \mathbb R^4 \left| \begin{array}{rrrrl} 3\,x_1&+2\,x_2&-x_3&-x_4 &= 0, \\ x_1&+x_2&-3\,x_3&-2\,x_4 &=0, \\ 2\,x_1&+x_2&+2\,x_3&+x_4 &=0 \end{array} \right. \right\} $$ и скалярного произведения заданного стандартным способом: $ \langle X,Y \rangle = x_1y_1+\dots+x_4y_4 $.
Решение этого примера можно было бы провести сведением к предыдущему случаю. Однако базисные векторы $ \mathbb E_1^{^{\bot}} $ легко определяются из следующих соображений. Заметим, что каждое из уравнений системы, задающей $ \mathbb E_1 $, можно «перевести на язык» скалярного произведения $$ 3\,x_1+2\,x_2-x_3-x_4=0 \ \iff \ \langle [3,2,-1,-1]^{^{\top}}, [x_1,x_2,x_3,x_4]^{^{\top}} \rangle =0 . $$ Формально это соотношение означает, что произвольный вектор $ X_{} $ из $ \mathbb E_1 $ должен быть ортогонален вектору $ [3,2,-1,-1]^{^{\top}} $. Но последний факт как раз и означает, что $ [3,2,-1,-1]^{^{\top}}\in \mathbb E_1^{^{\bot}} $. Аналогичные рассуждения справедливы и для других уравнений системы. Имеем: $$ \mathbb E_1^{^{\bot}}= {\mathcal L} \left( \left[ \begin{array}{r} 3 \\ 2 \\ -1 \\ -1 \end{array} \right], \left[ \begin{array}{r} 1 \\ 1 \\ -3 \\ -2 \end{array} \right], \left[ \begin{array}{r} 2 \\ 1 \\ 2 \\ 1 \end{array} \right] \right)= {\mathcal L} \left( \left[ \begin{array}{r} 3 \\ 2 \\ -1 \\ -1 \end{array} \right], \left[ \begin{array}{r} 1 \\ 1 \\ -3 \\ -2 \end{array} \right] \right) $$ ♦
Доказать следующие свойства операции $ \perp $:
а) $ \left(\mathbb E_1^{^{\bot}} \right)^{^{\bot}}=\mathbb E_1 $; б) $ \left(\mathbb E_1 +\mathbb E_2 \right)^{^{\bot}}=\mathbb E_1^{^{\bot}} \cap \mathbb E_2^{^{\bot}} $; в) $ \left(\mathbb E_1 \cap \mathbb E_2 \right)^{^{\bot}}=\mathbb E_1^{^{\bot}}+\mathbb E_2^{^{\bot}} $.
Доказать, что в пространстве квадратных матриц со скалярным произведением, заданным формулой
$$ \langle A,B \rangle = \operatorname{Sp} \left(A\cdot B^{\top} \right) = \sum_{j,k=1}^n a_{jk}b_{jk} \ , $$ подпространство кососимметричных матриц является ортогональным дополнением подпространства симметричных матриц.
Теорема $ 2 $ из предыдущего пункта позволяет сформулировать результат, на котором и будет основано решение задачи вычисления расстояния.
Теорема 3. Для любого вектора $ X\in \mathbb E $ существует единственное представление его в виде
$$ X=X^{^{\parallel}}+X^{^{\bot}} \quad npu \ X^{^{\parallel}}\in \mathbb E_1, X^{^{\bot}} \in \mathbb E_1^{^{\bot}} . $$
В этом разложении вектор $ X^{^{\parallel}} $ называется ортогональной проекцией вектора $ X_{} $ на $ \mathbb E_1 $, а вектор $ X^{^{\bot}} $ — ортогональной составляющей вектора $ X_{} $ относительно $ \mathbb E_1 $ или же перпендикуляром, опущенным из точки $ X_{} $ на подпространство $ \mathbb E_1 $.
Теорема 4. Длина перпендикуляра, опущенного из точки $ X_{} $ на подпространство $ \mathbb E_1 $ , равна расстоянию от этой точки до подпространства:
$$\left|X^{^{\bot}}\right|=\min_{Y\in \mathbb E_1} |X-Y| \ . $$
Доказательство. $$ X^{^{\bot}}=\left( X-X^{^{\parallel}} \right) \perp \mathbb E_1 \ \Rightarrow \ X^{^{\bot}} \perp \left( -Y+X^{^{\parallel}} \right) \quad npu \ \forall Y \ \in \mathbb E_1 \ . $$ По теореме Пифагора: $$ \left|X^{^{\bot}} \right|^2+ \left|X^{^{\parallel}} -Y \right|^2 =\left|X^{^{\bot}}+ X^{^{\parallel}} -Y \right|^2 = |X-Y|^2 \ \Rightarrow \ $$ $$ \ \Rightarrow \ \left|X^{^{\bot}} \right|^2\le |X-Y|^2 \ \Rightarrow \ \left|X^{^{\bot}} \right|\le \min_{Y\in \mathbb E_1} |X-Y| \ . $$ С другой стороны, указанный минимум достигается при $ Y=X^{^{\parallel}} $ поскольку $ \left|X^{^{\bot}} \right|=\left|X-X^{^{\parallel}}\right| $. ♦
Итак, задача, поставленная в начале ☞ ПУНКТА, решается вычислением $ \left|X^{^{\bot}} \right| $. Для нахождения последнего числа сначала найдем базис $ \{X_1,\dots,X_k \} $ подпространства $ \mathbb E_1 $. Далее, ищем $ X^{^{\parallel}} $, принадлежащий $ \mathbb E_1 $, в виде линейной комбинации базисных векторов: $$ X^{^{\parallel}}=\alpha_1 X_1 + \dots + \alpha_k X_k \ . $$ Для нахождения скаляров $ \alpha_1,\dots , \alpha_k $ используем тот факт, что вектор $ X^{^{\bot}}=X-X^{^{\parallel}} $ должен быть ортогонален $ \mathbb E_1 $, а значит, ортогонален каждому $ X_j $: $$\langle X-X^{^{\parallel}}, X_j \rangle =0 \ \iff \ \langle X^{^{\parallel}}, X_j \rangle=\langle X,X_j \rangle \ . $$ Получаем систему линейных уравнений: $$ \left\{ \begin{array}{ccccc} \alpha_1 \langle X_1,X_1 \rangle &+ \alpha_2 \langle X_1,X_2 \rangle &+ \dots &+ \alpha_k \langle X_1,X_k \rangle &= \langle X,X_1 \rangle, \\ \alpha_1 \langle X_2,X_1 \rangle & + \alpha_2 \langle X_2,X_2 \rangle &+ \dots &+ \alpha_k \langle X_2,X_k \rangle &= \langle X,X_2 \rangle, \\ \dots & & & & \dots \\ \alpha_1 \langle X_k,X_1 \rangle & + \alpha_2 \langle X_k,X_2 \rangle &+ \dots &+ \alpha_k \langle X_k,X_k \rangle &= \langle X,X_k \rangle. \end{array} \right. $$ с матрицей, которая нам уже известна как матрица Грама системы векторов: $ G(X_1,\dots,X_k) $. Для однозначной разрешимости относительно $ \alpha_1,\dots , \alpha_k $ необходимо и достаточно (см. ☞ теорема Кронекера-Капелли ), чтобы определитель этой матрицы — т.е. определитель Грама $ \mathfrak G(X_1,\dots,X_k) $ — был отличен от нуля.
Матрица Грама обращается в единичную если векторы $ X_1,\dots,X_k $ входят в состав ортонормированного базиса пространства $ \mathbb E_{} $. Следовательно, по крайней мере в этом частном случае, система уравнений будет иметь единственное решение. В одном из последующих ☟ ПУНКТОВ будет установлен и более общий факт: $$ \mathfrak{G}(Y_1,\dots,Y_k)=0 \ \iff \quad \mbox{ система векторов } \quad \{Y_1,\dots,Y_k\} \quad \mbox{ линейно зависима. } $$ Этот факт позволяет нам заключить, что, поскольку векторы $ \{X_1,\dots,X_k\} $ — базисные для подпространства $ \mathbb E_1 $, то система уравнений имеет единственное решение относительно $ \alpha_1,\dots , \alpha_k $: $$\alpha_1=\alpha_1^{*},\dots , \alpha_k=\alpha_k^{*} \ .$$ Теперь может быть найдена проекция вектора $ X_{} $ на $ \mathbb E_1 $: $$ X^{^{\parallel}}=\alpha_1^{*} X_1 + \dots + \alpha_k^{*} X_k \ , $$ а затем и составляющая: $ X^{^{\bot}}=X-X^{^{\parallel}} $.
Пример. Найти расстояние от точки $ X=[1,1,2,2,2] $ до подпространства
$$ \mathbb E_1= \left\{ X\in \mathbb R^5 \left| \begin{array}{rrrrrl} x_1&-x_2&-x_3&+x_4 & &= 0, \\ 2\,x_1&-x_2&-x_3&+2\,x_4 &-x_5 &=0 \end{array} \right. \right\} \ , $$ если скалярное произведение определяется стандартно: $ \langle X,Y \rangle=\sum_{j=1}^5 x_jy_j $.
Решение. Базис $ \mathbb E_1 $ составляет фундаментальная система решений системы линейных уравнений, например: $$X_1=[0,-1,1,0,0],\ X_2=[-1,0,0,1,0],\ X_3=[1,1,0,0,1] \ .$$ Составляем матрицу Грама этой системы векторов и выписываем систему уравнений: $$ \left( \begin{array}{rrr} 2 & 0 & -1 \\ 0 & 2 & -1 \\ -1 & -1 & 3 \end{array} \right) \left( \begin{array}{r} \alpha_1 \\ \alpha_2 \\ \alpha_3 \end{array} \right) = \left( \begin{array}{r} 1 \\ 1 \\ 4 \end{array} \right) \ \Rightarrow \ \alpha_1=\frac{7}{4},\, \alpha_2=\frac{7}{4},\, \alpha_3=\frac{5}{2} \ . $$ Ортогональная проекция вектора $ X_{} $ на $ \mathbb E_1 $: $$ X^{^{\parallel}}= \frac{7}{4} X_1 + \frac{7}{4} X_2 + \frac{5}{2} X_3=\left[\frac{3}{4},\, \frac{3}{4},\, \frac{7}{4},\, \frac{7}{4},\, \frac{5}{2} \right] \ , $$ а ортогональная составляющая вектора $ X_{} $ относительно $ \mathbb E_1 $: $$ X^{^{\bot}}=X-X^{^{\parallel}}= \left[\frac{1}{4},\, \frac{1}{4},\, \frac{1}{4},\, \frac{1}{4},\, - \frac{1}{2} \right] \quad \Rightarrow \ \left|X^{^{\bot}}\right| =\frac{1}{\sqrt{2}} \ . $$
Ответ. $ 1/\sqrt{2} $.
Теорема 5. Расстояние от точки $ X_{0}=(x_{10},\dots,x_{n0})^{\top} $ до гиперплоскости (или, в случае $ n=2 $, прямой)
$$ c_1x_1+\dots+c_nx_n= h $$ равно $$ d= \frac{|c_1x_{10}+\dots+c_nx_{n0}-h|}{\sqrt{c_1^2+\dots+c_n^2}} \ . $$ Ближайшая к $ X_0 $ точка гиперплоскости (ортогональная проекция точки на гиперплоскость): $$ X_{\ast}=X_0- \frac{c_1x_{10}+\dots+c_nx_{n0}-h}{c_1^2+\dots+c_n^2} \left(\begin{array}{c} c_1 \\ \vdots \\ c_n \end{array} \right) \, . $$
Общий способ вычисления расстояния от точки до линейного многообразия в $ \mathbb R^n $, заданного системой линейных уравнений ☞ ЗДЕСЬ.
Расстояние от точки $ X_{} $ до линейного подпространства, базисными векторами которого являются $ X_1,\dots,X_k $, вычисляется по формуле:
$$ d=\sqrt{\frac{{\mathfrak G}(X_1,\dots,X_k, X)}{{\mathfrak G}(X_1,\dots,X_k)}} \ . $$
Доказательство ☞ ЗДЕСЬ.
Пример. В пространстве полиномов с вещественными коэффициентами степеней не выше $ 5_{} $ со скалярным произведением, заданным формулой
$$\langle p(x),q(x) \rangle = \int_{-1}^1 p(t)q(t) d\,t $$ найти расстояние от полинома $ p(x)= -x^5+x^3-3\,x+1 $ до линейного подпространства четных полиномов.
Решение. Базис подпространства четных полиномов состоит, например, из $ 1,x^2,x^4 $. Имеем: $$ {\mathfrak G}(1,x^2,x^4)=\left| \begin{array}{ccc} \int_{-1}^1 1 \cdot 1 d\,t & \int_{-1}^1 1 \cdot t^2 d\,t & \int_{-1}^1 1 \cdot t^4 d\,t \\ \int_{-1}^1 1 \cdot t^2 d\,t & \int_{-1}^1 t^2 \cdot t^2 d\,t & \int_{-1}^1 t^2\cdot t^4 d\,t \\ \int_{-1}^1 1 \cdot t^4 d\,t & \int_{-1}^1 t^2 \cdot t^4 d\,t & \int_{-1}^1 t^4 \cdot t^4 d\,t \end{array} \right|=\left| \begin{array}{ccc} 2 & 2/3 & 2/5 \\ 2/3 & 2/5 & 2/7 \\ 2/5 & 2/7 & 2/9 \end{array} \right|=\frac{2048}{496125} \ ; $$ $$ {\mathfrak G}(1,x^2,x^4,p(x))=\left| \begin{array}{cccc} 2 & 2/3 & 2/5 & 2 \\ 2/3 & 2/5 & 2/7 & 2/3 \\ 2/5 & 2/7 & 2/9 & 2/5 \\ 2 & 2/3 & 2/5 & 3632/495 \end{array} \right|=\frac{5410816}{245581875} \ . $$ Отношение полученных определителей даст квадрат расстояния: $$ d^2=2642/495 \ . $$ К этому же ответу можно было прийти и быстрее если заметить, что при заданном скалярном произведении любой четный полином ортогонален любому нечетному полиному. Следовательно для выделения у $ p(x) $ ортогональной составляющей относительно подпространства четных полиномов достаточно оставить в его каноническом виде только нечетные одночлены. Расстояние равно норме полинома $ p(x)-1 $. ♦
Подводя итог: определители Грама полностью решают задачу о вычислении расстояния от точки до линейного подпространства в любом евклидовом пространстве; этот результат легко обобщается на произвольное линейное многообразие.
Теорема 6. Расстояние от точки $ X_{} $ до линейного многообразия $ \mathbb M=X_0+\mathbb E_1 $ равно длине ортогональной составляющей вектора $ X-X_0 $ относительно подпространства $ \mathbb E_1 $.
Доказательство. Геометрический смысл понятен из рисунков, иллюстрирующих решение проблемы в $ \mathbb R^{3} $: надо свести задачу к случаю из предыдущей теоремы с помощью сдвига всей конструкции на вектор $ (-X_0) $.
Формальности: $$ \min_{Y\in \mathbb M} |X-Y| =\min_{Z\in \mathbb E_1} |X-(X_0+Z)|= \min_{Z\in \mathbb E_1} |(X-X_0)-Z)| \ . $$ Последняя величина — это расстояние от точки $ X-X_0 $ до $ \mathbb E_1 $ ; согласно теореме $ 4 $ оно равно длине ортогональной составляющей вектора $ X-X_0 $ относительно $ \mathbb E_1 $. ♦
Расстояние от точки $ X_{} $ до линейного многообразия, заданного параметрически
$$ \mathbb M=\left\{X_0+\lambda_1 X_1+\dots+\lambda_k X_k \quad \mid \quad (\lambda_1,\dots,\lambda_k) \in {\mathbb R}^k \right\} $$ при фиксированных линейно независимых $ \{X_0,X_1,\dots,X_k \}\subset {\mathbb E} $ вычисляется по формуле: $$ d=\sqrt{\frac{{\mathfrak G}(X_1,\dots,X_k, X-X_0)}{{\mathfrak G}(X_1,\dots,X_k)}} \ . $$
Вычисление расстояния между линейными многообразиями (и некоторыми другими объектами, заданными алгебраическими уравнениями) ☞ ЗДЕСЬ.
Углом между вектором $ X\in \mathbb E $ и линейным подпространством $ \mathbb E_1 \subset \mathbb E $ назовем число — точную нижнюю грань множества углов между $ X_{} $ и всевозможными векторами $ Y \in \mathbb E_1 $. Углом между вектором $ X\in \mathbb E $ и линейным многообразием $ \mathbb M=X_0+\mathbb E_1 $ называется угол между $ X_{} $ и $ \mathbb E_1 $.
Теорема. Угол между вектором $ X\in \mathbb E $ и линейным подпространством $ \mathbb E_1 \subset \mathbb E $ равен углу между этим вектором и его ортогональной проекцией $ X^{^{\parallel}} $ на $ \mathbb E_1 $.
Эта теорема сводит задачу к решенной в предыдущих пунктах задаче вычисления расстояния от вектора до подпространства, только теперь интерес смещается от ортогональной составляющей вектора к его ортогональной проекции.
Пример. Определить угол между вектором $ X_0=[1,0,3,0] $ и линейной оболочкой
$$ \mathcal L([5,3,4,-3],[1,1,4,5],[2,-1,1,2]) \ . $$
Решение. Воспользуемся результатом, приведенным ☞ ЗДЕСЬ (для правильной стыковки рассматриваем все векторы как столбцы): $$ X_{\ast}=L(L^{\top} L_{})^{-1} L^{\top} X_0 \, . $$ Здесь $$ L=\left(\begin{array}{rrr} 5 & 1 & 2 \\ 3 & 1 & -1 \\ 4 & 4 & 1 \\ -3 & 5 & 2 \end{array} \right), \qquad L^{\top} L = \left(\begin{array}{rrr} 59 & 9 & 5 \\ 9 & 43 & 15 \\ 5 & 15 & 10 \end{array} \right), $$ $$ (L^{\top} L )^{-1} = \left(\begin{array}{rrr} 41/2312 & -3/2312 & -2/289\\ -3/2312 & 113/2312 & -21/289\\ -2/289 & -21/289 & 307/1445 \end{array} \right) $$ $$ L(L^{\top} L_{})^{-1} L^{\top}= \left(\begin{array}{rrrr} 9/10 & -1/5 & 1/5 & -1/10 \\ -1/5 & 3/5 & 2/5 & -1/5 \\ 1/5 & 2/5 & 3/5 & 1/5\\ -1/10 & -1/5 & 1/5 & 9/10 \end{array} \right), \quad X_{\ast}= \left(\begin{array}{r} 3/2 \\ 1 \\ 2 \\ 1/2 \end{array} \right) \, . $$ $$ \widehat{X_0,X_{\ast}}=\arccos \frac{\langle X_0,X_{\ast} \rangle }{\sqrt{ \langle X_0,X_0\rangle \langle X_{\ast},X_{\ast} \rangle}}= \arccos \frac{\sqrt{3}}{2}= \frac{\pi}{6} \, . $$ ♦
Теорема. $ {\mathfrak G}(X_{1},\dots,X_m)=0 $ тогда и только тогда, когда система векторов $ \{X_{1},\dots,X_m \} $ линейно зависима.
Доказательство. Если система векторов $ \{X_{1},\dots,X_m\} $ линейно зависима, то имеет место равенство $$\alpha_1 X_1+\alpha_2 X_2+\dots+\alpha_{m} X_{m}=\mathbb O$$ при некотором нетривиальном наборе скаляров $ \alpha_1=\alpha_1^{*},\dots,\alpha_m=\alpha_m^{*} $. Домножим это соотношение (скалярно) на векторы $ X_1,X_2,\dots,X_m $, получим систему уравнений, которую перепишем в матричном виде: $$ \left( \begin{array}{cccc} \langle X_1,X_1 \rangle & \langle X_1,X_2 \rangle & \dots & \langle X_1,X_m \rangle \\ \langle X_2,X_1 \rangle & \langle X_2,X_2 \rangle & \dots & \langle X_2,X_m \rangle \\ \dots & & & \dots \\ \langle X_m,X_1 \rangle & \langle X_m,X_2 \rangle & \dots & \langle X_m,X_m \rangle \end{array} \right) \left( \begin{array}{c} \alpha_1 \\ \alpha_2 \\ \vdots \\ \alpha_m \end{array} \right)= \left( \begin{array}{c} 0 \\ 0 \\ \vdots \\ 0 \end{array} \right) \ . $$ Если рассмотреть эту систему относительно переменных $ \alpha_{1},\dots,\alpha_m $, то она оказывается однородной и, по предположенному, будет иметь нетривиальное решение $ \alpha_1=\alpha_1^{*},\dots,\alpha_m=\alpha_m^{*} $ . Следовательно (см. ☞ ТЕОРЕМА КРОНЕКЕРА-КАПЕЛЛИ ) ее определитель равен нулю: $ {\mathfrak G}(X_{1},\dots,X_m)=0 $.
Обратно, если определитель Грама равен нулю, то предыдущая система имеет нетривиальное решение относительно $ \alpha_{1},\dots,\alpha_m $. Пусть $ \alpha_1=\alpha_1^{\star},\dots,\alpha_m=\alpha_m^{\star} $ — какое-то из этих решений. Составим вектор $$X^{\star}= \alpha_1^{\star} X_1+\alpha_2^{\star} X_2+\dots+\alpha_{m}^{\star} X_{m} $$ и вычислим скалярное произведение его на самого себя: $$ \langle X^{\star},X^{\star} \rangle = $$ $$ = (\alpha_1^{\star} ,\alpha_2^{\star} ,\dots,\alpha_m^{\star} ) \underbrace{\left( \begin{array}{cccc} \langle X_1,X_1 \rangle & \langle X_1,X_2 \rangle & \dots & \langle X_1,X_m \rangle \\ \langle X_2,X_1 \rangle & \langle X_2,X_2 \rangle & \dots & \langle X_2,X_m \rangle \\ \dots & & & \dots \\ \langle X_m,X_1 \rangle & \langle X_m,X_2 \rangle & \dots & \langle X_m,X_m \rangle \end{array} \right) \left(\begin{array}{c} \alpha_1^{\star} \\ \alpha_2^{\star} \\ \vdots \\ \alpha_m^{\star} \end{array}\right)}_{=\mathbb O_{m\times 1}}=0 \ . $$ Таким образом длина вектора $ X^{\star} $ равна нулю, и, следовательно, по аксиоме 4 , сам вектор $ X^{\star} $ — нулевой. Но тогда система векторов $ \{X_{1},\dots,X_m\} $ линейно зависима. ♦
Ранг матрицы Грама совпадает с рангом системы порождающих ее векторов:
$$ \operatorname{rank} (G(X_1,\dots,X_m))= \operatorname{rank} \{X_1,\dots,X_m \} \ . $$
Если какой-то главный минор матрицы Грама обращается в нуль, то и все главные миноры бóльших порядков обращаются в нуль.
Теорема. $ {\mathfrak G}(X_{1},\dots,X_m) \ge 0 $ для любой системы векторов $ \{X_{1},\dots,X_m \} $.
Доказательство ☞ ЗДЕСЬ
Матрица Грама линейно независимой системы векторов является положительно определенной. Матрица Грама произвольной системы векторов является положительно полуопределенной.
Дальнейшие свойства матрицы и определителя Грама
☞
ЗДЕСЬ
☞ ЗДЕСЬ.
Материалы настоящего раздела составлены на основе книги
Шилов Г.Е. Математический анализ. Конечномерные линейные пространства. М.Наука.1969