!!§!! Вспомогательная страница к разделу ☞ ((:interpolation ИНТЕРПОЛЯЦИЯ)). ---- Все числа в настоящем разделе предполагаются вещественными. ==Метод наименьших квадратов== ~~TOC~~ Пусть из физических соображений можно считать (предполагать), что величины $ x_{} $ и $ y_{} $ связаны линейной зависимостью вида $ y=kx+b $, а неизвестные коэффициенты $ k_{} $ и $ b_{} $ должны быть оценены экспериментально. Экспериментальные данные представляют собой $ m>1 $ точек на координатной плоскости $ (x_1,y_1), \dots, (x_m,y_m) $. Если бы эти опыты производились без погрешностей, то подстановка данных в уравнение приводила бы нас к системе из $ m_{} $ линейных уравнений для двух неизвестных $ k_{} $ и $ b_{} $: $$ y_1=k\,x_1+b, \dots, y_m=k\,x_m+b \ . $$ Из любой пары уравнений этой системы можно было бы однозначно определить коэффициенты $ k_{} $ и $ b_{} $. Однако, в реальной жизни опытов без погрешностей не бывает Письмо в редакцию: Дорогая редакция! Формулировку закона Ома следует уточнить следующим образом:<<Если использовать тщательно отобранные и безупречно подготовленные исходные материалы, то при наличии некоторого навыка из них можно сконструировать электрическую цепь, для которой измерения отношения тока к напряжению, даже если они проводятся в течение ограниченного времени, дают значения, которые после введения соответствующих поправок оказываются равными постоянной величине>>. Источник: А.М.Б.Розен. Физики шутят. М.Мир.1993. Будем предполагать, что величины $ x_{1},\dots,x_m $ известны точно, а им соответствующие $ y_1,\dots,y_m $ --- приближенно. Если $ m>2 $, то при любых различных $ x_{i} $ и $ x_j $ пара точек $ (x_{i},y_i) $ и $ (x_{j},y_j) $ определяет прямую. Но другая пара точек определяет другую прямую, и у нас нет оснований выбрать какую-нибудь одну из всех прямых. Часто в задаче удаленность точки от прямой измеряют не расстоянием, а разностью ординат $ k\,x_i+b-y_i $, и выбирают прямую так, чтобы сумма **квадратов** всех таких разностей была минимальна. Коэффициенты $ k_0 $ и $ b_{0} $ уравнения этой прямой дают некоторое решение стоящей перед нами задачи, которое отнюдь не является решением системы линейных уравнений $$ k\,x_1+b=y_1,\dots, k\,x_{m}+b=y_m $$ (вообще говоря, несовместной). Рассмотрим теперь обобщение предложенной задачи. Пусть искомая зависимость между величинами $ y_{} $ и $ x_{} $ полиномиальная: $$ y_1=f(x_1),\dots , y_m=f(x_m), \quad npu \quad f(x)=a_0+a_1x+\dots+a_{n-1}x^{n-1} $$ Величина $ \varepsilon_i=f(x_i)-y_i $ называется $ i_{} $-й **невязкой**[[Residual (//англ.//)]]. Уравнения $$ \left\{\begin{array}{ccl} a_0+a_1x_1+\dots+a_{n-1}x_1^{n-1}&=&y_1, \\ a_0+a_1x_2+\dots+a_{n-1}x_2^{n-1}&=&y_2, \\ \dots & & \dots \\ a_0+a_1x_m+\dots+a_{n-1}x_m^{n-1}&=&y_m \end{array} \right. $$ называются **условными**. Матрица этой системы --- ((:algebra2:vander#матрица_и_определитель_вандермонда матрица Вандермонда)) (она не обязательно квадратная). Предположим что данные интерполяционной таблицы $$ \begin{array}{c|ccccc} x & x_1 & x_2 & \dots & x_m \\ \hline y & y_1 & y_2 &\dots & y_m \end{array} $$ не являются достоверными: величины $ x_{} $ нам известны практически без искажений (т.е. на входе процесса мы имеем абсолютно достоверные данные), а вот измерения величины $ y_{} $ подвержены случайным (несистематическим) погрешностям. **Задача.** Построить полином $ f_{}(x) $ такой, чтобы величина $$ \sum_{j=1}^m [f(x_j)-y_j]^2 $$ стала минимальной. Решение задачи в такой постановке известно как **метод наименьшик квадратов**[[The least squares method]]. В случае $ \deg f_{} =m-1 $ мы возвращаемся к задаче интерполяции в ее ((:interpolation#интерполяция классической постановке)). Практический интерес, однако, представляет случай $ \deg f_{} < m-1 $, т.е. случай когда экспериментальных данных больше (обычно --- много больше) чем значений параметров (коэффициентов полинома $ f_{} $), которые требуется определить. Так, в случае $ \deg f_{}=1 $ речь идет о построении прямой $ y=ax+b $ на плоскости $ (x,y) $, обеспечивающей $$ \min (\varepsilon_1^2+\varepsilon_2^2+\dots + \varepsilon_m^2) \, . $$ Здесь $ \varepsilon_j = a\,x_j+b-y_j $. {{ interpolation:pearson3.png |}} !!Т!! **Теорема.** //Если// $ m\ge n_{} $ //и узлы интерполяции// $ x_{1},\dots,x_m $ //все различны, то существует единственный набор коэффициентов// $ a_{0},\dots,a_{n-1} $, //обеспечивающий минимальное значение для// $$ \sum_{j=1}^m (a_0+a_1x_j+\dots+a_{n-1}x_j^{n-1} -y_j)^2 \ . $$ //Этот набор определяется как решение// **системы нормальных уравнений** $$ \underbrace{ \left(\begin{array}{llllll} s_0 &s_1&s_2&\ldots&s_{n-2}& s_{n-1}\\ s_1 &s_2&s_3&\ldots&s_{n-1}& s_{n}\\ s_2 &s_3&s_4&\ldots&s_{n}& s_{n+1}\\ \vdots& & & && \vdots\\ s_{n-1} &s_n&s_{n+1}&\ldots &s_{2n-3}&s_{2n-2} \end{array}\right)}_{\displaystyle S_{n\times n}} \left(\begin{array}{l} a_0 \\ a_1 \\ a_2 \\ \vdots \\ a_{n-1} \end{array} \right)= \left(\begin{array}{l} t_0 \\ t_1 \\ t_2 \\ \vdots \\ t_{n-1} \end{array} \right) $$ //при// $ s_{k} = x_1^k+\dots+x_m^k, \ t_{k} = x_1^ky_1+\dots+x_m^k y_m $. Если одно из значений $ x_{j} $ равно $ 0_{} $ , то полагаем $ 0^{0} = 1 $, так что $ s_{0}=m $ при любых $ \{x_{1},\dots, x_m\} \subset \mathbb R $. **Доказательство.** Рассмотрим сумму как полином от неопределенных коэффициентов $ \{a_{j}\}_{j=0}^{n-1} $: $$F(a_0,\dots,a_{n-1})= \sum_{i=1}^m [f(x_i)-y_i]^2= $$ $$ =\sum_{i=1}^m [(a_0+a_1x_i+\dots+a_{n-1}x_i^{n-1})-y_i]^2 \ . $$ На основании теоремы из пункта ((:polynomialm#экстремумы_полинома ЭКСТРЕМУМЫ ПОЛИНОМА)) такая функция может принимать экстремальные значения только на вещественных решениях системы уравнений $$ \partial F / \partial a_0=0, \dots, \partial F / \partial a_{n-1}=0 \ . $$ Распишем выражение для $ \partial F / \partial a_j $: $$\partial F / \partial a_j =\sum_{i=1}^m 2\,[f(x_i)-y_i] \frac{\partial (a_0+a_1x_i+\dots+a_{n-1}x_i^{n-1})}{\partial a_j} $$ $$ =2\, \sum_{i=1}^m [f(x_i)-y_i] x_i^{j}=$$ $$=2\, \sum_{i=1}^m \left[\left(a_0x_i^{j}+a_1x_i^{j+1}+\dots+a_{n-1}x_i^{j+n-1} \right)-y_ix_i^{j} \right]= $$ $$= 2\left[a_0\, \sum_{i=1}^m x_i^{j}+a_1\, \sum_{i=1}^m x_i^{j+1}+ \dots+a_{n-1}\, \sum_{i=1}^m x_i^{j+n-1}- \sum_{i=1}^m y_ix_i^{j} \right]=$$ $$=2 [a_0\, s_j+a_1\, s_{j+1}+\dots+a_{n-1}\,s_{j+n-1}-t_j ] $$ Таким образом, условия $ \left\{\partial F / \partial a_j=0 \right\}_{j=0}^n $ можно переписать в виде системы нормальных уравнений. Покажем теперь, что матрица этой системы имеет ненулевой определитель. Действительно, матрица $ S_{} $ --- ((:algebra2:hankel#gankelevy_matricy_opredeliteli_i_polinomy ганкелева)). При $ m=n_{} $ $$S = \left(\begin{array}{ccccc} 1 &1&1&\ldots&1\\ x_1 &x_2&x_3&\ldots&x_{n}\\ \vdots&& & &\vdots\\ x_1^{n-1} &x_2^{n-1}&x_3^{n-1}&\ldots&x_n^{n-1} \end{array}\right) \cdot \left(\begin{array}{ccccc} 1 &x_1&x_1^2&\ldots&x_1^{n-1}\\ 1 &x_2&x_2^2&\ldots&x_2^{n-1}\\ \ldots&& & &\ldots\\ 1 &x_n&x_n^2&\ldots&x_n^{n-1} \end{array}\right) \, . $$ По ((:algebra:dets:binet_cauchy теореме Бине-Коши)) вычисление определителя сводится к вычислению ((:algebra2:vander#opredelitel определителя Вандермонда)): $$ \det S =\prod_{1\le jn $: $$S=\left(\begin{array}{ccccc} 1 &1&1&\ldots&1\\ x_1 &x_2&x_3&\ldots&x_{m}\\ \vdots&& & &\vdots\\ x_1^{n-1} &x_2^{n-1}&x_3^{n-1}&\ldots&x_m^{n-1} \end{array}\right) \cdot \left(\begin{array}{ccccc} 1 &x_1&x_1^2&\ldots&x_1^{n-1}\\ 1 &x_2&x_2^2&\ldots&x_2^{n-1}\\ \ldots&& & &\ldots\\ 1 &x_m&x_m^2&\ldots&x_m^{n-1} \end{array}\right)$$ $$\det S = \sum_{1\le j_1< j_2 <\dots < j_n \le m} \left|\begin{array}{cccc} 1 &1&\ldots&1\\ x_{j_1} &x_{j_2}&\ldots&x_{j_n}\\ \vdots&& &\vdots\\ x_{j_1}^{n-1} &x_{j_2}^{n-1}&\ldots&x_{j_n}^{n-1} \end{array}\right| \cdot \left|\begin{array}{cccc} 1 &x_{j_1}&\ldots&x_{j_1}^{n-1}\\ 1 &x_{j_2}&\ldots&x_{j_2}^{n-1}\\ \ldots&& &\ldots\\ 1 &x_{j_n}&\ldots&x_{j_n}^{n-1} \end{array}\right|=$$ $$=\sum_{1\le j_1< j_2 <\dots < j_n \le m} \ \prod_{1\le L < K \le n} (x_{j_K}-x_{j_L})^2 \ .$$ Каждое слагаемое неотрицательно и отлично от нуля поскольку, по предположению, все $ \{x_j\}_{j=1}^m $ различны. Поэтому $ \det S >0 $. По ((:algebra2:linearsystems:cramert теореме Крамера)) система нормальных уравнений имеет единственное решение. Осталось недоказанным утверждение, что полученное решение доставляет именно //минимум// сумме квадратов невязок. Этот факт следует из доказательства более общего утверждения --- о псевдорешении системы линейных уравнений. Этот результат приводится ☟ ((#псевдорешение_системы_линейных_уравнений НИЖЕ)). ♦ Собственно минимальное значение величины cуммы квадратов невязок, а точнее усреднение по количеству узлов $$ \sigma=\frac{1}{m}\sum_{j=1}^m (f(x_j) -y_j)^2 $$ называется **среднеквадратичным отклонением**. {{ interpol7.gif|}} !!?!! Показать, что линейный полином $ y=a_{0}+a_1x $, построенный по методу наименьших квадратов, определяет на плоскости $ (x_{},y) $ прямую, проходящую через центроид $$ (\overline{x},\overline{y}) = \left(\frac{x_1+x_2+ \dots+x_m}{m},\ \frac{y_1+y_2+ \dots+y_m}{m} \right) \ . $$ системы точек $ (x_{1},y_1),\dots,(x_m,y_m) $. !!П!! **Пример.** По методу наименьших квадратов построить уравнение прямой, аппроксимирующей множество точек плоскости, заданных координатами из таблицы $$ \begin{array}{c|cccccc} x & 0.5 & 1 & 1.5 & 2 & 2.5 & 3 \\ \hline y & 0.35 & 0.80 & 1.70 & 1.85 & 3.51 & 1.02 \end{array} $$ **Решение.** Имеем $$ s_0=6, s_1=0.5 + 1 + 1.5 + 2 + 2.5 + 3=10.5, $$ $$ s_2=0.5^2 + 1^2 + 1.5^2 + 2^2 + 2.5^2 + 3^2=22.75, $$ $$t_0=0.35 + 0.80 + 1.70 + 1.85 + 3.51 + 1.02=9.23, $$ $$ t_1 =0.5\cdot 0.35 + 1 \cdot 0.80 + 1.5 \cdot 1.70 + 2 \cdot 1.85 + $$ $$ +2.5 \cdot 3.51 + 3 \cdot 1.02=19.06 . $$ Решаем систему нормальных уравнений $$ \left( \begin{array}{cc} 6 & 10.5 \\ 10.5 & 22.75 \end{array} \right) \left( \begin{array}{c} a_0 \\ a_1 \end{array} \right)= \left( \begin{array}{c} 9.23 \\ 19.06 \end{array} \right), $$ {{ interpolation:interpol77.jpg |}} получаем уравнение прямой в виде $$ y= 0.375 + 0.665\, x\ .$$ Вычислим и полиномы более высоких степеней. $$ f_2(x)=-1.568+3.579\, x-0.833\,x^2 \ , $$ $$ f_3(x)=2.217-5.942\,x+5.475\,x^2-1.201\, x^3 \ , $$ $$ f_4(x)= -4.473+17.101\,x-19.320\,x^2+9.205\, x^3-1.487\,x^4 \ , $$ $$ f_5(x)= 16.390-71.235\,x+111.233\,x^2-77.620\,x^3+25.067\,x^4-3.0347\, x^5 . $$ Среднеквадратичные отклонения: $$ \begin{array}{c|ccccc} \deg & 1 & 2 & 3 & 4 & 5 \\ \hline \sigma & 0.717 & 0.448 & 0.204 &0.086 & 0 \end{array} $$ ♦ Возникает естественный вопрос: полином какой степени следует разыскивать в МНК? При увеличении степени точность приближения, очевидно, увеличивается. Вместе с тем, увеличивается сложность решения системы нормальных уравнений и даже при небольших степенях $ n $ (меньших $ 10 $) мы столкнемся с проблемой чувствительности решения к точности представления входных данных. ===Влияние систематических ошибок== !!П!! **Пример.** Уравнение прямой, аппроксимирующей множество точек плоскости, заданных координатами из таблицы $$ \begin{array}{c|cccccc} x & 0.5 & 1 & 1.5 & 2 & 2.5 & 3 \\ \hline y & 0.35 & 0.80 & 1.70 & 1.85 & 2.51 & 2.02 \end{array} $$ имеет вид (охра) $$ y=0.175+0.779\, x \, . $$ {{ :interpolation:lsm_errors.png?400 |}} Теперь заменим значение $ y_5 $ на $ 0.2 $. Уравнение прямой принимает вид: $$ y=0.483+0.383\, x \, . $$ График (зеленый) существенно изменился. Почему это произошло? --- Дело в том, что эффективность метода наименьших квадратов зависит от нескольких предположений относительно входных данных: в нашем случае --- значений $ y $. Предполагается, что эти величины являлись результатами экспериментов, измерений, и, если они подвержены погрешностям, то эти погрешности носят характер несистематических флуктуаций вокруг истинных значений. Иными словами, изначально предполагается, что в действительности точки плоскости должны лежать на некоторой прямой. И только несовершенство наших методов измерений (наблюдений) демонстрирует смещение их с этой прямой. Ответ для исходной таблицы визуально подтвержает это предположение: экспериментальные точки концентрируются вокруг полученной прямой и величины невязок (отклонений по $ y $-координате) имеют "паритет" по знакам: примерно половина точек лежит выше прямой, а половина --- ниже. После замены значения $ y_5 $ на новое, значительно отличающееся от исходного, существенно меняется величина $ 5 $-й невязки $ \varepsilon_5= ax_5+b-y_5 $. А поскольку в минимизируемую функцию эта невязка входи еще и в квадрате, то понятно, что изначальная прямая просто не в состоянии правильно приблизить новую точку. Эта проблема становится актуальной в тех случаях, когда в "истинно случайный" процесс привносятся намеренные коррективы. Данные начинают подвергаться существенным искажениям, возможно, даже имеющим "злой" умысел[[Впрочем, возможно также, что какое-то конкретное экспериментальное значение оказалось результатом непреднамеренного, одноразового повреждения измерительной техники: "прибор уронили на пол".]]. Как бороться с ошибками такого типа? Понятно, что решение возможно в предположении, что число таких --- систематических --- ошибок должно быть существенно меньшим общего количества экспериментальных данных. Понятно, что каким-то образом эти "выбросы" надо будет исключить из рассмотрения, т.е. очистить "сырые" данные от "мусора" --- прежде чем подсовывать их в метод наименьших квадратов (см. ☞ ((references/newton#geksli_huxley_thomas_h цитату))). Как это сделать? --- Ответ на этот вопрос постепенно излагается ☞ ((:interpolation/systemerr ЗДЕСЬ)). ==Псевдорешение системы линейных уравнений== Рассмотрим теперь обобщение задачи предыдущего пункта. В практических задачах часто бывает нужно найти решение, удовлетворяющее большому числу возможно противоречивых требований. Если такая задача сводится к системе линейных уравнений $$ \left\{\begin{array}{ccc} a_{11}x_1 +a_{12}x_2+\ldots+a_{1n}x_n &=&b_1\\ a_{21}x_1 +a_{22}x_2+\ldots+a_{2n}x_n &=&b_2\\ \ldots& & \ldots \\ a_{m1}x_1 +a_{m2}x_2+\ldots+a_{mn}x_n &=&b_m \end{array}\right. \iff AX={\mathcal B} $$ при числе уравнений $ m_{} $ большем числа неизвестных $ n_{} $, то такая //переопределенная// система, как правило, несовместна. В этом случае задача может быть решена только путем выбора некоторого компромисса --- все требования могут быть удовлетворены не полностью, а лишь до некоторой степени. **Псевдорешением** системы $ AX={\mathcal B} $ называется столбец $ X\in \mathbb R^n $, обеспечивающий минимум величины $$ \sum_{i=1}^m [a_{i1}x_1 +a_{i2}x_2+\ldots+a_{in}x_n-b_i]^2=(AX-\mathcal B)^{\top} (AX-\mathcal B)\ . $$ Такому определению можно также соотнести вероятностную интерпретацию. Пусть для определения неизвестных величин $ x_{1},\dots,x_n $ проводятся $ m $ экспериментов, описываемых линейными уравнениями: $$ a_{i1}x_1 +a_{i2}x_2+\ldots+a_{in}x_n =b_i \quad npu \quad i\in \{1,\dots,m\} \ . $$ При этом величины $ \{ a_{ij} \}, i \in \{1,\dots, m\}, j\in \{1,\dots, n\} $ --- известные постоянные, не подверженные сопутствующим экспериментам (наблюдениям) погрешностям, а вот величины $ \{b_{i}\}_{i=1}^m $ этим погрешностям подвержены. Формально каждое из равенств следует рассматривать как приближенное. Понятно, что при таких обстоятельствах не имеет смысла гоняться за //точным// решением системы $ AX={\mathcal B} $ (его может и не существовать вовсе!). Искать следует //приближенное// решение, оптимальное в некотором смысле. Оказывается, что именно выбор критерия в виде минимума квадратов разностей левых и правых частей уравнения обеспечивает то, что псевдорешение дает __максимально правдоподобные__ значения неизвестных величин $ x_1,\dots,x_{n} $. !!T!! **Теорема.** //Существует псевдорешение системы// $$ AX={\mathcal B} $$ //и оно является решением системы// $$ \left[A^{\top}A \right]X=A^{\top} {\mathcal B} \ . $$ //Это решение будет единственным тогда и только тогда, когда// $ \operatorname{rank} A =n $. Система $ \left[A^{\top}A \right]X=A^{\top} {\mathcal B} $ называется **нормальной системой** по отношению к системе $ AX={\mathcal B} $. Формально она получается домножением системы $ AX={\mathcal B} $ слева на матрицу $ A^{\top} $. Заметим также, что если $ m=n_{} $ и $ \det A \ne 0 $, то псевдорешение системы совпадает с ((:algebra2:linearsystems#системы_линейных_уравнений решением в традиционном смысле)). **Доказательство** ☞ ((:interpolation:mnk:vspom1 ЗДЕСЬ)). Метод наименьших квадратов, рассмотренный в предыдущем пункте, является частным случаем задачи о псевдорешении системы линейных уравнений; в нём матрица $ A $ совпадает с матрицей Вандермонда. Если нормальная система имеет бесконечное количество решений, то обычно в качестве псевдорешения берут какое-то одно из них --- как правило то, у которого минимальна сумма квадратов компонент ("длина"). !!П!! **Пример.** Найти псевдорешение системы $$x_1+x_2 = 2, \ x_1-x_2 = 0,\ 2\, x_1+x_2 = 2 \ .$$ **Решение.** Имеем: $$A=\left( \begin{array}{rr} 1 & 1 \\ 1 & -1 \\ 2 & 1 \end{array} \right),\ \operatorname{rank} A =2,\ {\mathcal B} = \left( \begin{array}{r} 2 \\ 0 \\ 2 \end{array} \right), \ A^{\top}A= \left( \begin{array}{rr} 6 & 2 \\ 2 & 3 \end{array} \right), \ A^{\top} {\mathcal B} = \left( \begin{array}{r} 6 \\ 4 \end{array} \right). $$ **Ответ.** $ x_1=5/7, x_2 = 6/7 $. !!?!! Показать, что матрица $ A^{\top}A $ всегда симметрична. !!?!! На дубовой колоде лежит мелкая монетка. К колоде {{ algebra2:koloda.gif |}} по очереди подходят четыре рыцаря и каждый наносит удар мечом, стараясь попасть по монетке. Все промахиваются. Расстроенные, рыцари уходят в харчевню пропивать злосчастную монетку. Укажите максимально правдоподобное ее расположение, имея перед глазами зарубки: $$ \begin{array}{rrcr} 3\, x &- 2\, y&=& 6,\\ x &-3\,y&=&-3,\\ 11\,x& + 14\,y&=& 154, \\ 4\,x&+y&=&48. \end{array} $$ ===Геометрическая интерпретация== ==Псевдообратная матрица== Эта матрица определяется не только для квадратной матрицы. Пусть сначала матрица $ A_{} $ порядка $ m\times n_{} $ --- __вещественная__ и $ m \ge n_{} $ (число строк не меньше числа столбцов). Если $ \operatorname{rank} (A) = n $ (столбцы матрицы линейно независимы), то **псевдообратная к матрице** $ A_{} $ определяется как матрица $$ A^{+}=(A^{\top}A)^{-1} A^{\top} \ . $$ Эта матрица имеет порядок $ n \times m_{} $. Матрица $ (A^{\top}A)^{-1} $ существует ввиду того факта, что при условии $ \operatorname{rank} (A) = n $ будет выполнено $ \det (A^{\top} A) > 0 $ (см. упражнение в пункте ☞ ((:algebra2:dets#теорема_бине_-_коши ТЕОРЕМА БИНЕ-КОШИ)) или же пункт ☞ ((:dets:gram#свойства_определителя_грама СВОЙСТВА ОПРЕДЕЛИТЕЛЯ ГРАМА)) ). Очевидно, что $ A^{+} \cdot A = E_{n} $, т.е. псевдообратная матрица является ((#обратная_матрица левой обратной)) для матрицы $ A_{} $. В случае $ m=n_{} $ псевдообратная матрица совпадает с обратной матрицей: $ A^{+}=A^{-1} $. !!П!! **Пример.** Найти псевдообратную матрицу к матрице $$ A= \left( \begin{array}{cc} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{array} \right) \ . $$ **Решение.** $$ A^{\top}= \left( \begin{array}{ccc} 1 & 0 & 1 \\ 0 & 1 & 1 \end{array} \right) \ \Rightarrow \ A^{\top} \cdot A = \left( \begin{array}{cc} 2 & 1 \\ 1 & 2 \end{array} \right) \ \Rightarrow $$ $$ \Rightarrow \ (A^{\top} \cdot A)^{-1} = \left( \begin{array}{cc} 2/3 & -1/3 \\ -1/3 & 2/3 \end{array} \right) \ \Rightarrow $$ $$ \Rightarrow \quad A^{+} = (A^{\top} \cdot A)^{-1} A^{\top} = \left( \begin{array}{rrr} 2/3 & -1/3 & 1/3 \\ -1/3 & 2/3 & 1/3 \end{array} \right) \ . $$ При этом $$ A^{+} \cdot A = \left( \begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array} \right),\quad A \cdot A^{+} = \left( \begin{array}{rrr} 2/3 & -1/3 & 1/3 \\ -1/3 & 2/3 & 1/3 \\ 1/3 & 1/3 & 2/3 \end{array} \right) \ , $$ т.е. матрица $ A^{+} $ не будет ((#обратная_матрица правой обратной)) для матрицы $ A_{} $. ♦ !!?!! Вычислить псевдообратную матрицу для $$ \mathbf{a)}\ \left( \begin{array}{cc} 1 & 0 \\ 1 & 1 \\ 1 & 1 \end{array} \right) \quad ; \quad \mathbf{b)}\ \left( \begin{array}{c} x_1 \\ x_2 \\ x_3 \end{array} \right) \ . $$ Концепция псевдообратной матрицы естественным образом возникает из понятия ((:interpolation:mnk#псевдорешение_системы_линейных_уравнений псевдорешения системы линейных уравнений)). Если $ A^{+} $ существует, то псевдорешение (как правило, переопределенной и несовместной!) системы уравнений $ AX=\mathcal B_{} $ находится по формуле $ X= A^{+} \mathcal B $ при любом столбце $ \mathcal B_{} $. Верно и обратное: если $ E_{[1]}, E_{[2]},\dots, E_{[m]} $ -- столбцы единичной матрицы $ E_m $: $$ E_{[1]}=\left( \begin{array}{c} 1 \\ 0 \\ 0 \\ \vdots \\ 0 \end{array} \right),\ E_{[2]}=\left( \begin{array}{c} 0 \\ 1 \\ 0 \\ \vdots \\ 0 \end{array} \right),\dots, E_{[m]}=\left( \begin{array}{c} 0 \\ 0 \\ 0 \\ \vdots \\ 1 \end{array} \right),\ $$ а псевдорешение системы уравнений $ AX=E_{[j]} $ обозначить $ X_{j} $ (оно существует и единственно при условии $ \operatorname{rank} (A) = n $), то $$ A^{+}=\left[X_1,X_2,\dots,X_m \right] \ . $$ !!Т!! **Теорема.** //Пусть// $ A_{} $ //вещественная матрица порядка// $ m\times n_{} $, $ m \ge n_{} $ //и// $ \operatorname{rank} (A) = n $. //Тогда псевдообратная матрица// $ A^{+} $ //является решением задачи минимизации// $$ \min_{X\in \mathbb R^{n\times m}} \|AX-E_m\|^2 $$ //где минимум разыскивается по всем вещественным матрицам// $ X_{} $ //порядка// $ n\times m_{} $, //а// $ || \cdot || $ //означает ((:norm_space#норма_матрицы евклидову норму матрицы)) (норму Фробениуса)// : $$ \|[h_{jk}]_{j,k}\|^2=\sum_{j,k} h_{jk}^2 \ . $$ //При сделанных предположениях решение задачи единственно. // Образно говоря, если уж невозможно найти обратную матрицу для матрицы $ A_{m\times n}^{} $, давайте найдем хотя бы такую матрицу $ X_{n\times m} $, чтобы отклонение произведения $ A\cdot X $ от единичной матрицы $ E_m $, вычисленное как квадрат евклидова расстояния между матрицами $ A\cdot X $ и $ E_m $, было бы минимальным. С учетом этого результата понятно как распространить понятие псевдообратной матрицы на случай вещественной матрицы $ A_{m\times n}^{} $, у которой число строк ''меньше'' числа столбцов: $ m < n_{} $. Будем искать эту матрицу как решение задачи минимизации $$ \min_{Y\in \mathbb R^{n\times m}} \|YA-E_n\|^2 $$ где минимум разыскивается по всем вещественным матрицам $ Y_{} $ порядка $ n\times m_{} $. Пусть $ \operatorname{rank} (A) = m $, т.е. строки матрицы линейно независимы. Тогда **псевдообратная к матрице** $ A_{} $ определяется как матрица $$ A^{+}= A^{\top} (A\cdot A^{\top})^{-1} \ . $$ Очевидно, что в этом случае $ A\cdot A^{+}=E_m $. ==Задачи== ☞ ((:interpolation:mnk:problems ЗДЕСЬ)) ==Источники== [1]. **Беклемишев Д.В.** //Дополнительные главы линейной алгебры.// М.Наука.1983, с.187-234