Метод на най-малките квадрати

Методът на най-малките квадрати (МНМК) в числения анализ е един от най-разпространените методи за решаване на системи уравнения с повече неизвестни от броя на уравненията. Полученото решение е апроксимация, при която се минимизира сумата от квадратите на грешката, получена за всяко едно уравнение.

Най-разпространеното приложение на метода е в областта на моделирането и по-точно в експерименталния подход (идентификация на системи). От гледна точка на идентификацията търсеният модел зависи от набора входно-изходни наблюдения на поведението на изследваната система (наличните данни), а неизвестните величини са параметрите на модела. Всяко уравнение от системата е описание на връзката на конкретен изход от множеството фактори, участващи в модела. Когато моделът описва статично поведение (изходът не зависи от времето), тогава факторите са входните величини, но когато се моделира динамика, изходът може да зависи както от своята предистория, така и от тази на входните величини. Тогава факторите са изместени във времето входно-изходни наблюдения.

При експерименталното моделиране МНМК се използва за оценка на параметрите на модела, като целта е поведението му да се доближи максимално до това на описвания обект. Това е оптимизационна задача като целевата функция е сума от квадратите на остатъчната грешка – разликата между наблюдавания изход и този на модела.

В зависимост от това дали изходът на модела е линейна функция на параметрите се разграничават:

линейни или стандартни МНМК;
нелинейни МНМК.

Често в литературата ^[1]^[2]^[3]^[4]под МНМК се разбира линейният вариант на метода, а когато моделът е нелинеен по параметри в явен вид се записва, че става дума за нелинейните МНМК (например в ^[5]^[2]). Когато изходът е линейна функция на параметрите, те може да се изразят само чрез данните и така оценките на параметрите по МНМК да се определят еднократно. От друга страна, когато моделът е нелинеен по параметри, оценките се определят с итеративни методи, като на всяка стъпка оценките се актуализират и така, при определени условия, се приближават към търсените оптимални стойности. Един вариант е на всяка итерация да се приложи МНМК. Това е т.нар. линеен подход за оценяване, при който, въпреки че моделът е нелинеен, той изкуствено се приема за линеен по параметри. Примери за такива методи са методът на разширените НМК, разширеният матричен МНМК и др.^[3]. Другият вариант е нелинейният модел да се разглежда именно като нелинеен и да се използват методи за числена оптимизация, които също се реализират като итеративни процедури. Често използван метод за числена оптимизация при решаването на задачата на нелинейните НМК, е Гаус-Нютон^[5], при който, за разлика от оригиналния метод на Нютон, вместо Хесиана се използва нейна апроксимация.

Когато разпределението на изхода е Гаусово, оценките по МНМК съвпадат с тези по метода на максималното правдоподобие (МП). С други думи, при такова разпределение на изхода на обекта, максимизирането на функцията на правдоподобие е равносилно на минимизиране на сумата от квадратите на остатъка.^[6]

МНМК е създаден от Карл Гаус (1795),^[7] но за пръв път е публикуван от Адриен Мари Лежандър.

По-долу е представена постановката на задачата на МНМК за оценяване параметрите на линеен модел с един изход. Методът е изведен и са анализирани свойствата на оценките. След това е извършено обобщение на МНМК за модел с много изходи. Накрая е засегната задачата на нелинейните най-малки квадрати.

МНМК за линеен модел[редактиране | редактиране на кода]

МНМК за едноизходов модел[редактиране | редактиране на кода]

Моделът, когато е линеен по параметри и е с един изход ^[3], може да се запише в следния общ вид:

y_{k}=\varphi _{k}^{T}\theta +e_{k},

където $y_{k}$ е скаларният изход (зависимата променлива), $e_{k}$ е остатъкът, $\varphi _{k}\in {\mathcal {R}}^{z}$ е векторът на регресорите (факторите), $\theta \in {\mathcal {R}}^{p}$ е векторът на параметрите. При едноизходови модели броят на регресорите $z$ е равен на броя на параметрите $p$ (но при многоизходовите модели $z\neq p$ ).

Целева функция[редактиране | редактиране на кода]

При МНМК се минимизира сумата от квадратите на остатъците. Когато зависимата променлива е една, целевата функция е

{\mathcal {F}}(\theta )=\sum _{k=n+1}^{N}e_{k}^{2}.

Нека се въведат векторите $y,e\in {\mathcal {R}}^{N-n}$ и матрицата $\Phi \in {\mathcal {R}}^{N-n\times z}$ , които са

{\begin{array}{rcl}y&=&[y_{n+1}~~y_{n+2}~~...~~y_{N}]^{T}\\e&=&[e_{n+1}~~e_{n+2}~~...~~e_{N}]^{T}\\\Phi &=&[\varphi _{n+1}~~\varphi _{n+2}~~...~~\varphi _{N}]^{T}.\end{array}}

За динамични модели $n$ е броят предишни тактове, необходими за формиране на вектора на регресорите в даден момент, а за статични модели $n=0$ (т. е. не се отчита предисторията в поведението на обекта). Тогава може да се използват по-удобните за извежданията записи за модела:

y=\Phi \theta +e,

и за целевата функция:

{\mathcal {F}}(\theta )=e^{T}e.

В литературата ^[8], свързана с идентификацията на системи (в случая изследваната система е обектът, подлежащ на моделиране), често се използва следният запис на целевата функция:

{\mathcal {F}}(\theta )=\Vert e\Vert _{2}^{2}=\Vert y-\Phi \theta \Vert _{2}^{2}.

При него отпада остатъкът, който е неизвестен преди оценяването на параметрите, и така ${\mathcal {F}}(\theta )$ зависи явно от търсените параметри и наличните данни, което е стъпка към определянето на оптималните оценки. В горния запис $\Vert .\Vert _{2}$ е 2-норма на вектор (квадратен корен на сумата от квадратите на елементите на вектора).

В долните разглеждания целевата функция се представя с по-краткия запис ${\mathcal {F}}(\Theta )=e^{T}e$ . Тогава критерият, заложен в МНМК, добива вида:

\min _{\theta }{\mathcal {F}}(\theta )=\min _{\theta }e^{T}e.

Оценки по МНМК[редактиране | редактиране на кода]

Определянето на вектора на параметрите $\theta$ , при който целевата функция има минимум, се извършва, като първо ${\mathcal {F}}(\theta )$ се представи във вид, удобен за диференциране, после се определи градиентът $\nabla {\mathcal {F}}(\theta )$ и накрая се изрази ${\hat {\theta }}$ , при която $\nabla {\mathcal {F}}(\theta )$ се нулира.

Диференциране на скаларна функция по векторен аргумент

Целевата функция зависи от векторен аргумент. Затова в извеждането по-долу се дават някои зависимости, свързани с диференцирането на скаларна функция по векторен аргумент.

Нека са дадени матриците $A\in {\mathcal {R}}^{n\times n}$ и $B\in {\mathcal {R}}^{m\times n}$ , както и векторите $x\in {\mathcal {R}}^{n}$ и $b\in {\mathcal {R}}^{m}$ . Тогава са в сила съотношенията:

\nabla _{x}(x^{T}B^{T}b)=\nabla _{x}(b^{T}Bx)=B^{T}b,

\nabla _{x}(x^{T}Ax)=(A+A^{T})x.

Когато $A$ е симетрична, какъвто е случаят в долните разглеждания $A=\Phi ^{T}\Phi$ , то $\nabla _{x}x^{T}Ax=2Ax$ .

Извеждане на НМК

Първо ${\mathcal {F}}(\theta )$ се представя във вид, удобен за диференциране:

{\begin{array}{rcl}{\mathcal {F}}(\theta )&=&e^{T}e\\&=&(y-\Phi \theta )^{T}(y-\Phi \theta )\\&=&y^{T}y-\theta ^{T}\Phi ^{T}y-y^{T}\Phi \theta +\theta ^{T}\Phi ^{T}\Phi \theta .\end{array}}

След диференциране на израза, за градиента на ${\mathcal {F}}(\theta )$ се получава:

g=-2\Phi ^{T}y+2\Phi ^{T}\Phi \theta .

Той се приравнява на нула и се определя ${\hat {\theta }}$ , т.е.

g\vert _{\theta ={\hat {\theta }}}=0_{p}~~\Leftrightarrow ~~-\Phi ^{T}y+\Phi ^{T}\Phi {\hat {\theta }}=0_{p}.

Така окончателно оценките по НМК ${\hat {\theta }}$ , при които сумата от квадратите на остатъка е минимална (или с други думи $g$ се нулира), се изчисляват от израза:

{\hat {\theta }}=(\Phi ^{T}\Phi )^{-1}\Phi ^{T}y.

МНМК за многоизходов модел, представен с матрица на параметрите[редактиране | редактиране на кода]

Когато моделът е линеен по параметри, а изходът е векторен (т.е. $y_{k}\in {\mathcal {R}}^{\ell }$ ), тогава описанието на обекта може да се запише в следния общ вид^[9] ^[10] ^[2]:

y_{k}=\Theta ^{T}\varphi _{k}+e_{k},

където $e_{k}\in {\mathcal {R}}^{\ell }$ е векторният остатък за $k$ -тото наблюдение, $\varphi _{k}\in {\mathcal {R}}^{z}$ е векторът на регресорите, $\Theta \in {\mathcal {R}}^{z\times \ell }$ е матрицата на параметрите. При представянето на многоизходовите модели с матрица на параметрите, броят на регресорите $z$ не е равен на броя на параметрите $p$ (виж регресионен модел).

Целева функция[редактиране | редактиране на кода]

Тук целевата функция е сумата от квадратите на остатъците по всеки изход и за всяко наблюдение, т.е.

{\mathcal {F}}(\Theta )=\sum _{k=n+1}^{N}\sum _{i=1}^{\ell }e_{i,k}^{2}.

Нека се въведат матриците $Y,E\in {\mathcal {R}}^{N-n\times \ell }$ и матрицата $\Phi \in {\mathcal {R}}^{N-n\times z}$ , които са

{\begin{array}{rcl}Y&=&[y_{n+1}~~y_{n+2}~~...~~y_{N}]^{T}\\E&=&[e_{n+1}~~e_{n+2}~~...~~e_{N}]^{T}\\\Phi &=&[\varphi _{n+1}~~\varphi _{n+2}~~...~~\varphi _{N}]^{T}.\end{array}}

Отново за динамични модели $n>0$ , а за статични $n=0$ .

Ако се използва матрицата на остатъците, то $i$ -тият диагонален елемент на $E^{T}E$ е сумата от квадратите на $i$ -тия остатък, или $[E^{T}E]_{ii}=\sum _{k=n+1}^{N}e_{i,k}^{2}$ . Така за ${\mathcal {F}}(\Theta )$ може да се използва по-удобният за извежданията запис:

{\mathcal {F}}(\Theta )=tr(E^{T}E),

където $tr(.)$ е следа на матрица (сумата от диагоналните елементи).

Оценки по МНМК[редактиране | редактиране на кода]

Определянето на матрицата на параметрите $\Theta$ , при която целевата функция има минимум, се извършва по същия начин като в предишните разглеждания: първо ${\mathcal {F}}(\Theta )$ се представя в удобен за диференциране вид, после се определя градиентната матрица $\nabla {\mathcal {F}}(\Theta )$ и накрая се изразява ${\hat {\Theta }}$ , при която $\nabla {\mathcal {F}}(\Theta )$ се нулира.

Диференциране на скаларна функция по матричен аргумент

Аналогът на първата производна на скаларната функция ${\mathcal {F}}(\Theta )$ по отношение на матричния аргумент $\Theta$ се нарича градиентна матрица (в някои източници се нарича градиент). Елементите на тази матрица са първите частни производни на целевата функция по отношение на параметрите, т.е. $ij$ -тият елемент е ${\tfrac {\partial {\mathcal {F}}}{\partial \theta _{ij}}}$ .

Градиентната матрица $G$ има вида:

\nabla {\mathcal {F}}(\Theta )=G={\begin{bmatrix}{\tfrac {\partial {\mathcal {F}}}{\partial \theta _{11}}}&{\tfrac {\partial {\mathcal {F}}}{\partial \theta _{12}}}&\ldots &{\tfrac {\partial {\mathcal {F}}}{\partial \theta _{1\ell }}}\\{\tfrac {\partial {\mathcal {F}}}{\partial \theta _{21}}}&{\tfrac {\partial {\mathcal {F}}}{\partial \theta _{22}}}&\ldots &{\tfrac {\partial {\mathcal {F}}}{\partial \theta _{2\ell }}}\\\vdots &\vdots &\ddots &\vdots \\{\tfrac {\partial {\mathcal {F}}}{\partial \theta _{z1}}}&{\tfrac {\partial {\mathcal {F}}}{\partial \theta _{z2}}}&\ldots &{\tfrac {\partial {\mathcal {F}}}{\partial \theta _{z\ell }}}\end{bmatrix}}.

По-долу е описан начинът, по който се определя оптималната матрица ${\hat {\Theta }}$ като функция на наличните входно-изходни данни.

Извеждане на НМК

Представянето на ${\mathcal {F}}(\Theta )$ във вид, удобен за диференциране по отношение на $\Theta$ , се получава по следния начин:

{\begin{array}{rcl}{\mathcal {F}}(\Theta )&=&tr(E^{T}E)\\&=&tr((Y-\Phi \Theta )^{T}(Y-\Phi \Theta ))\\&=&tr(Y^{T}Y)-tr(\Theta ^{T}\Phi ^{T}Y)-tr(Y^{T}\Phi \Theta )+tr(\Theta ^{T}\Phi ^{T}\Phi \Theta ).\end{array}}

След диференциране на ${\mathcal {F}}(\Theta )$ , градиентната матрица $G$ добива вида:

G=-2\Phi ^{T}Y+2\Phi ^{T}\Phi \Theta .

За определяне на оптималните параметри изразът за $G$ се приравнява на нула, т.е.

G\vert _{\Theta ={\hat {\Theta }}}=0_{z\times \ell }~~\Leftrightarrow ~~-\Phi ^{T}Y+\Phi ^{T}\Phi {\hat {\Theta }}=0_{z\times \ell }.

Матрицата ${\hat {\Theta }}$ , за която $G$ се нулира, е

{\hat {\Theta }}=(\Phi ^{T}\Phi )^{-1}\Phi ^{T}Y.

Тя съдържа оценките на параметрите, определени по НМК.

МНМК за многоизходов модел, представен с вектор на параметрите[редактиране | редактиране на кода]

При тази постановка на задачата, моделът е

y_{k}=\Phi _{k}^{T}\theta +e_{k},

където векторният изход и остатъкът за текущото наблюдиние са $y_{k},e_{k}\in {\mathcal {R}}^{\ell }$ , матрицата на регресорите е $\Phi _{k}\in {\mathcal {R}}^{\ell \times p}$ , а векторът на параметрите е $\theta \in {\mathcal {R}}^{p}$ . При това представяне параметрите са подредени във вектор и поради тази причина извеждането ^[2] не се отличава от това за едноизходови модели, дадено по-горе. Оптималните оценки по НМК отново се изчисляват от израза:

{\hat {\theta }}=(\Phi ^{T}\Phi )^{-1}\Phi ^{T}y.

Тук е важно да се отчете структурата на матрицата $\Phi \in {\mathcal {R}}^{(N-n)\ell \times p}$ и вектора $y\in {\mathcal {R}}^{\ell (N-n)}$ , а именно:

{\begin{array}{rcl}y&=&[y_{n+1}^{T}~~y_{n+2}^{T}~~...~~y_{N}^{T}]^{T}\\\Phi &=&[\Phi _{n+1}~~\Phi _{n+2}~~...~~\Phi _{N}]^{T}.\end{array}}

Графична интерпретация[редактиране | редактиране на кода]

За да може графично да се изобразят важните за МНМК пространства, нека моделът да е с един вход и един изход и да е представен като:

{\hat {y}}=\Phi {\hat {\theta }}=\Phi (\Phi ^{T}\Phi )^{-1}\Phi ^{T}y=My.

Нека също остатъкът да се развие по следния начин:

e=y-{\hat {y}}=(I-M)y=\Phi ^{\bot }y.

В двете представяния са въведени матриците $M$ и $\Phi ^{\bot }$ . Матрицата $M=\Phi (\Phi ^{T}\Phi )^{-1}\Phi ^{T}$ има свойството да проектира $N-n$ мерното пространство във факторното пространство, което е дефинирано от стълбовете на $\Phi$ . Наистина лесно се проверява, че $M\Phi =\Phi$ , т.е., както се очаква при тази проекция, стълбовете на $\Phi$ се проектират в себе си. Матрицата $M$ проектира $y$ в споменатото пространство като от представянето на модела ${\hat {y}}=My$ се вижда, че получената проекция е именно ${\hat {y}}$ .

На фигурата е представен случай, при който стълбовете на $\Phi$ са с размерност $N-n=3$ , а броят им (броят на факторите) е $z=2$ , т.е. $\Phi \in {\mathcal {R}}^{3\times 2}$ . Двата стълба $\Phi _{.1}$ и $\Phi _{.2}$ на матрицата на данните образуват база в ${\mathcal {R}}^{2}$ (това е равнината, в която те лежат – факторното пространство $\phi$ ). Тъй като ${\hat {y}}$ е проекция на $y$ в $\phi$ , то ${\hat {y}}$ лежи в тази равнина. Колкото по-информативна е комбинацията от факторите, толкова равнината ще е по-близка до $y$ . В граничния случай, когато факторите съдържат цялата информация за описание на изхода (това означава, че няма остатъчна неопределеност), $y$ ще лежи във факторната равнина. На фигурата $y\in {\mathcal {R}}^{3}$ е вектор, който не лежи в тази равнина, което показва, че той не може изцяло да бъде описан с двата фактора.

Втората матрица $\Phi ^{\bot }=I-\Phi (\Phi ^{T}\Phi )^{-1}\Phi ^{T}$ има свойството да проектира $(N-n)$ - мерното пространство в ортогонално пространство на факторното. (Наистина лесно се проверява, че $\Phi ^{\bot }\Phi =0$ , т.е. $\Phi ^{\bot }$ проектира стълбовете на $\Phi$ в ортогонално за тях пространство и затова тяхната проекция е 0.) От израза $e=\Phi ^{\bot }y$ се вижда, че $\Phi ^{\bot }$ проектира $y$ в това ортогонално пространство, а получената проекция е остатъкът $e$ . Матрицата $\Phi ^{\bot }$ се използва в събспейс методите ^[8]^[11]^[12]^[13] за оценяване на параметрите на динамични модели, описани в пространство на състоянието. На фигурата ортогоналното допълнение на факторното (двумерно) пространство е правата $\phi ^{\bot }$ (едномерно пространство). Векторът $e$ лежи именно на тази права. В такъв случай, колкото по-голямо е нивото на неопределеността в $y$ , толкова посоката на този вектор е по-близка до правата $\phi ^{\bot }$ . В граничния случай, когато $y$ съдържа само неопределеност, а това означава, че факторите са напълно неинформативни, векторът $y$ ще лежи на правата $\phi ^{\bot }$ .

Източници[редактиране | редактиране на кода]

↑ Elden, L., (2005) Numerical linear algebra and applications in data mining. Preliminary version. Lecture Notes, Department of Mathematics, Linkoping University, Sweden.
↑ ^а ^б ^в ^г Ефремов, А., (2013) Идентификация на многомерни системи, DAR-RH, ISBN 978-954-9489-34-7
↑ ^а ^б ^в Гарипов, Е., (2004) Идентификация системи Част II. Идентификация чрез дискретни стохастични регресионни модели. ТУ – София, ISBN 954-438-392-1
↑ Матеев, П., (2012) Линеен регресионен модел. Метод на най-малките квадрати. Теорема на Гаус-Марков, София, архив на оригинала от 24 септември 2015, https://web.archive.org/web/20150924071527/http://www.fmi.uni-sofia.bg/lecturers/vois/pmat/Regression.pdf, посетен на 4 септември 2014
↑ ^а ^б Eriksson, J. and P.-A.Wedin, (2004) Truncated Gauss-Newton algorithms for ill-conditioned nonlinear least squares problems. In: Optimization Methods and Software, volume 19, 6, pp. 721 – 737
↑ Charnes, A et al. The Equivalence of Generalized Least Squares and Maximum Likelihood Estimates in the Exponential Family // Journal of the American Statistical Association. Taylor and Francis Online, April 2012. DOI:10.1080/01621459.1976.10481508. p. 169 – 171. Посетен на 1 септември 2020. (на английски)
↑ Bretscher, Otto. Linear Algebra With Applications, 3rd ed. Upper Saddle River NJ, Prentice Hall, 1995.
↑ ^а ^б Verhaegen, M. and V. Verdult, (2007) Filtering and System Identification. A least Squares Approach. Cambridge University Press, The Edinburgh Building, Cambridge CB2 8RU, UK.
↑ Вучков, И., (1996) Идентификация. ИК Юрапел, София
↑ Dayal, B. S. and J. F. MacGregor, (1997) Multi-output process identification. In: Journal of Process Control, volume 7, № 4, pp. 269 – 282
↑ Verdult, V., (2002) Non-linear System Identification – A State Space Approach. Ph.D. thesis, The Netherlands, 2002
↑ Moor, B. D. and P. V. Overschee, (1995) Trends in Control: a European Perspective. Springer-Verlag London Limited
↑ Jorgensen, S. B. and J. H. Lee, (2002) Recent advances and challenges in process identification. – In: AIChE Symposium Series, ISU 326, pp. 55 – 74. Budapest, Hungary.

[Elden-1] Elden, L., (2005) Numerical linear algebra and applications in data mining. Preliminary version. Lecture Notes, Department of Mathematics, Linkoping University, Sweden.

[Efremov-2] а ^б ^в ^г Ефремов, А., (2013) Идентификация на многомерни системи, DAR-RH, ISBN 978-954-9489-34-7

[Garipov_II-3] а ^б ^в Гарипов, Е., (2004) Идентификация системи Част II. Идентификация чрез дискретни стохастични регресионни модели. ТУ – София, ISBN 954-438-392-1

[Mateev-4] Матеев, П., (2012) Линеен регресионен модел. Метод на най-малките квадрати. Теорема на Гаус-Марков, София, архив на оригинала от 24 септември 2015, https://web.archive.org/web/20150924071527/http://www.fmi.uni-sofia.bg/lecturers/vois/pmat/Regression.pdf, посетен на 4 септември 2014

[Eriksson-5] а ^б Eriksson, J. and P.-A.Wedin, (2004) Truncated Gauss-Newton algorithms for ill-conditioned nonlinear least squares problems. In: Optimization Methods and Software, volume 19, 6, pp. 721 – 737

[6] Charnes, A et al. The Equivalence of Generalized Least Squares and Maximum Likelihood Estimates in the Exponential Family // Journal of the American Statistical Association. Taylor and Francis Online, April 2012. DOI:10.1080/01621459.1976.10481508. p. 169 – 171. Посетен на 1 септември 2020. (на английски)

[brertscher-7] Bretscher, Otto. Linear Algebra With Applications, 3rd ed. Upper Saddle River NJ, Prentice Hall, 1995.

[Verhaegen-8] а ^б Verhaegen, M. and V. Verdult, (2007) Filtering and System Identification. A least Squares Approach. Cambridge University Press, The Edinburgh Building, Cambridge CB2 8RU, UK.

[Vuchkov-9] Вучков, И., (1996) Идентификация. ИК Юрапел, София

[Dayal-10] Dayal, B. S. and J. F. MacGregor, (1997) Multi-output process identification. In: Journal of Process Control, volume 7, № 4, pp. 269 – 282

[Verdult-11] Verdult, V., (2002) Non-linear System Identification – A State Space Approach. Ph.D. thesis, The Netherlands, 2002

[Moor-12] Moor, B. D. and P. V. Overschee, (1995) Trends in Control: a European Perspective. Springer-Verlag London Limited

[Jorgensen-13] Jorgensen, S. B. and J. H. Lee, (2002) Recent advances and challenges in process identification. – In: AIChE Symposium Series, ISU 326, pp. 55 – 74. Budapest, Hungary.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]