Регресионен модел

Регресионен модел е понятие от регресионния анализ.

Терминът „регресия“ е въведен от английския антрополог Франсис Галтон. С него той нарича тенденцията родителите с по-висок ръст от нормалния да имат деца с по-близък ръст до средния. Този факт Галтон нарекъл „regression to mediocrity“. От съвременна гледна точка това название е неподходящо ^[1], имайки предвид сегашния смисъл на регресионния модел, а именно – описание на връзката между множество от входни и друго множество от изходни величини ^[2], ^[3]. Понякога входовете се наричат въздействия, независими или описателни променливи/характеристики, атрибути, а ако моделът е статичен, също се наричат фактори, регресори, предиктори и др. Изходите се наричат още: реакции, зависими или описвани променливи/характеристики, признаци и др. Въпреки че някои названия са взаимозаменяеми, важно е да се прави разлика между тях. Например фактори, регресори и предиктори в динамичен регресионен модел обикновено са изместени във времето входно-изходни величини ^[4] (или техни функции). Затова е желателно, когато се набляга на зависимостта на изхода от множество променливи, те да се наричат фактори, регресори или предиктори. Но когато става дума за външни сигнали, влияещи на описваната система и отчетени от модела, те да се наричат входни въздействия или независими променливи.

В някои източници се прави разлика между фактор и регресор ^[5], като под регресор се има предвид променлива, която участва в модела, а фактор е реална, физическа величина. В този смисъл, ако даден фактор се трансформира, например с цел получаване на линеен по параметри модел, то трансформираната величина е регресор, а първоначалната – фактор. Естествено, ако даден фактор участва директно в модела, той е и регресор. По-долу не се прави разлика между двете понятия, защото в изложението се акцентира на типа на модела, а не на пътя, по който е получен. Още повече че често в литературата векторът на регресорите се означава с буквата $\varphi$ (от фактори) ^[6].

Общ вид на регресионен модел[редактиране | редактиране на кода]

По-долу индексът на текущото наблюдение е означен с $k$ . Ако данните са функция на времето, то наблюдението в предишния дискретен момент е с индекс $k-1$ . Когато се търси статичен модел (който не отразява динамика в поведението на обекта), подредбата на данните във времето не е определяща. Например в набор, съдържащ еднократни (не периодично отчитани) данни за пациенти, наблюденията може да са подредени не по времето на провеждане на медицинските изследвания, а по азбучен ред според имената на пациентите. В този случай индексът $k$ отговаря на текущ пациент според въведената подредба, а не на момент от времето.

В общ вид регресионният модел може да се запише като

{\hat {y}}_{k}=f(\varphi _{k},\theta ),

където ${\hat {y}}_{k}$ е изходът на модела, $\theta$ и $\varphi _{k}$ са съответно вектор на параметрите и вектор на регресорите, с помощта на които се описва реакцията на обекта $y_{k}$ в текущия момент (или отговарящ на $k$ -тото наблюдение, при статична система). За разлика от случая, когато входът и изходът са скаларни величини, където броят на факторите и параметрите е еднакъв, при многомерните системи (с повече входове и/или изходи) обикновено броят им е различен. Ако случаят е такъв, броят на факторите е означен с $z$ , а броят на параметрите – с $p$ .

Често регресионните модели се представят като изходът им ${\hat {y}}_{k}$ се замени с измерения изход на системата ^[7] ^[8] , т.е.

y_{k}=f(\varphi _{k},\theta )+e_{k}.

С други думи зависимостта между изхода на системата и на модела е $y_{k}={\hat {y}}_{k}+e_{k}$ като $e_{k}$ е обобщен сигнал, който отразява шума от измерване, смущенията от околната среда и несъвпадението между регресионната функция $f(.)$ и реалната връзка между факторите и изхода. За опростяване на употребата на горното представяне е прието $e_{k}$ да участва адитивно в описанието.

Линеен по параметри модел в общ вид[редактиране | редактиране на кода]

В много случаи с подходящи трансформации на факторите и/или на изхода регресионните модели може да се представят в линеен по параметри вид. Това позволява прилагането на линейната теория, която е добре развита и предлага унифицирани решения, както за изграждане на модела, така и за неговото използване. В някои източници ^[1], ^[9] под „линеен“ се разбира модел, изходът на който е линейна функция на параметрите, докато в ^[10], ^[11] и др., ако моделът е линеен, то изходът му зависи линейно от входа. По тази причина, ако изходът на модел е линеен по параметри, в статията това изрично се указва.

По-долу се използват съкращенията:

MIMO (Multiple Input Multiple Output) – за модел с много входове и много изходи (многомерен модел)
MISO (Multiple Input Single Output) – за модел с много входове и един изход (многомерен модел)
SISO (Single Input Single Output) – за модел с един вход и един изход (едномерен модел)

MIMO модел[редактиране | редактиране на кода]

В едномерния случай линейният по параметри (SISO) модел може да се запише така:

y_{k}=\varphi _{k}^{T}\theta +e_{k}.

Тук $\theta$ и $\varphi _{k}$ са вектори с еднаква размерност, а $y_{k}$ и $e_{k}$ са скаларни величини.

Когато системата е с повече изходи, т.е. $y_{k}\in {\mathcal {R}}^{\ell }$ , тъй като отдясно на равенството се намира вектор, то и резултатът от произведението на факторите и параметрите също трябва да е вектор, отговарящ на изхода ${\hat {y}}_{k}$ на многомерния модел. Това означава, че горното умножение трябва да се извърши между матрица и вектор, както е показано на фигурата. Така възникват две групи представяния на линейните по параметри MIMO регресионни модели записани в общ вид ^[12], ^[13]. При едното параметрите се подреждат във вектор, а факторите – в матрица с подходяща структура, докато при другото представяне факторите са във вектор, а параметрите в матрица. Първият запис на MIMO модел в общ вид е

y_{k}=\phi _{k}\theta +e_{k},

където векторът $\theta \in {\mathcal {R}}^{p}$ се състои от параметрите на модела, а матрицата $\phi _{k}\in {\mathcal {R}}^{\ell \times p}$ съдържа стойностите на регресорите, описващи изхода на системата в текущия момент. Другото представяне е

y_{k}=\Theta ^{T}\varphi _{k}+e_{k},

при което параметрите са подредени в матрицата $\Theta \in {\mathcal {R}}^{z\times \ell }$ , а векторът $\varphi _{k}\in {\mathcal {R}}^{z}$ съдържа стойностите на регресорите ^[11], ^[14], ^[15], ^[16], ^[17] . На пръв поглед няма значение как се формира ${\hat {y}}_{k}$ – и в двата случая изходът е линейна функция на параметрите и на факторите. Въпреки това горните две представяния са свързани с различни особености, които са важни още на ниво уточняване на структурата на модела.

Възможни структури на матриците и векторите в общите записи, както и предимствата и недостатъците на представянията са разгледани подробно в ^[18].

MISO и SISO модели[редактиране | редактиране на кода]

Когато моделът е с един изход, регресорите и параметрите е удобно да се групират във вектори и в този случай общото представяне е

y_{k}=\varphi _{k}^{T}\theta +e_{k}.

То не се отличава от вече показаното описание на SISO моделите. Съответно изходът, изчислен от модела, е

{\hat {y}}_{k}=\varphi _{k}^{T}\theta .

При наличие на повече входове, двата вектора се разширяват с необходимия брой параметри и регресори.

Представяне на нелинейни модели в линеен по параметри вид[редактиране | редактиране на кода]

Представянето, дори и понякога изкуствено, на различни модели в общ вид дава възможност да се извеждат общи оценители на параметри, общи методи за избор на структурата ми и др. Освен това съществен момент е, че параметрите и регресорите във вида, представен на фиурата, са в отделни матрици и вектори, а това улеснява извеждането на съответните алгоритми.

Нелинейни по параметри модели[редактиране | редактиране на кода]

Под нелинейни модели се има предвид такива, които не може да се представят в линеен по параметри вид. Също така, в някои източници ^[19] , когато се набляга на връзката между входните и изходните величини, ако тя е нелинейна, такъв модел също се нарича нелинеен, независимо дали изходът е линейна функция на параметрите. Например нека изходът на модела е

{\hat {y}}_{k}=\theta _{1}y_{k-1}^{2}+\theta _{2}\ln u_{1,k-1}+\theta _{3}e^{u_{2,k-1}}.

Той може да се запише като

{\hat {y}}_{k}=\varphi _{k}^{T}\theta ,

където $\theta =\left[\theta _{1}~~\theta _{2}~~\theta _{3}\right]^{T}$ , $\varphi _{k}=\left[y_{k-1}^{2}~~\ln u_{1,k-1}~~e^{u_{2,k-1}}\right]^{T}$ . Както се вижда, нелинейният модел (като връзка между входа и изхода) е линеен по параметри, а за привеждането му в този общ вид към първоначалните фактори се прилагат нелинейни трансформации. В резултат на това се получават новите фактори във вектора $\varphi _{k}$ .

За да се разграничат двата случая, когато ${\hat {y}}_{k}$ зависи нелинейно от $\theta$ , изрично ще се указва, че моделът е нелинеен по параметри.

Въпреки удобствата, които предлага линейната теория, има области, където тя е неприложима. Нелинейните по параметри модели не може да се представят във вид, който да позволи унифицирането на задачата за построяване на модел, както и неговото използване. Например оценяването на парамерите на такъв модел е свързано с методи за числена оптимизация. Освен това, ако обектът участва в по-сложна система (например система за управление), нелинейността на неговото описание често е причина за наличието на други нелинейни елементи в системата като нелинеен регулатор, нелинейни компенсиращи звена и т.н. Това значително усложнява, както синтеза, така и анализа на системата за управление.

Пример: логистичен модел[редактиране | редактиране на кода]

Един често използван нелинеен модел в практиката е логистичният. Той се използва във финансите ^[20] , медицината ^[21] , автоматиката – за откриване на повреди, в психологията ^[22] и др.). За описание на свойствата на модела е представен вариант с един изход. MISO логистичният модел има вида

y_{k}={\tfrac {1}{1+e^{-\varphi _{k}^{T}\theta }}}+e_{k}.

Моделът намира приложение, когато изходът на обекта има смисъл на вероятност. Например в системите за оценка на кредитния риск ^[20] $y_{k}$ приема стойности между 0 и 1 (0 – „лош“, 1 – „добър“ кредитополучател). В този случай предствянето като линейна по параметри функция

{\tilde {y}}_{k}=\ln {\tfrac {y_{k}}{1-y_{k}}}=\varphi _{k}^{T}\theta +e_{k},

не е подходящо, тъй като ако оригиналният изход е 0, то ${\tilde {y}}_{k}=-\infty$ , а когато $y_{k}=1$ , трансформираният изходен сигнал ${\tilde {y}}_{k}=\infty$ . Затова моделът не се представя в линеен по параметри вид, а се разглежда като нелинеен регресионен модел. Това води до усложняване на процеса на моделиране, както и на използването и анализа на модела (в сравнение с линейните по параметри модели).

Източници[редактиране | редактиране на кода]

↑ ^а ^б Въндев, Д., (2013) Записки по приложна статистика 1, архив на оригинала от 4 март 2016, https://web.archive.org/web/20160304193816/http://www.fmi.uni-sofia.bg/fmi/statist/Personal/Vandev/lectures/applstat1.pdf, посетен на 27 август 2014
↑ Casella, G., S. Fienberg and I. Olkin, (1998) Applied Regression Analysis – A Research Tool. Springer-Verlag, New York
↑ Chattefuee, S. and A. S. Hadi, (2006) Regression Analysis by Example. John Wiley & Sons, Inc., Hoboken, New Jersey
↑ Nelles, O., (2001) Nonlinear System Identification. From Classical Approaches to Neural Networks and Fuzzy Models. Springer-Verlag, Berlin Heidelberg
↑ Божанов, Е. и И. Вучков, (1973) Статистически методи за моделиране и оптимизране на многофакторни обекти., Техника, София]
↑ Гарипов, E., (2004) Част II. Идентификация чрез дискретни стохастични регресионни модели. ТУ – София, ISBN 954-438-392-1
↑ Isenman, A. J., (2008) Modern Multivariate Statistical Techniques. Regression, Classification, and Manifold Learning. Springer-Verlag
↑ Montgomery, C., Elizabeth P. and G. Vining, (2012) Introduction to Linear Regression Analysis. Wiley, ISBN 978-0-470-54281-1
↑ Матеев, П., (2012) Линеен регресионен модел. Метод на най-малките квадрати. Теорема на Гаус-Марков, София, архив на оригинала от 24 септември 2015, https://web.archive.org/web/20150924071527/http://www.fmi.uni-sofia.bg/lecturers/vois/pmat/Regression.pdf, посетен на 27 август 2014
↑ Гарипов, E., (2004) Идентификация на системи Част I. Въведение. ТУ – София, ISBN 954-438-391-3
↑ ^а ^б Вучков, И., (1996) Идентификация. ИК Юрапел, София
↑ Efremov, A., (2014) General Forms of a Class of Multivariable Regression Models. In: Journal of Information Technologies and Control. Sofia, Bulgaria^{[неработеща препратка]}
↑ Efremov, A., (2013) Generalized representations multivariable linear parameterized models In: International Conference of Automatics and Informatics, pp. I-233 - I-236. Sofia, Bulgaria, архив на оригинала от 3 септември 2014, https://web.archive.org/web/20140903110114/http://anp.tu-sofia.bg/aefremov/publications/EfremovSAI13_01.pdf, посетен на 27 август 2014
↑ Dayal, B. S. and J. F. MacGregor, (1997) Multi-output process identification. In: Journal of Process Control, volume 7, № 4, pp. 269–282
↑ Den Hof, P., (1994) Model sets and parametrizations for identification of multivariable equation error models. In: Automatica, volume 30, № 3, pp. 433–446
↑ Fassois, S. D., (2001) MIMO LMS-ARMAX identification of vibrating structures – part I: the method. In: Mechanical Systems and Signal Processing, volume 15, № 4, pp. 723–735
↑ Yiu, J. and S. Wang, (2007) Multiple ARMAX modelling scheme for forecasting air conditioning system performance, In: Energy Conversion and Management, volume 48, pp. 2276–2285
↑ Ефремов, А., (2013) Идентификация на многомерни системи, DAR-RH, ISBN 978-954-9489-34-7
↑ Ищев, К., (2007) Теория на автоматичното управление. ТУ – София
↑ ^а ^б Thomas, L., D. Edelman and J. Crook, (2002) Credit Scoring & Its Applications (Monographs on Mathematical Modeling and Computation), SIAM – society of industrial and applied mathematics, ISBN-13: 978-0898714838
↑ Leonov, V., (2012) Logistic regression in medicine and biology. In Biostatistics, in Russian Архив на оригинала от 2014-09-04 в Wayback Machine..
↑ Weiner, I., J. Schinka and W. Velicer, (2003) Handbook of Psychology, Research Methods in Psychology, John Wiley & Sons, Inc.

[Vandev-1] а ^б Въндев, Д., (2013) Записки по приложна статистика 1, архив на оригинала от 4 март 2016, https://web.archive.org/web/20160304193816/http://www.fmi.uni-sofia.bg/fmi/statist/Personal/Vandev/lectures/applstat1.pdf, посетен на 27 август 2014

[Casella-2] Casella, G., S. Fienberg and I. Olkin, (1998) Applied Regression Analysis – A Research Tool. Springer-Verlag, New York

[Chattefuee-3] Chattefuee, S. and A. S. Hadi, (2006) Regression Analysis by Example. John Wiley & Sons, Inc., Hoboken, New Jersey

[Nelles-4] Nelles, O., (2001) Nonlinear System Identification. From Classical Approaches to Neural Networks and Fuzzy Models. Springer-Verlag, Berlin Heidelberg

[Bojanov-5] Божанов, Е. и И. Вучков, (1973) Статистически методи за моделиране и оптимизране на многофакторни обекти., Техника, София]

[Garipov_II-6] Гарипов, E., (2004) Част II. Идентификация чрез дискретни стохастични регресионни модели. ТУ – София, ISBN 954-438-392-1

[Isenman-7] Isenman, A. J., (2008) Modern Multivariate Statistical Techniques. Regression, Classification, and Manifold Learning. Springer-Verlag

[Montgomery-8] Montgomery, C., Elizabeth P. and G. Vining, (2012) Introduction to Linear Regression Analysis. Wiley, ISBN 978-0-470-54281-1

[Mateev-9] Матеев, П., (2012) Линеен регресионен модел. Метод на най-малките квадрати. Теорема на Гаус-Марков, София, архив на оригинала от 24 септември 2015, https://web.archive.org/web/20150924071527/http://www.fmi.uni-sofia.bg/lecturers/vois/pmat/Regression.pdf, посетен на 27 август 2014

[Garipov_I-10] Гарипов, E., (2004) Идентификация на системи Част I. Въведение. ТУ – София, ISBN 954-438-391-3

[Vuchkov-11] а ^б Вучков, И., (1996) Идентификация. ИК Юрапел, София

[Efremov_2014-12] Efremov, A., (2014) General Forms of a Class of Multivariable Regression Models. In: Journal of Information Technologies and Control. Sofia, Bulgaria^{[неработеща препратка]}

[Efremov_2013-13] Efremov, A., (2013) Generalized representations multivariable linear parameterized models In: International Conference of Automatics and Informatics, pp. I-233 - I-236. Sofia, Bulgaria, архив на оригинала от 3 септември 2014, https://web.archive.org/web/20140903110114/http://anp.tu-sofia.bg/aefremov/publications/EfremovSAI13_01.pdf, посетен на 27 август 2014

[Dayal-14] Dayal, B. S. and J. F. MacGregor, (1997) Multi-output process identification. In: Journal of Process Control, volume 7, № 4, pp. 269–282

[Den_Hof-15] Den Hof, P., (1994) Model sets and parametrizations for identification of multivariable equation error models. In: Automatica, volume 30, № 3, pp. 433–446

[Fassois-16] Fassois, S. D., (2001) MIMO LMS-ARMAX identification of vibrating structures – part I: the method. In: Mechanical Systems and Signal Processing, volume 15, № 4, pp. 723–735

[Yiu-17] Yiu, J. and S. Wang, (2007) Multiple ARMAX modelling scheme for forecasting air conditioning system performance, In: Energy Conversion and Management, volume 48, pp. 2276–2285

[Efremov-18] Ефремов, А., (2013) Идентификация на многомерни системи, DAR-RH, ISBN 978-954-9489-34-7

[19] Ищев, К., (2007) Теория на автоматичното управление. ТУ – София

[Thomas-20] а ^б Thomas, L., D. Edelman and J. Crook, (2002) Credit Scoring & Its Applications (Monographs on Mathematical Modeling and Computation), SIAM – society of industrial and applied mathematics, ISBN-13: 978-0898714838

[21] Leonov, V., (2012) Logistic regression in medicine and biology. In Biostatistics, in Russian Архив на оригинала от 2014-09-04 в Wayback Machine..

[22] Weiner, I., J. Schinka and W. Velicer, (2003) Handbook of Psychology, Research Methods in Psychology, John Wiley & Sons, Inc.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]