Корелация

от Уикипедия, свободната енциклопедия
(пренасочване от Корелационен анализ)
Направо към: навигация, търсене

Корелация е математически термин, с който в общ смисъл се означава мярка за стохастична (вероятностна, нефункционална) зависимост между случайни величини.

Високата корелация между две величини не предполага задължително наличие на причинно-следствена връзка между тях. Например измерванията в група градове на процента шофьори и средното ниво на продажба на алкохол могат да разкрият високи нива на корелация между двете величини, но това е отражение на броя на жителите във всеки град върху всяка от двете измервани величини.

В по-тесен смисъл терминът корелация се разбира като синоним на корелационен коефициент ρ, който представлява мярка за линейна зависимост между две случайни величини , дефинирана като нормираната ковариация на двете величини: . Ако случайните величини са независими, те са некорелирани, т.е. . От друга страна тогава, когато изследваните случайните величини са свързани с линейна зависимост.

Пример:
1. Силна корелация. 2. Слаба корелация. 3. Никаква корелация между величините x и y.

Корелационен анализ[редактиране | редактиране на кода]

Корелационният анализ е метод за обработка на статистически данни използвани за изучаване на коефициенти (корелации) между променливи. При анализа се сравняват коефициентите на корелацията между една или повече двойки променливи, за да се установят статистически взаимозависимости между тях.

Статистическите процедури, с които се определя степента на взаимозависимост, се отнасят до категорията на корелационния анализ. Корелационен индекс е степента, в която две променливи са взаимно свързани. Целта на корелационния модел е да идентифицира степента на свързаност между два феномена. Ако целта на изследването е фокусирана върху предсказване на дадена променлива, основано на информация от друга променлива, тогава се прилага регресионен метод. Регресионният модел показва промените в една променлива като функция от промени или различия на фиксирани стойности на други променливи. Корелационният анализ може да се прилага, когато има събрани данни в две различни променливи. Условно едната променлива е X, а другата Y. За X и Y за всяко изследвано лице трябва да има стойности. Корелационния анализ представлява бивариационно честотно разпределение. Обикновено с X се означава независимата променлива (фактора), а с Y – зависимата променлива (резултата).

Най-широко използваният индекс за праволинейна зависимост е коефициентът на корелация на Пиърсън – единичен, резюмиран индекс на степента, в която две променливи са линейно свързани или зависими една от друга. Стандартният символ, с който се бележи коефициента на корелация е R. Има стойност от (-1) до 1. Когато R=0, няма линейна връзка между променливите, т.е няма никаква корелация. Когато R=1 или R=-1, имаме перфектна линейна връзка между двете променливи. Това означава, че диаграмата в тези случаи ще бъде права линия. Знакът пред R показва посоката на зависимостта между двете променливи. Когато R е с положителен знак има права зависимост между двете променливи. При нарастване на X, нараства и Y. Когато знакът е отрицателен, има обратна зависимост. С нарастване на X, намалява Y. Този коефициент на корелация зависи от целта на изследването. Трябва да се интерпретира съдържателно.

Интерпретацията не може да бъде еднаква за резултати от рода на 0,3 и 0,7. Корелационната скала е ординална, а не интервална. Има две мнения в науката относно тълкуването на коефициента:

Графики на разпределяне на двойките(x,y) със съответстващи коефициенти на корелация x и y за всеки от тях. Обърнете внимание, че коефициентът на корелация изразява линейна зависимост (първия ред), но не описва крива на зависимост (средния ред), и съвсем не подхожда за описание на сложни, нелинейни зависимости (последния ред).

0 < R < 0,3 – слаба корелация

0,3 < R < 0,5 – умерена корелация

0,5 < R < 0,7 – значителна корелация

0,7 < R < 0,9 – висока корелация

0,9 < R < 1 - много висока корелация

Другата скала е:

0 - 0,2 – слаба корелация

0,2 – 0,4 – умерена корелация

0,4 – 0,6 – значителна корелация

0,6 – 0,8 – висока корелация

0,8 – 1 - много висока корелация

R e по-лесен за работа, когато е повдигнат на квадрат. Така може да се представи зависимостта между двете променливи като процент от вариации между тях. Тогава говорим за коефициент на детерминация. Пример: R=0,5 и R=0,9. R2=(0,5)2 x100=25% и R2=(0,9)2 x100=81% Т.е. 81% от промените в резултативната променлива са в резултат от измененията на факторната променлива. В другия случай 25% от промените в резултата са породени от влиянието на факторната променлива.

Коефициентът на детерминация се нарича още коефициент на определеност и показва какъв процент от промените във факторната променлива ще доведат до промени в резултативната променлива. Коефициентът на детерминация и коефициентът на неопределеност К2 се допълват до единица (100%). Ако R2=25% => K2=75%.

При интерпретация на корелационния анализ описваме посоката на връзката – дали е положителна или отрицателна, дали има права или обратна зависимост. Това означава, че ако имаме положителен знак, повишаването на значимостта на едната променлива ще доведе до повишаване на значимостта и на другата, както и обратното. Когато знакът е отрицателен, тогава повишаването на значимостта на едната променлива води до понижаване значимостта на другата, както и обратното.

     Портал „Статистика“         Портал „Статистика