Корелационен анализ

от Уикипедия, свободната енциклопедия
Направо към: навигация, търсене

Корелационният анализ е метод за обработка на статистически данни използвани за изучаване на коефициенти (корелации) между променливи. При анализа се сравняват коефициентите на корелацията между една или повече двойки променливи, за да се установят статистически взаимозависимости между тях.

Статистическите процедури, с които се определя степента на взаимозависимост, се отнасят до категорията на корелационния анализ. Корелационен индекс е степента, в която две променливи са взаимно свързани. Целта на корелационния модел е да идентифицира степента на свързаност между два феномена. Ако целта на изследването е фокусирана върху предсказване на дадена променлива, основано на информация от друга променлива, тогава се прилага регресионен метод. Регресионният модел показва промените в една променлива като функция от промени или различия на фиксирани стойности на други променливи. Корелационният анализ може да се прилага, когато има събрани данни в две различни променливи. Условно едната променлива е X, а другата Y. За X и Y за всяко изследвано лице трябва да има стойности. Корелационния анализ представлява бивариационно честотно разпределение. Обикновено с X се означава независимата променлива (фактора), а с Y - зависимата променлива (резултата). Най-широко използваният индекс за праволинейна зависимост е коефициентът на корелация на Пиърсън – единичен, резюмиран индекс на степента, в която две променливи са линейно свързани или зависими една от друга. Стандартният символ, с който се бележи коефициента на корелация е R. Има стойност от (-1) до 1. Когато R=0, няма линейна връзка между променливите, т.е няма никаква корелация. Когато R=1 или R=-1, имаме перфектна линейна връзка между двете променливи. Това означава, че диаграмата в тези случаи ще бъде права линия. Знакът пред R показва посоката на зависимостта между двете променливи. Когато R е с положителен знак има права зависимост между двете променливи. При нарастване на X, нараства и Y. Когато знакът е отрицателен, има обратна зависимост. С нарастване на X, намалява Y. Този коефициент на корелация зависи от целта на изследването. Трябва да се интерпретира съдържателно. Интерпретацията не може да бъде еднаква за резултати от рода на 0,3 и 0,7. Корелационната скала е ординална, а не интервална. Има две мнения в науката относно тълкуването на коефициента:

Графики на разпределяне на двойките(x,y) със съответстващи коефициенти на корелация x и y за всеки от тях. Обърнете внимание, че коефициентът на корелация изразява линейна зависимост (първия ред), но не описва крива на зависимост (средния ред), и съвсем не подхожда за описание на сложни, нелинейни зависимости (последния ред).

0 < R < 0,3 – слаба корелация

0,3 < R < 0,5 – умерена корелация

0,5 < R < 0,7 – значителна корелация

0,7 < R < 0,9 – висока корелация

0,9 < R < 1,0 - много висока корелация

Другата скала е:

0 - 0,2 – слаба корелация

0,2 – 0,4 – умерена корелация

0,4 – 0,6 – значителна корелация

0,6 – 0,8 – висока корелация

0,8 – 1,0 - много висока корелация

R e по-лесен за работа, когато е повдигнат на квадрат. Така може да се представи зависимостта между двете променливи като процент от вариации между тях. Тогава говорим за коефициент на детерминация. Пример: R=0,5 и R=0,9. R2=(0,5)2 x100=25% и R2=(0,9)2 x100=81% Т.е. в 81% от случаите промените в едната променлива ще доведат до промени в другата (или на единица изменение на факторната променлива имаме 0,81 единици изменение на резултатативната променлива). В другия случай 25% от случаите промените в едната променлива водят до промени в другата (или на единица изменение на фактора очакваме 0,25 единици изменение в резултата).

Коефициентът на детерминация се нарича още коефициент на определеност и показва какъв процент от промените в едната променлива ще доведат до промени в другата променлива. Коефициентът на корелация и коефициентът на неопределеност К2 се допълват до единица. Ако R2=25% => K2=75%. При интерпретация на корелационния анализ описваме посоката на връзката – дали е положителна или отрицателна, дали има права или обратна зависимост. Това означава, че ако имаме положителен знак, повишаването на значимостта на едната променлива ще доведе до повишаване на значимостта и на другата, както и обратното. Когато знакът е отрицателен, тогава повишаването на значимостта на едната променлива води до понижаване значимостта на другата, както и обратното.