Статистика

от Уикипедия, свободната енциклопедия
Направо към навигацията Направо към търсенето
Диаграма на нормално разпределение, често използвано в статистиката и свързано с централната гранична теорема
Диаграмите на разсейване се използват в описателната статистика, за да визуализират наблюдаваните отношения между различни променливи

Статистиката е дисциплина, която се занимава със събирането, организирането, анализа, интерпретацията и представянето на данни.[1][2][3]

В прилагането на статистиката към научни, стопански или обществени проблеми обикновено се изхожда от дадена статистическа съвкупност или статистически модел, които се подлагат на изследване. Съвкупностите могат да бъдат различни групи от хора или предмети, като „всички хора, живеещи в дадена страна“ или „всеки атом, съставляващ даден кристал“. Статистиката се занимава с всички страни на данните, включително планирането на тяхното събиране чрез разработване на статистически проучвания и експерименти.[4][5]

Когато е невъзможно да бъдат събрани данни чрез пълно преброяване, статистиците събират данни чрез разработването на специални експериментални и проучвателни извадки. Представителните извадки дават възможност изводите и заключенията в приемлива степен да се разширят от извадката към съвкупността като цяло. Дадено експериментално изследване включва извършването на измервания върху изследваната система, нейното манипулиране и след това извършване на същите измервания, за да се установи дали манипулацията е променила измерваните величини. Обратно, наблюдателните изследвания не включват експериментални манипулации.

При анализа на данните се използват два основни статистически метода – описателна статистика, която обобщава данните от извадката с използване на показатели, като средна стойност или стандартно отклонение, и изводна статистика, която извлича заключения от данните, отчитайки случайните отклонения и грешки в тях.[6] Описателната статистика най-често се занимава с две групи свойства на дадено разпределение (извадка или съвкупност): централната тенденция се стреми да опише средната или типична стойност за разпределението, докато разсейването характеризира степента, в която единиците в разпределението се отклоняват от центъра и една от друга. Теоретична основа на анализа на данните е математическата статистика, която от своя страна се базира на теорията на вероятностите, изучаваща случайните явления.

Една обичаен статистически процес включва събирането на данни, което води до проверка на връзката между две множества от статистически данни или между едно множество и синтетичните данни, извлечени от идеализиран модел. Предлага се хипотеза за статистическата връзка между двете множества данни, след което тя се сравнява като алтернатива на идеализирана нулева хипотеза, според която между тях няма никаква връзка. Отхвърлянето или опровергаването на нулевата хипотеза се постига чрез статистически проверки, които оценяват количествено смисъла, в който нулевата хипотеза може да се докаже като погрешна при зададените за проверката данни. При работата с нулева хипотеза се отчитат два основни вида грешки – от първи род (нулевата хипотеза е невярно отхвърлена, давайки фалшив положителен резултат) и от втори род (нулевата хипотеза не е отхвърлена и е пропусната действителна връзка между съвкупностите, давайки фалшив отрицателен резултат).[7]

Процесите на измерване, чрез които се получават статистически данни, също могат да създават грешки. Те обикновено се класифицират като случайни (шум) или системни, но има и други видове грешки (например, груби грешки, като описване на данни с невярна мерна единица). Наличието на пропуски в данните или на цензура може да доведе до системни грешки в оценките, като за избягването на такива проблеми са разработени специални техники.

Статистиката възниква във връзка с нуждите на емпиричната наука и се отличава от повечето клонове на математиката по своята приложна насоченост.[8][9] Най-ранните текстове, посветени на статистически методи, базирани на теорията на вероятностите, са на ислямски математици и криптографи от VIII-IX век, като Халил Фарахиди и Ал-Кинди.[10][11][12] От XVIII век математическата статистика започва да използва задълбочаващите се резултати на математическия анализ, добивайки постепенно съвременния си вид. От средата на XX век централна роля в ключовите за статистиката обработка и анализ на големи обеми данни играят компютрите с разработвания за тях специализиран статистически софтуер.[13]

История[редактиране | редактиране на кода]

Първите текстове, посветени на вероятностите и статистиката датират от Златния век на исляма (VIII-XIII век), когато те са изучавани най-вече във връзка с криптографията. Халил Фарахиди (717 – 786) пише „Книга за скритие послания“, включваща първата употреба на пермутации и комбинации, за да изброи всички възможни арабски думи, със и без гласни.[10] Първата статистическа книга е трактатът на Ал-Кинди (801 – 873) „Ръкопис за разшифроването на скрити послания“, която включва подробно описание на начините за използване на статистика и честотен анализ за разшифроване на криптирани съобщения. Този трактат поставя началото както на статистиката, така и на криптоанализа.[11][12] Ал-Кинди описва и първото известно използване на статистически изводи. Али ибн Адлан (1187 – 1268) развива въпроса за ролята на размера на извадката в честотния анализ.[10]

Най-ранният европейски труд по статистика датира от 1663 година – „Природни и политически наблюдения върху регистрите на смъртността“ („Natural and Political Observations upon the Bills of Mortality“) на английския демограф Джон Граунт.[14] Ранните приложения на статистическото мислене са свързани с нуждите на държавното управление, което се стреми да се води в политиката си от демографски и икономически данни – оттук и етимологията на думата от среднолатински: statisticum е лекционен курс по държавни въпроси (от stat-, подобно на state – държава, estate – земя, владение, собственост (англ.), état (фр.) – държава, от лат. status – положение, състояние[15][16]) Обхватът на дисциплината статистика се разширява в началото на XIX век, обхващайки събирането и анализа на данни като цяло. Днес статистиката е широко използвана в държавното управление, бизнеса, природните и обществените науки.

Математическите основи на съвременната статистика са положени през XVII век с разработването на теорията на вероятностите от Джероламо Кардано, Блез Паскал и Пиер дьо Ферма. Математическата теория на вероятностите се появява от изследванията на игрите на късмета, макар че понятието за вероятност вече е разглеждано в средновековното право и от философи като Хуан Карамуел.[17] Важният за развитието на статистиката метод на най-малките квадрати е публикуван за пръв път през 1805 година от Адриан-Мари Льожандър, макар по-късно Карл Фридрих Гаус да твърди, че му е бил известен още през 1795 година.

Съвременната статистика се формира в края на XIX и началото на XX век на три етапа.[18] Първата вълна, на границата на двете столетия, е доминирана от работите на англичаните Френсис Галтън и Карл Пиърсън, които превръщат статистиката в строга математическа дисциплина, използвана не само в науката, но и в стопанството и политиката. Приносът на Галтън включва въвеждането на понятията за стандартно отклонение, корелация, регресионен анализ и прилагането на тези методи към изследването на различни човешки характеристики, като височина, тегло и дължина на миглите.[19] Пиърсън създава корелационния коефициент,[20] метода на моментите за съгласуване на разпределения към извадки и разпределението на Пиърсън.[21] Галтън и Пиърсън основавата „Биометрика“, първото научно списание за математическа статистика и биостатистика, а по-късно Пиърсън създава и първият в света университетски департамент по статистика в Лондонския университетски колеж.[22]

Вторият етап от 10-те и 20-те години на XX век е започнат от Уилям Сийли Госет и достига своята кулминация в работите на Роналд Фишър, който съставя учебниците, дефинирали статистиката като академична дисциплина по целия свят. Сред най-важните му текстове са публикацията му от 1918 година „The Correlation between Relatives on the Supposition of Mendelian Inheritance“ (в която за пръв път се използва статистическият термин вариация), класическият му труд от 1925 година „Statistical Methods for Research Workers“ и книгата му от 1935 година „The Design of Experiments“,[23][24][25] където разработва строги модели за планиране на експерименти. Фишър въвежда понятията за достатъчна статистика, линеен дискриминантен анализ и информация на Фишър.[26] В книгата си от 1930 година „The Genetical Theory of Natural Selection“ той прилага статистиката към биологията, извеждайки различни концепции, като принципа на Фишър[27] (който Антъни Едуардс нарича „вероятно най-знаменитият аргумент в еволюционната биология“) и Фишеровото убягване.[28][29][30] Фишър въвежда и понятието за нулева хипотеза – такава, която „никога не е доказана или потвърдена, но е възможно да бъде опровергана“, – при известния си експеримент с дамата, опитваща чай.

Последната вълна на активно развитие на статистиката, свързан главно с прецизиране и разширяване на дотогавашните разработки, води началото си от сътрудничеството между Егон Пиърсън и Йежи Нейман през 30-те години на XX век. Те въвеждат понятията за фалшив отрицателен резултат, статистическа мощност и доверителен интервал. През 1934 година Нейман демонстрира, че стратифицираната случайна извадка е като цяло по-добър метод за оценяване от квотната извадка.[31]

Днес статистически методи се прилагат във всички области, свързани с вземане на решения, за постигане на точни изводи от масиви от данни и за вземане на решения в ситуации на несигурност. Използването на съвременни компютри дава възможност за ефективното извършване на мащабни статистически изчисления и дава тласък на развитието на нови методи, които не могат да се прилагат с ръчни изчисления. Статистиката остава област на активни изследвания, например на проблема за анализа на големи данни.[32]

Основни понятия[редактиране | редактиране на кода]

Апроксимация по метода на най-малките квадрати, представяща връзката между две статистически величини като квадратна парабола
При линейната регресия връзката между две статистически величини се апроксимира с линейна функция
Коефициенти на корелация за различни разпределения на двойки статистически величини
  • Масово явление – когато в множество единични явления се повтарят определени закономерности, валидни за общността от единици като цяло.
  • Статистическа съвкупност – това е съвкупност от голям брой единици (случаи), които характеризират масовото явление:
    • Генерална съвкупност – обхваща случаи на изследваното масово явление.
    • Представителна съвкупност (извадка) – обхваща част от случаите на генералната съвкупност, като чрез нейните характеристики се правят изводи за характеристиките на генералната съвкупност.
  • Статистически признаци – изразяват свойствата (качествата, проявите и отношенията) на отделните единици на дадено явление. Най-общо статистическите признаци са качествени и количествени.
  • Статистически единици – това са отделните единици (случаи, представители), които образуват статистическата съвкупност. Чрез статистическа групировка отделните статистически единици се разпределят по групи, обособени въз основа на наблюдаваните признаци, характеризиращи съвкупността.
  • Статистически данни – са събраната, организирана и анализирана информация, необходима за изследване на дадено явление. За представяне на измерените данни (числата) от наблюденията при статистическата групировка се използват статистически редове. Когато при статистическата групировка са обособени интервали с долна и горна граница, статистическият ред е интервален. В статистическите таблици се нанасят статистическите редове, т.е. резултатите от групировката. В таблиците се подреждата не само статистическите данни, но и резултатите от статистическата им обработка.

Статистическите таблици се онагледяват графично чрез диаграми, където с определен мащаб се нанасят данните на признаците върху осите на подходящо избрана координатна система:

  • Линейни диаграми – графичният образ е линия, свързваща отделните точки, представящи данните.
  • Плоскостни диаграми – графичните образи са правоъгълници, триъгълници, кръгове и други.

Размерът на изучаваните явления се изразява с честота:

  • Абсолютна честота – изразява броя на единиците от статистическата съвкупност, които се отличават по някакъв признак.
  • Относителна честота (статистическа вероятност). Според закона за големите числа, колкото е по-голям броят на изследваните единици на генералната съвкупност, толкова по-малко наблюдаваните признаци се влияят от случайни причини и относителната честота се доближава до съответната вероятност.

Статистически данни[редактиране | редактиране на кода]

Събиране на данни[редактиране | редактиране на кода]

Извадки[редактиране | редактиране на кода]

Когато е невъзможно събирането на данни за цялата статистическа съвкупност, статистиците събират данни от извадка, разработвайки специфични експерименти. При използването на извадка като източник на информация за цялата съвкупност е важно извадката да представлява вярно съвкупността. Представителните извадки дават възможност изводите и заключенията да се разпрострат надеждно от извадката към съвкупността като цяло. Затова е от изключителна важност да се определи до каква степен избраната извадка е наистина представителна. Статистиката използва различни методи за оценка и корекция на системните отклонения в извадката и процедурите за събиране на данни. Една от целите на методите за планиране на експерименти също е да се ограничат тези проблеми още в самото начало на изследването, подобрявайки възможностите му да достига до коректни изводи за съвкупността.

Теорията на извадките е част от математическата теория на вероятностите. Вероятностите се използват в математическата статистика за изследване на извадковите разпределения и, по-общо, на характеристиките на статистическите процедури. Използването на даден статистически метод е валидно, когато разглежданата система или съвкупност съответства на допусканията на метода. Разликата в подхода на класическата теория на вероятностите и теорията на извадките е най-вече в това, че теорията на вероятностите изхожда от дадени параметри на съвкупността, за да извлече дедуктивно вероятностите, отнасящи се за извадките, докато при статистическите методи е обратното – те изхождат индуктивно от извадките, за да получат параметрите на съвкупността.

Експерименти[редактиране | редактиране на кода]

Наблюдения[редактиране | редактиране на кода]

Видове данни[редактиране | редактиране на кода]

Приложение на изчислителната техника[редактиране | редактиране на кода]

gretl, пример за софтуер за статистически изчисления с отворен код

Бързото и постоянно увеличаване на мощността на изчислителната техника от средата на 20 век оказва сериозно влияние върху статистическата дейност. Ранните статистически модели почти винаги са линейни, но появата на мощни компютри с подходящи изчислителни алгоритми предизвиква по-силен интерес към нелинейни модели, като невронните мрежи, и довежда до появата на напълно нови методи, като обобщените линейни и йерархичните модели.

Широката достъпност до относително мощни компютри увеличава популярността на тежки от изчислителна гледна точка методи, като пермутационни тестове или извадки на Гибс. Компютърната революция води и до увеличаване на значението на експерименталната и емпирична статистика.

Бележки[редактиране | редактиране на кода]

Цитирани източници

Вижте също[редактиране | редактиране на кода]

Външни препратки[редактиране | редактиране на кода]

Открийте още информация за Статистика в нашите сродни проекти:

Commons-logo.svg Общомедия (изображения и звук)
Wikiquote-logo.png Уикицитат (цитати)
     Портал „Статистика“         Портал „Статистика