Хистограма
Тази статия съдържа списък с ползвана литература, препоръчана литература или външни препратки, но източниците ѝ остават неясни, защото липсва конкретно посочване на източници за отделните твърдения. |
Хистограма (Histogram) е графично представяне на емпирично разпределение, т. е. получено от наблюдения, на непрекъсната количествена променлива (количество измервано в непрекъсната скала). Тя е приближение на функцията плътност на разпределението на случайната величина, модел на наблюдаваната променлива.
Целта е да се проявят характеристиките на разпределението, като например симетричност или асиметричност (ляво или дясно изтегляне), унимодалност или бимодалност или повече от две моди, наличие на данни с големи отклонения (аутлаери или изключения, екстремални стойности). Хистограмата е едно от седемте средства/инструмента за контрол на качеството (seven basic tools of quality).
Хистограмата се състои от правоъгълници, плътно наредени върху хоризонталната ос, чиито основи са интервали, покриващи областта, която съдържа наблюденията. Интервалите се избират така, че да не се пресичат и всяко едно наблюдение от данните да попада в точно един интервал. Височината на правоъгълник от хистограмата се определя така, че лицето му да е пропорционално на съответстващата му честотата или броя на наблюденията в интервала, който е основа на правоъгълника.
Използване на относителни честоти (т.е. емпиричните вероятности) вместо броя променя само скалата на ординатата, но не и формата на хистограмата.
Обикновено дължините на интервалите се избират равни по големина, но това не е задължително.
Същата графика може да се използва за представяне на разпределението на една количествена променлива върху друга, също количествена. Например разпределение на валежите в л/кв.м по седмици или месеци, т.е. върху променливата „време“.
По същество, количествената променлива се трансформира в категорна, което действие се нарича също и агрегиране, сумиране или бинаризация, т.е. разпределение по интервали или контейнери (bins). Височината на правоъгълниците при равни по дължина интервали е пропорционална на честотите, по което хистограмата прилича на бар диаграма (bar plot). Плътно прилепените стълбове показват, че графиката илюстрира разпределение на количествена променлива.
Прието е стълбовете на хистограмата да се оцветяват едноцветно. Различни цветове се използват когато данните се разделят в групи (категории), т.е. налична е качествена (групираща, категорна) променлива. Различни цветове показват принадлежност на наблюдения в различни групи.
Формално
[редактиране | редактиране на кода]Нека данните от n на брой наблюдения на количествена променлива са означени с
x1, x2, …, xn Хистограмата се определя от m на брой интервали
[a0, a1], (a1, a2], …, (am-1, am].
Числата m и a0,a1,…,am се избират така, че интервалът [a0, am] да съдържа всички данни. Популярен метод е a0 = min{x1, x2, …, xn } и am = max{x1, x2, …, xn }.
При равна дължини на интервалите, дължината им h се определя като
h = (am - a0)/m.
Границите a0, a1, a2, …, am на интервалите, при равни ширини, са
ak = a0 + k.h, k = 0,1,2,…,m.
Различни ширини на интервалите и равни лица, съответно равни вероятности (equal probabilities) могат да се получат с помощта на квантилите на емпиричната кумулативна функция на разпределение: ak = qn(k/m), k =1,2,…,m,
където квантилът qn (p) се определя като решение на уравнението Fn(q(p))=p.
Тук p е число между 0 и 1), а Fn(x) е емпиричната кумулативна функция на разпределението на данните, т.е. относителният брой на наблюденията xi, които са по-малки или равни на x.
Неформални препоръки
[редактиране | редактиране на кода]Ширината на интервалите h и броя им m (при равни техни дължини) трябва да изпълняват условието: произведението m.h да е по-голямо или равно на размаха R на данните R = (max x - min x). Съществуват множество формални правила за избор на ширината h или на броя m. Те се основават на различни предположения за вида на разпределението, което хистограмата трябва да представя. Във всеки случай е необходимо да се търси баланс за броя на интервалите и ширините им, като се изпробват различни варианти. Препоръчително е m да е между 4 и 20, а границите на интервалите да са смислени и съобразени с точността на данните.
При избор на подхода „равни вероятности“ (equal probabilities) възниква проблем за оценяване на квантилите qn(k/m), особено когато броят на наблюденията n не се дели на m, т.е. n =a.m+b. В този случай остатъкът b може да се разпредели в опашките или в средните интервали на разпределението.
Твърде малко на брой интервали ще „заглади“ графиката и е възможно да скрие някои характерни свойства. От друга страна, възможно е хистограма с прекалено много интервали да не покаже наличие на по-обща тенденция. Във всеки случай, красотата и полезността на хистограмата определят избора на „бинаризацията“ (агрегирането) на данните.
История
[редактиране | редактиране на кода]През 1891 г. Карл Пирсън в своя лекция Geometry of Statistics[1] описва десет графични представяния на данни, като им приписва и имена. Едно от тях е диаграмата, която френският енциклопедист Уилям Плейфеър използва в своята The Commercial and Political Atlas (публикувана в Лондон през 1786), без да ѝ дава име. К. Пирсън я нарича „хистограма“. При описанието ѝ той споменава, че тя може да се използва за представяне на исторически данни. Това дава основание на автори на учебници да приписват тясна връзка между термините „хистограма“ и „история“. Убедителни доводи за алтернативна етимология на термина „хистограма“[2], се основават на факта, че К. Пирсън е добре запознат с древногръцкия език и повечето имена, предложени от него, са с древногръцки корен. Предполага се, че по-вероятно е той да е имал предвид думата ἱστός, която има няколко значения – тъкан, тъкачен стан (вертикален), корабни платна и мачти. Така терминът „хистограма“ се явява сроден на частта от биологията „хистология“ – науката за тъканите. Докато ако „хистограма“ бе сродна на „история“, би следвало да бъде „историограма“.