Грешки от първи и от втори род

от Уикипедия, свободната енциклопедия
Направо към: навигация, търсене

Грешките от първи род (на английски: type I errors, α errors, false positives) и грешките от втори род (на английски: type II errors, β errors, false negatives) в математическа статистика — са ключови понятия на задачите за проверка на статистическите хипотези. Все пак, тези понятия често се ползват и в други области, когато става въпрос за вземане на «бинарно» решение (да или не) на базата на някакъв критерий (тест, проверка, измерване), който с някаква вероятност може да даде фалшив резултат.

Забележка:

В англоезичната статистическа литература не се среща понятието критерий(criterion). Навсякъде се използва тест (test - проверка). Напр. (вж. Lehman Testing statistical hypothesis)

В руската литература по (математическа) статистика (оригинална и преводна) не се среща понятието тест - всичко е или критерий или проверка. (вж. Lehman Проверка статистических гипотез). [1]

Определения[редактиране | редактиране на кода]

Нека е дадена извадка \mathbf{X} = (X_1,\ldots,X_n)^{\top} от неизвестно съвместно разпределение \mathbb{P}^{\mathbf{X}}, и е поставена бинарна задача за проверка (тест) на статистическите хипотези:

 \begin{matrix} H_0 \\ H_1, \end{matrix}

където H_0нулева хипотеза, а H_1алтернативна хипотеза. Да предположим, че е даден статистически критерий

f:\mathbb{R}^n \to \{H_0,H_1\},

съпоставящ на всяка реализация на извадката \mathbf{X} = \mathbf{x} една от наличните хипотези. Тогава са възможни следните четири случая:

  1. Разпределението на \mathbb{P}^{\mathbf{X}} извадката \mathbf{X} съответства на хипотезата H_0, и тя е точно определена от статистическия критерий, то ест f(\mathbf{x}) = H_0.
  2. Разпределението на \mathbb{P}^{\mathbf{X}} извадката \mathbf{X} съответства на хипотезата H_0, но тя е невярно отхвърлена от статистическия критерий, то ест f(\mathbf{x}) = H_1.
  3. Разпределението на \mathbb{P}^{\mathbf{X}} извадката \mathbf{X} съответства на хипотезата H_1, и тя е точно определена от статистическия критерий, то ест f(\mathbf{x}) = H_1.
  4. Разпределението на \mathbb{P}^{\mathbf{X}} извадката \mathbf{X} съответства на хипотезата H_1, но тя е невярно отхвърлена от статистическия критерий, то ест f(\mathbf{x}) = H_0.

Във втория и в четвъртия случаи се казва, че е възникнала статистическа грешка, която се нарича съответно грешка от първи и от грешка от втори род.

  Вярна е хипотезата
 H_0   H_1 
Резултат
 от прилагане на 
критерия
 H_0  H_0 е приета правилно  H_0 е приета неправилно  
(Грешка от втори род)
 H_1   H_0 е отхвърлена неправилно  
( Грешка от първи род)
H_0 е отхвърлена правилно

За смисъла на грешките от първи и от втори род[редактиране | редактиране на кода]

Както се вижда от приведеното по горе определение, грешките от първи и от втори род взаимно са симетрични, то ест ако се сменят местата на хипотезите H_0 и H_1, то грешките от първи род ще се превърнат в грешки от втори род и обратно. Но все пак, в повечето ситуации от практиката объркване не възниква, тъй като се приема да се счита, че нулева хипотеза H_0 ще съответства на състояние «по подразбиране» (нормалното, най-очакваното състояние) — например, че изследвания пациент е здрав, или че пътника преминаващ през рамката на металдетектора не притежава забранени метални предмети. Съответно, алтернативната хипотеза H_1 означава противоположната ситуация, която обикновено се тълкува като по-малко вероятна, необичайна, или изискваща някаква реакция.

В този смисъл грешки от първи род често биват наричани фалшива аларма или лъжлива тревога, лъжливо сработване или Лъжливо-положителен резултат — например, анализа на кръвта е показал наличие на заболяване, но всъщност пациента е здрав, или металдетектора е подал сигнал тревога, породена от металната тока на колан.

Терминът широко се ползва в медицината. Например, тестовете, предназначени за диагностика на заболяване, понякога дават положителен резултат (т.е. показват наличие на това заболяване у пациента), докато всъщност пациентът не страда от това заболяване. Такъв резултат се нарича лъжливоположителен.

В други областия традиционно се ползват словосъчетания с подобен смисъл, например, "лъжливо сработване", "лъжлива(фалшива) тревога" и др. В информационните технологии често се ползва английския термин false positive без превод.

Поради възможността за лъжливи сработвания борбата с много видове заплахи не може да се автоматизира напълно. Като правило, вероятността за лъжливо сработване корелира с вероятността за пропускане на събитието (грешки от втори род). Тоест, колкото една система е по-чувствителна, толкова тя открива повече опасни събития и, следователно, предотвратява. Но при увеличаване на чувствителността неизбежно нараства и вероятността за лъжливо сработвания. Затова прекалено чувствително (параноично) настроена система за защита може да се изроди в своята противоположност и да доведе до това, че страничната вреда от нея ще бъде по-голяма от ползата.

Съответно, грешката от втори род понякога се нарича пропускане на събитието или лъжливоотрицателно сработване – напр. човек е болен, но анализа на кръвта не го показал, или пътник притежава хладно оръжие, но рамката на металдетектора не го е открила (например, поради това, че чувствителността на рамката е настроена да открива само масивни метални предмети).

Думата "отрицателен" в конкретния случай няма отношение към това желателно или нежелателно е самото събитие.

Терминът широко се използва в медицината. Например, тестовете, предназначени за диагностика на заболявания понякога дават отрицателен резултат (т. е. показват отсъствие на заболяване на пациента), докато всъщност пациента страда от това заболяване. Такъв резултат се нарича лъжливоотрицателен.

При други области, традиционно, използват словосъчетания с подобен смисъл, например, "пропуск на събитие", и т. н. В информационните технологии често се използва без превод английския термин false negative.

Степента на чувствителност на системата за охрана трябва да представлява именно компромис между вероятността за грешки от първи и за грешки от втори род. Къде всъщност е точката на баланс, зависи от оценката на риска и за двата вида грешки.

Вероятност за грешка (равнище на значимост и мощност)[редактиране | редактиране на кода]

Вероятността за грешка от първи род при проверка на статистически хипотези се нарича ниво на значимост или равнище на значимост и традиционно се означава с гръцката буква \alpha (откъдето и названието \alpha-errors).
Виж още ниво на значимост

Вероятността за грешка от втори род няма някакво специално общоприето название, като се означава с гръцката буква \beta (оттук и \beta-errors). Все пак с тази величина е тясно свързана друга, която носи голямо статистическо значение — мощност на критерия. Тя се пресмята по формулата (1-\beta). Така че, колкото е по-голяма мощността, толкова е по-ниска вероятността да се допусне грешка от втори род.

Тези две характеристики обикновено се пресмятат чрез така наречената функция на мощност на критерия. В частност, вероятността за грешка от първи род е функция на мощност, пресметната при нулева хипотеза. За критерии, основани на извадка с фиксиран обем, вероятността за грешка от втори род е единица минус функцията на мощност, пресметната при предположение, че разпределението на наблюденията съответства на алтернативната хипотеза. За последователни критерии това също е в сила, ако критерия се установява с вероятност единица (при даденото разпределение от алтернативата).

В статистическите тестове обикновено се търси компромис между приемливо ниво на грешки от първи и втори род. Често при приемането на решение се използва прагова стойност, която може да варира с цел проверката (теста) да се получи по-строг или пък, напротив, по-мек. Това прагово значение се явява равнището на значимост, което се задава при проверката на статистически хипотези. Например, в случая с металдетектор, повишаването на чувствителността на уреда ще доведе до увеличаване на риска от грешка от първи род (фалшива тревога), докато понижаването на чувствителността — до увеличение на риска от грешка от втори род (пропускане на забранен предмет).

Изчочници[редактиране | редактиране на кода]

  1. Д. Л. Въндев Записки по Приложна статистика 1, СОФИЯ, юни, 2003, http://www.fmi.uni-sofia.bg/fmi/statist/personal/vandev/lectures/applstat1.pdf