Теорема на Бейс

от Уикипедия, свободната енциклопедия
Направо към: навигация, търсене

Теорема на Бейс по името на Томас Бейс (Thomas Bayes) се използва в теорията на вероятностите за изчисляване на вероятността за настъпване на дадено събитие, след като вече е известна част от информацията за него.

Формулировка[редактиране | edit source]

P(A|B) = \frac{P(B | A) P(A)}{P(B)},

където

P(A) — вероятност за настъпване на събитието A;
P(A|B) — Условна вероятност за настъпване на събитието A при положение, че събитието B е настъпило (апостериорна вероятност);
P(B|A) — Условна вероятност за настъпване на B при положение, че A е настъпило;
P(B) — вероятност за настъпване на събитието B.

Извод[редактиране | edit source]

За да изведем теоремата, трябва да напишем определението за условна вероятност. Вероятността за настъпване на събитието A при положение, че B вече е настъпило е:

P(A|B)=\frac{P(A \cap B)}{P(B)}.

Аналогично, вероятността за настъпване на B при положение, че A се е сбъднало е:

P(B|A) = \frac{P(A \cap B)}{P(A)}. \!

Като комбинираме двете уравнения, получаваме:

P(A|B)\, P(B) = P(A \cap B) = P(B|A)\, P(A). \!

Тази лема понякога се намира „правило за умножение на вероятности“ Остава да разделим на P(B), при положение, че тази вероятност не е нулева, за да получим Теоремата на Бейс:

P(A|B) = \frac{P(B|A)\,P(A)}{P(B)}. \!

Примери[редактиране | edit source]

Тест за болест[редактиране | edit source]

Задача: Фармацевтична компания произвежда тест, за който се твърди че е надежден: ако пациентът е болен, този тест в 99% от случаите ще даде положителен резултат, а ако пациентът е здрав, в 99% от случаите тестът ще е отрицателен. Ако тази болест засяга 0,5% от населението, то каква е вероятността пациента да е болен, ако тестът е положителен?

Решение:

  • Означаваме с Pr(B) вероятността даден пациент да е болен, която според данните от задачата е равна на 0.005
  • Означаваме с Pr(Z) вероятността даден пациент да е здрав, която е очевидно 0.995
  • Означаваме с Pr(+|B) вероятността тестът да даде положителен резултат, ако пациентът е болен, т.е. 0.99
  • Означаваме с Pr(+|Z) вероятността тестът да даде положителен резултат, a пациентът да е здрав, т.е. 0.01
  • Означаваме с Pr(+) тестът да даде положителен резултат, независимо дали пациентът е болен или не
  • Търсената вероятност е Pr(B|+) т.е. вероятността пациентът да е болен, ако тестът е положителен

По теоремата на Бейс:

\Pr(B|+) = \frac{\Pr(+|B)\,\Pr(B)}{\Pr(+)}. \!

Вероятността Pr(+) е равна на вероятността тестът да е положителен, независимо дали пациентът е здрав или болен. Тази вероятност е равна на вероятността тестът да е положителен и пациентът да е болен, плюс вероятността тестът да е положителен, а пациентът да е здрав. Или:

\Pr(+) = \Pr(+ \cap B) + \Pr(+ \cap not B) \! (теорема)

Понеже

Z = not B \!

Следва

\Pr(+) = \Pr(+ \cap B) + \Pr(+ \cap Z) \!
\Pr(+) = \Pr(+|B)\Pr(B) + \Pr(+|Z)\Pr(Z) \!

Или търсената вероятност е:

\Pr(B|+) = \frac{\Pr(+|B)\,\Pr(B)}{\Pr(+|B)\Pr(B) + \Pr(+|Z)\Pr(Z)} \!
\Pr(B|+) = \frac{0.99\,\times \, 0.005}{0.99\,\times \, 0.005 + 0.01\, \times \, 0.995} \!

или в крайна сметка:

\Pr(B|+) = 0.33

Което означава, че вероятността даден пациент да е болен, ако тестът е положителен е само около 33%, което не е практично за нуждите на медицината, т.е. въпреки впечатляващите вероятности в условието, тестът е слаб. Това означава, че тестовете за болести следва да се произвеждат с точност, много по-голяма от 99%.

Анти-спам филтри[редактиране | edit source]

Съществуват анти-спам филтри за електронна поща, основаващи се на теоремата на Бейс. Тези програми изчисляват вероятността дадено електронно съобщение да е спам по следния начин:

\Pr(\mathrm{spam}|\mathrm{words}) = \frac{\Pr(\mathrm{words}|\mathrm{spam})\Pr(\mathrm{spam})}{\Pr(\mathrm{words})}

Където \Pr(\mathrm{spam}|\mathrm{words}) е вероятността дадено съобщение да е спам, при положение че съдържа определени думи и изрази в него, \Pr(\mathrm{words}|\mathrm{spam}) е вероятността тези думи или изрази да се съдържат в спам-съобщение, \Pr(\mathrm{spam}) е броят на спамовете към общия брой на съобщенията, т.е. вероятността всяко съобщение да е спам, а \Pr(\mathrm{words}) е вероятността тези думи да бъдат намерени в нормално електронно съобщение. Идеята е предложена за пръв път от английския програмист Пол Греъм.

Външни препратки[редактиране | edit source]

Криейтив Комънс - Признание - Споделяне на споделеното Лиценз за свободна документация на ГНУ Тази страница частично или изцяло представлява превод на страницата „Bayes' theorem“ в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс - Признание - Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година — от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите.