Matematické Fórum

MaxDJs · 16. 11. 2014 01:02

Zdravím,

mám v souboru uložené slova/věty, které se často vyskytují ve spam zprávách. Jaký je vzorec na výpočet pravděpodobnosti, že konkrétní zpráva je spam? Zkoušel jsem použít vzorec v 8. odstavci na stránce http://www.linuxexpres.cz/praxe/bayesuv-filtr-1 ale i když to má vracet hodnotu v intervalu <0;1>, tak mi to vrátilo hodnotu 1,25..... . Možná jsem špatně postupoval. Postupoval jsem tak, že:

1) jsem spočítal výskyt všech slov/vět, které se vyskytují ve spamu, v konkrétním emailu
2) vydělil jsem je počtem vět v emailu
3) a vložil to do toho vzorce

Možná jsem to špatně pochopil, protože tady (http://en.wikipedia.org/wiki/Bayes%27_theorem) jsem to nepochopil vůbec.

Děkuji za odpověď

Eratosthenes · 16. 11. 2014 16:19

ahoj ↑ MaxDJs:,

Asi jsi nějak špatně dosadil, protože Bayesův vzorec hodnotu před jedna vyhodit prostě nemůže. Asi by bylo nejlepší, kdybys svůj postup demonstroval na konkrétních číslech z konkrétního spamu.

MaxDJs · 17. 11. 2014 11:16

↑ Eratosthenes:

Tak už mi to pravděpodobně vyšlo. špatně jsem vypočítal jeden mezivýpočet.

Email má 82 slov.

V emailu se vyskytuje 1x jedno slovo.

Vyšla mi pravděpodobnost 0.73 podle tohoto vzorce:

$\frac{\frac{1}{0.82}}{\frac{1}{0.82}+(1-\frac{1}{0.82})}$

je to správně?

Děkuji za odpověď

Eratosthenes · 17. 11. 2014 16:21

↑ MaxDJs:

Ne, vyčíslíš-li svůj "vzorec", vyjde "pravděpodobnost" 1.22, což je nesmysl. Správně je

$\frac{0.82} {0.82+(1-0.82)}=0.82$

Takto je to sice teoreticky správně, ale prakticky k ničemu. Ty totiž nedřív řekneš: Zpráva, která obsahuje slovo "kvák", je s pravděpodobností 0.83 spam. A pak se ptáš, s jakou pravděpodobností je zpráva s jedním "kvákem" spam. Takže se ptáš na něco, u čeho už předem stanovil's výsledek.

Celá věc funguje jinak. Přečteš sto (lépe dve sta, třista...) zpráv, které obsahují slovo "kvák" a neobsahují slovo "žbluňk". Roztřídíš je dle svého uvážení na spamy a "nespamy". Podle toho přisoudíš slovu "kvák" pravděpodobnost (tedy nikoliv podle délky zprávy)

Nemá pak smysl ptát se, s jakou pravděpodobností je zpráva "Nazdar, Kváku" spamem. To už vyřešil's.

Stejně tak vezmeš sto (lépe dve sta, třista...) zpráv, které obsahují slovo "žbluňk" (a neobsahují "kvák") a roztřídíš je dle svého uvážení na spamy a "nespamy". Podle toho přisoudíš slovu "žbluňk" pravděpodobnost (tedy nikoliv podle délky zprávy).

Nemá pak smysl ptát se, s jakou pravděpodobností je zpráva "Nazdar, Žbluňku" spamem. To už vyřešil's.

Ale má smysl se ptát, s jakou pravděpodobností je spamem zpráva "Nazdar, Žbluňku, ty jseš pěknej Kvák!"

A od toho je tady Bayesův vzorec.

Matematické Fórum

#1 16. 11. 2014 01:02

Pravděpodobnost spamu

#2 16. 11. 2014 16:19

Re: Pravděpodobnost spamu

#3 17. 11. 2014 11:16

Re: Pravděpodobnost spamu

#4 17. 11. 2014 16:21

Re: Pravděpodobnost spamu

Zápatí