Matematické Fórum

Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.

Nástěnka
22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.

Nejste přihlášen(a). Přihlásit

#1 16. 11. 2014 01:02

MaxDJs
Příspěvky: 144
Škola: FEL ČVUT
Pozice: student
Reputace:   
 

Pravděpodobnost spamu

Zdravím,

mám v souboru uložené slova/věty, které se často vyskytují ve spam zprávách. Jaký je vzorec na výpočet pravděpodobnosti, že konkrétní zpráva je spam? Zkoušel jsem použít vzorec v 8. odstavci na stránce http://www.linuxexpres.cz/praxe/bayesuv-filtr-1 ale i když to má vracet hodnotu v intervalu <0;1>, tak mi to vrátilo hodnotu 1,25..... . Možná jsem špatně postupoval. Postupoval jsem tak, že:

1)  jsem spočítal výskyt všech slov/vět, které se vyskytují ve spamu, v konkrétním emailu
2) vydělil jsem je počtem vět v emailu
3) a vložil to do toho vzorce

Možná jsem to špatně pochopil, protože tady (http://en.wikipedia.org/wiki/Bayes%27_theorem) jsem to nepochopil vůbec.

Děkuji za odpověď

Offline

 

#2 16. 11. 2014 16:19

Eratosthenes
Příspěvky: 3111
Reputace:   140 
 

Re: Pravděpodobnost spamu

ahoj ↑ MaxDJs:,

Asi jsi nějak špatně dosadil, protože Bayesův vzorec hodnotu před jedna vyhodit prostě nemůže. Asi by bylo nejlepší, kdybys svůj postup demonstroval na konkrétních číslech z konkrétního spamu.


Budoucnost patří aluminiu.

Offline

 

#3 17. 11. 2014 11:16

MaxDJs
Příspěvky: 144
Škola: FEL ČVUT
Pozice: student
Reputace:   
 

Re: Pravděpodobnost spamu

↑ Eratosthenes:

Tak už mi to pravděpodobně vyšlo. špatně jsem vypočítal jeden mezivýpočet.

Email má 82 slov.

V emailu se vyskytuje 1x jedno slovo.

Vyšla mi pravděpodobnost 0.73 podle tohoto vzorce:

$\frac{\frac{1}{0.82}}{\frac{1}{0.82}+(1-\frac{1}{0.82})}$

je to správně?

Děkuji za odpověď

Offline

 

#4 17. 11. 2014 16:21

Eratosthenes
Příspěvky: 3111
Reputace:   140 
 

Re: Pravděpodobnost spamu

↑ MaxDJs:

Ne, vyčíslíš-li svůj "vzorec", vyjde "pravděpodobnost" 1.22, což je nesmysl. Správně je

$\frac{0.82} {0.82+(1-0.82)}=0.82$

Takto je to sice teoreticky správně, ale prakticky k ničemu. Ty totiž nedřív řekneš: Zpráva, která obsahuje slovo "kvák", je s pravděpodobností 0.83 spam. A pak se ptáš, s jakou pravděpodobností je zpráva s jedním "kvákem" spam. Takže se ptáš na něco, u čeho už předem stanovil's výsledek.

Celá věc funguje jinak. Přečteš sto (lépe dve sta, třista...) zpráv, které obsahují slovo "kvák" a neobsahují slovo "žbluňk". Roztřídíš je dle svého uvážení na spamy a "nespamy". Podle toho přisoudíš slovu "kvák" pravděpodobnost (tedy nikoliv podle délky zprávy)

Nemá pak smysl ptát se, s jakou pravděpodobností je zpráva "Nazdar, Kváku" spamem. To už vyřešil's.

Stejně tak vezmeš  sto (lépe dve sta, třista...) zpráv, které obsahují slovo "žbluňk" (a neobsahují "kvák") a roztřídíš je dle svého uvážení na spamy a "nespamy". Podle toho přisoudíš slovu "žbluňk" pravděpodobnost (tedy nikoliv podle délky zprávy).

Nemá pak smysl ptát se, s jakou pravděpodobností je zpráva "Nazdar, Žbluňku" spamem. To už vyřešil's.

Ale má smysl se ptát, s jakou pravděpodobností je spamem zpráva "Nazdar, Žbluňku, ty jseš pěknej Kvák!"

A od toho je tady Bayesův vzorec.


Budoucnost patří aluminiu.

Offline

 

Zápatí

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson