Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.
Nástěnka
❗22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
❗04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
❗23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.
Nejste přihlášen(a). Přihlásit
Zdravím,
mám v souboru uložené slova/věty, které se často vyskytují ve spam zprávách. Jaký je vzorec na výpočet pravděpodobnosti, že konkrétní zpráva je spam? Zkoušel jsem použít vzorec v 8. odstavci na stránce http://www.linuxexpres.cz/praxe/bayesuv-filtr-1 ale i když to má vracet hodnotu v intervalu <0;1>, tak mi to vrátilo hodnotu 1,25..... . Možná jsem špatně postupoval. Postupoval jsem tak, že:
1) jsem spočítal výskyt všech slov/vět, které se vyskytují ve spamu, v konkrétním emailu
2) vydělil jsem je počtem vět v emailu
3) a vložil to do toho vzorce
Možná jsem to špatně pochopil, protože tady (http://en.wikipedia.org/wiki/Bayes%27_theorem) jsem to nepochopil vůbec.
Děkuji za odpověď
Offline
ahoj ↑ MaxDJs:,
Asi jsi nějak špatně dosadil, protože Bayesův vzorec hodnotu před jedna vyhodit prostě nemůže. Asi by bylo nejlepší, kdybys svůj postup demonstroval na konkrétních číslech z konkrétního spamu.
Offline
↑ Eratosthenes:
Tak už mi to pravděpodobně vyšlo. špatně jsem vypočítal jeden mezivýpočet.
Email má 82 slov.
V emailu se vyskytuje 1x jedno slovo.
Vyšla mi pravděpodobnost 0.73 podle tohoto vzorce:
je to správně?
Děkuji za odpověď
Offline
↑ MaxDJs:
Ne, vyčíslíš-li svůj "vzorec", vyjde "pravděpodobnost" 1.22, což je nesmysl. Správně je
Takto je to sice teoreticky správně, ale prakticky k ničemu. Ty totiž nedřív řekneš: Zpráva, která obsahuje slovo "kvák", je s pravděpodobností 0.83 spam. A pak se ptáš, s jakou pravděpodobností je zpráva s jedním "kvákem" spam. Takže se ptáš na něco, u čeho už předem stanovil's výsledek.
Celá věc funguje jinak. Přečteš sto (lépe dve sta, třista...) zpráv, které obsahují slovo "kvák" a neobsahují slovo "žbluňk". Roztřídíš je dle svého uvážení na spamy a "nespamy". Podle toho přisoudíš slovu "kvák" pravděpodobnost (tedy nikoliv podle délky zprávy)
Nemá pak smysl ptát se, s jakou pravděpodobností je zpráva "Nazdar, Kváku" spamem. To už vyřešil's.
Stejně tak vezmeš sto (lépe dve sta, třista...) zpráv, které obsahují slovo "žbluňk" (a neobsahují "kvák") a roztřídíš je dle svého uvážení na spamy a "nespamy". Podle toho přisoudíš slovu "žbluňk" pravděpodobnost (tedy nikoliv podle délky zprávy).
Nemá pak smysl ptát se, s jakou pravděpodobností je zpráva "Nazdar, Žbluňku" spamem. To už vyřešil's.
Ale má smysl se ptát, s jakou pravděpodobností je spamem zpráva "Nazdar, Žbluňku, ty jseš pěknej Kvák!"
A od toho je tady Bayesův vzorec.
Offline