Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.
Nástěnka
❗22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
❗04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
❗23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.
Nejste přihlášen(a). Přihlásit
Ahoj,
zajímám se o rozdíl mezi 99,7 percentilem a 3 sigma. 3 sigma by měla pokrýt 99,7 % hodnot.
Chtěl bych požádat o vysvětlení rozdílu na následujícím příkladu. Je to udělané v Octave.
x = [1.1 2.4 3.6 4.2 5.3 5.5 6.7 7.8 8.3 9.6];
q997 = prctile (x, p997)
mu = mean(x)
s = std(x)
Střední hodnota je mu = 5,45, odchýlka s = 2,7, ro znamená že 3 sigma bude 13,553. 99,7 percentil je 9,6.
Proč je tam rozdíl, když by to mělo pokrývat 99,7 % hodnot? Která hodnota je správná když chci pokrýt 99,7 % případů? I když vygeneruju náhodná čísla v Octave, nemění se ten rozdíl mezi percentilem a 3sigma.
Hezký den
Michal
Offline
↑ Zeck:↑ Brano:
... navíc tady máme rostoucí posloupnost, takže i kdyby to nakrásně bylo z normálního rozložení, tak to určitě není náhodný výběr :-)
Offline
↑ Eratosthenes:
to by mohol byt usporiadany subor; to je vzdy povinna sucast pocitania kvantilov
Offline
Ještě může být problém v tom, co vlastně počítá ta funkce std().
Obecně není možné z nějakého malého počtu vzorků (10 např) tu sigmu určit, a nejlepší odhad je ta výběrová směrodatná odchylka
[mathjax]s = \sqrt{\frac{1}{N-1}\sum_{1}^{N}} (x_i - \overline{x})^2[/mathjax]
Je tam to (N-1). Pro velká N to dává téměř shodný výsledek jako kdyby tam bylo rovnou N, ale pro malá N je už rozdíl docela velký.
No a pak (jak už někdo zmínil) může být problém v tom, že tvá náhodná čísla nesplňují Gaussovo normální rozdělení.
A obecně, když chceš dělat tyhle experimenty, tak bys těch čísel měl mít tak tisíc aspoň, a né deset.
Ty statistické vlastnosti se projevují tím lépe, čím je čísel více, nejde to ovšem lineárně, ale jen s odmocninou z počtu. Takže když čísel bude 100x více, tak jejich průměr bude "lepší" jen 10x.
Na deseti číslech se ani nedá poznat, jestli vůbec splňují nějaké rozdělení. Selským rozumem mi to spíš připadá jako rovnoměrné.
Vem si, že když chceš najít nějaká čísla, jejichž pravděpodobnost je menší ne 1-0.997, tak z tisícovky budou tak 3. Takže by to chtělo spíš tak 100 000 čísel, abys těch mimo interval měl aspoň pár set. Navíc se z nich pak dá udělat histogram a kouknout, jestli aspoň zhruba splňují to gaussovo rozdělení.
Offline
Ještě je taky možnost, že to počítá tu směrodatnou odchylku správně (tím vzorcem s N-1), ale nepočítá to správně ten percentil. Přesněji řečeno, počítá ho to jen z těch hodnot, které jsi tomu zadal. Nesnaží se to aproximovat gaussovým rozložením.
A proč by taky mělo? Percentil s tím nijak nesouvisí, a směrodatná odchylka taky né. Akorát tvůj vztah [mathjax]3 \sigma \sim 99.7%[/mathjax] se týká jen Gaussova rozdělení.
Což mi připomíná nějaký článek odněkud z netu, proč se na všechno používá Gaussovo rozdělení, když existují i jiná. A odpověď zněla, že zřejmě fyzikové předpokládají, že matematici dokázali univerzální platnost Gaussova rozdělení teoreticky, a matematici zase předpokládají, že to fyzikové dokázali experimentálně.
Offline
Pro Normální rozdělení platí:
P(mí - 3*sigma < X < mí + 3*sigma)=0,996=99,6%
mí je střední hodnota.
Odhady parametrů se nemusí rovnat skutečné hodnotě (kterou neznáme)
Také nevíme jistě, zda data pochází z Normálního rozdělení.
Offline