Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.
Nástěnka
❗22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
❗04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
❗23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.
Nejste přihlášen(a). Přihlásit
Stránky: 1
Ahoj všem,
dostal jsem téma semestrální práce ve statistice s názvem jak uvádí předmět. Napíšu upřímně, že mě statistika nebaví, ale na škole ji mám, takže je nutné ji splnit. Psal jsem učiteli, co přesně si představuje pod názvem této semestrální práce a dostalo se mi této odpovědi:
"Dobrý den
díval jsem se na tu zprávu. Tam bych si dovedl představit testování shody středních hodnot počtu nehod v jednotlivých měsících, regresní přímku vyjadřující počet km silnic v daném kraji a počet nehod v kraji. Nicméně téma jsem myslel trochu jinak. Myslel jsem, že si najdete data nehod v konkrétním okrese, konkrétní obci a silnici. A na takto shromážděných datech budete hledat např. charakteristiky náhodné veličiny: doba mezi nehodami nebo počet nehod v měsíci. Údaje jsou dohledatelné na Dopravní nehodě v mapě."
A já mám otázku otázku (otázky) na Vás... Příliš odpovědi nerozumím a není mi pořád moc jasné, co bych tedy měl počítat.
Děkuji za rady, já jsem zoufalý.
Offline
Ahoj. Pro testovani str hodnot muzes pouzit Anovu a zjistit jestli se prumerna nehodovost v mesicich od sebe lisi.
Regresni primku lze udelat i v excelu, kde zadas data do 2 sloupcu( nezavisle promenou- ty km a zavisle promenou- pocet tech nehod) zjistis odhad regresni primky, tohle udelas pro vice mesicu a muzes je nejak vzajemne porovnat spolu s r2((index determinace)viz excel a google)
Co se tyka charalteristik, tak to mas vice mene uz napsane, tedy treba aritmeticky prumer, median atd..
Offline
Creatives napsal(a):
Ahoj. Pro testovani str hodnot muzes pouzit Anovu a zjistit jestli se prumerna nehodovost v mesicich od sebe lisi.
Začal jsem řešit tuto analýzu, avšak mi není moc jasné (z příkladů a dokumentů, které jsem našel na Googlu), jak tuto metodu aplikovat na můj případ.
Posčítal jsem jednotlivé měsíce (vybral jsem pro semestrální práci konkrétní úsek silnice v období za rok 2012), takže tedy vím, do jaké míry se nehodovost liší. Nejsem moc moudrý, jak dál postupovat.
Inspiraci jsem hledal především zde Odkaz a zde Odkaz
Děkuji za vyjasnění.
Offline
↑ avalagne:
Možná by bylo dobré vzít těch úseků více, třeba úsek 1, 2, 3 (řádky) a sloupce by představovali počet nehod v jednotlivých měsících nebo naopak(třeba posuzovat roční období, abys neměl toho tolik). Do zpráv jsem ti poslal jeden vypočítaný příklad, snad ti pomůže.
Offline
↑ Creatives:
Ono se má podle zadání právě jednat o konkrétní úsek silnice. Mrknu se na to ve zprávách, děkuji :)
Offline
↑ Creatives:
Jojo, koukal jsem na nějaký příklady na Youtube a opravdu na to je v Excelu nástroj. Ovšem mám problém (nemířím tím pouze na tebe - Creatives).
Zde je obrázek:
Já jako vím, kde je problém, ale nevím, jak ho vyřešit. Všude používají data, kde jsou například 3 různá odvětví - sloupce (např. výzkum, vedení, účtárna) a k tomu více řádku (řekněme několik zaměstnanců v každém oddělení majících nějaký plat). Jak to ale aplikovat na můj příklad? Jde to vůbec? Já mám pouze 12 měsíců v roce a v každém měsíci určitou nehodovost.
Děkuji za trpělivost.
Offline
Tak můžeš rok rozdělit na 2 půlroky (nebo na roční období) a testovat jestli je mezi obdobími rozdíl v nehodovosti, a potom říct v kterých se to třeba liší(Tukeyho metoda) ale těch měření je fakt málo....
BTW: anova i dvouvýběrový t-test počítají s tím, že data pochází z norm. rozdělení a pro nehodovost to asi neplatí..asi.. nevím jak moc jste to ve škole řešili a co jste se učili.
Offline
↑ avalagne:
Máš k dispozici data z více let, nebo jenom z roku 2012?
Offline
↑ KennyMcCormick:
Data by k dispozici byli... Proč? :) Jinak stejně mi to nějak špatně počítá i s tím rozdělením na čtvrtletí... :(
Ještě mám dotaz ohledně regresní přímky - to bych měl tedy zase vzít třeba data za posledních 5 let (třeba 2007-2012) a pro to udělat závislost počet km v kraji vs. počet nehod v kraji... Chápu to tak dobře?
Děkuji Vám za pomoc.
Offline
↑ avalagne:
Psal si, že máš jenom data pro rok 2012.. Tak porovnávej měsíce nebo čtvrtletí v jednotlivých letech. Jaro 2010, jaro 2011 jaro 2012 atd...
Pro regresní přímku by si měl použit stejné období co máš pro anovu, aby to mělo trochu smysl. Jinak to chápeš dobře. Měla by jít pěkně vidět lineární závislost, čím více silnic, tím více nehod. Snad. Jde o to, že z dat vytvoříš graf, na kterém budou pouze body a pomocí regresní analýzy vytvoříš funkci (lineární) která bude přibližně body protínat a bude pravděpodobně nejbližším odhadem, od skutečných hodnot.
Offline
anova i dvouvýběrový t-test počítají s tím, že data pochází z norm. rozdělení a pro nehodovost to asi neplatí..asi..
Správně, neplatí to, nehodovost má Poissonovo rozdělení, v tomhle případě každý měsíc má
, tj. nemůžeme aproximovat normálním rozdělením.
↑ avalagne:
Data by k dispozici byli... Proč? :) Jinak stejně mi to nějak špatně počítá i s tím rozdělením na čtvrtletí... :(
Čím více dat, tím vyšší šance smysluplného statistického vyhodnocení. Pokud se data v jednotlivých letech za každý měsíc nezvyšují/nesnižují, můžeš sečíst nehody ve všech lednech, nehody ve všech únorech, atd. Tím získáš mnohem větší datový vzorek. Je lepší dělat statistické testy na větším množství dat než na menším množství dat.
Na čtvrtletí to neděl, pokud chceš testovat jednotlivé měsíce, a ne jednotlivá čtvrtletí.
Místo ANOVy udělej nějaký parametrický test pro Poissonovo rozdělení, např. http://sankhya.isical.ac.in/search/64a3/64a3037.pdf.
Ještě mám dotaz ohledně regresní přímky - to bych měl tedy zase vzít třeba data za posledních 5 let (třeba 2007-2012)
Vezmi data ze všech let, která máš k dispozici.
EDIT: Jestli počet nehod v každém roce v čase vzrůstá, nezapomeň to zohlednit při výpočtu té regresní přímky.
Offline
↑ Creatives:
Psal jsem to proto, že jsem si myslel, že to dostačuje. Data mám od roku 2007 po rok 2012 (nějakých 267 nehod na vybraném úseku silnice)... Nehody jsem si všechny už sepsal do Excelu, bohužel nemají žádný export dat, tak to celkem trvalo.
↑ KennyMcCormick:
Díky za rady. Mrknu se na to ještě dnes. Napíšu až to budu mít celkově "připravený", zda všemu, co jste tu psali, rozumím.
Děkuji vám.
Offline
↑↑ KennyMcCormick: Je ten parametrický test, co máte na mysli to samé, co zde na str. 104? http://www.pf.jcu.cz/stru/katedry/m/petrasekstat.pdf
Místo ANOVy udělej nějaký parametrický test pro Poissonovo rozdělení, např. http://sankhya.isical.ac.in/search/64a3/64a3037.pdf.
Jen nemůžu pochopit toto:
Do první třídy se zařadí ty veličiny, které jsou menší
nebo rovny nějakému číslu r. Další třídy jsou postupně tvořeny samostatnými
hodnotami r+1, r+2, . . . , r + k − 2 . Poslední třída obsahuje hodnoty větší
nebo rovné číslu r +k-1. Tím je vytvořeno k tříd, kde k ≥ 3 a jejichž četnosti
označíme Xr , Xr+1, . . . , Xr+k−1."
Děkuji.
Offline
↑ avalagne:
Tykej mi...
avalagne napsal(a):
↑↑ KennyMcCormick: Je ten parametrický test, co máte na mysli to samé, co zde na str. 104? http://www.pf.jcu.cz/stru/katedry/m/petrasekstat.pdf
Ne, je to něco jiného.
test dobré shody je neparametrický, tj. jeho statistická "síla" (power) je nižší. Ale napadlo mě, že ten test, který jsem ti nalinkoval, by ti učitel nemusel uznat, pokud jste ho neprobírali.
Jestli máš k dispozici data z
let a zároveň jednotlivé měsíce mají stejný rozptyl, udělej ANOVu. Ale jestli jedna z těchto dvou podmínek neplatí, ANOVu bys dělat neměl.
V tom případě můžeš udělat ten
test. Nulová a alternativní hypotéza budou
.
Sečti všechny nehody ve všech lednech a výsledek označ
.
Součet všech nehod ve všech únorech označ
.
Atd...
Součet všech nehod ve všech prosincích označ
.
Očekávaná hodnota pro
test bude
.
Jestli
, sluč všechny nehody v lednech + všechny nehody v únorech do stejné kategorie.
Totéž udělej s březnem + lednem.
Atd.
Listopad a prosinec už můžeš nechat samostatně.
Jestli
, můžeš to nechat rozdělené na jednotlivé měsíce a spočítat testovou statistiku rovnou jako
.
Nulovou hypotézu
zamítneme na 95% hladině jistoty, pokud
.
Tzn. nulovou hypotézu
zamítneme, pokud
.
Je to srozumitelný?
(Kdyby
, byl by jiný počet kategorií a musel bys znovu přepočítat
a testová statistika i referenční
hodnota by byly jiné.)
Offline
OK, budu tykat :) Omlouvám se, za pozdní odpověď, ale práce, škola a rodina je teď nějak časově náročná.
Data jsou v dopravní mapě nehod evidována od 1.1.2007, takže 30 let bohužel nebudu mít. Mám v období od 1.1.2007 do 31.12.2012 cca 270 nehod evidovaných... Z těch musím vycházet. Co se týče různých metod výpočtů apod., myslím si, že je to učiteli jedno, jakou cestu zvolím, jde mu o jejich správně využití a účelnost na daném příkladě. V tomhle je to poměrně volné.
Mám tedy pokračovat touto cestou, jestli jsem to pochopil správně:
KennyMcCormick napsal(a):
↑ avalagne:
V tom případě můžeš udělat tentest. Nulová a alternativní hypotéza budou
Je to tak?
Děkuji
Offline
Tak jsem to spočítal takto:
Jediné, co nevím, jak jsi spočítal, je toto: 
Děkuji za kontrolu.
EDIT:
Další, co jsem řešil je regresní přímka. Udělal jsem ji však samostatně pro "počet nehod v kraji" a "počet km v kraji".
Je to tak správně?
Výsledek zde:
Děkuji za ochotu mrknout na to.
Offline
avalagne napsal(a):
Mám tedy pokračovat touto cestou, jestli jsem to pochopil správně:
KennyMcCormick napsal(a):
↑ avalagne:
V tom případě můžeš udělat tentest. Nulová a alternativní hypotéza budou
Je to tak?
Děkuji
Ano, můžeš udělat
test, i když je neparametrický. Ani ten parametrický test, který jsem tu linkoval předtím, by (v tomto případě) nezamítl nulovou hypotézu, takže na tom nezáleží.
Tak jsem to spočítal takto:
Správně.
Protože 10,35<19,68, závěr zní, že nulovou hypotézu
nemůžeme zamítnout (
), tj. v každém měsíci dochází k průměrně stejnému počtu nehod.
Jediné, co nevím, jak jsi spočítal, je toto:
To si najdeš v tabulkách.
Je to referenční hodnota
rozdělení pro 12-1=11 stupňů volnosti (protože máme 12 měsíců) a
(protože je zvykem používat úroveň významnosti 5%).
Další, co jsem řešil je regresní přímka. Udělal jsem ji však samostatně pro "počet nehod v kraji" a "počet km v kraji".
Je to tak správně?
Já nevím. Učitel ti napsal, že bys mohl udělat regresní přímku vyjadřující počet km silnic v daném kraji a počet nehod v kraji, takže bych asi udělal závislost počtu nehod na počtu km. Buď to můžeš naklikat v Excelu, nebo to spočítat vzorcem. Výsledek bude cca
, kde
je počet nehod a
je počet km v kraji.
Napiš, že tento lineární model není vhodný, protože pro
by se počet nehod stal záporným.
Je to všechno srozumitelný?
Offline
↑ KennyMcCormick:
K
testu - moc ti děkuji za přesné vysvětlení, není co dodat.
Ohledně regresní přímky - tedy takto? Upřímně pak ale nechápu některé hodnoty z ANOVY a Rezidua. Ale to se najdu na Googlu.
Není tak regresní přímka ale moc přesná, ale data jsou bohužel opravdu takhle "různá".
Offline
K
testu - moc ti děkuji za přesné vysvětlení, není co dodat.
Nemáš zač. :-)
Ohledně regresní přímky - tedy takto?
To nevím, možná to učitel myslel jinak. Jestli máš možnost položit mu doplňující otázku, asi by byl dobrý nápad se ho zeptat.
Ještě mohl chtít 2 regresní přímky v závislosti na více ostatních proměnných, nebo počet nehod v závislosti na více proměnných... Připadá mi, že ti to nenapsal úplně srozumitelně.
Upřímně pak ale nechápu některé hodnoty z ANOVY a Rezidua.
Které hodnoty?
EDIT: Znovu jsem si přečetl tvůj první komentář a možná by byl dobrý nápad udělat regresní přímku počtu nehod v každém měsíci v závislosti na ostatních proměnných.
Offline
To nevím, možná to učitel myslel jinak. Jestli máš možnost položit mu doplňující otázku, asi by byl dobrý nápad se ho zeptat.
Ještě mohl chtít 2 regresní přímky v závislosti na více ostatních proměnných, nebo počet nehod v závislosti na více proměnných... Připadá mi, že ti to nenapsal úplně srozumitelně.
Zeptat se můžu jedině po mailu...
Které hodnoty?
Reziduum a pak chyba střední hodnoty... Nevycházelo mi to, teď už je to ale v pořádku.
EDIT: Znovu jsem si přečetl tvůj první komentář a možná by byl dobrý nápad udělat regresní přímku počtu nehod v každém měsíci v závislosti na ostatních proměnných.
Já si četl znova jeho mail a chápu to tak, že to mají být spíše dvě regresní přímky.
Jak to myslíš toto prosím?
v závislosti na ostatních proměnných
Jinak můžu mu napsat ten mail, ale musím si nejprve ujasnit, co vše od něj potřebuju vyzjistit.
Offline
Jak to myslíš toto prosím?
KennyMcCormick napsal(a):
v závislosti na ostatních proměnných
To jsem myslel jako regresní přímku ve tvaru
, kde
by byl počet nehod,
by byl počet km silnic v kraji,
by byl rok a
by byly nějaké reálné konstanty. (Za předpokladu, že proměnné
i
by se ukázaly být statisticky významnými.)
Já si četl znova jeho mail a chápu to tak, že to mají být spíše dvě regresní přímky.
OK.
Offline
Stránky: 1