Matematické Fórum

avalagne · 01. 01. 2014 18:19

Ahoj všem,
dostal jsem téma semestrální práce ve statistice s názvem jak uvádí předmět. Napíšu upřímně, že mě statistika nebaví, ale na škole ji mám, takže je nutné ji splnit. Psal jsem učiteli, co přesně si představuje pod názvem této semestrální práce a dostalo se mi této odpovědi:

"Dobrý den
díval jsem se na tu zprávu. Tam bych si dovedl představit testování shody středních hodnot počtu nehod v jednotlivých měsících, regresní přímku vyjadřující počet km silnic v daném kraji a počet nehod v kraji. Nicméně téma jsem myslel trochu jinak. Myslel jsem, že si najdete data nehod v konkrétním okrese, konkrétní obci a silnici. A na takto shromážděných datech budete hledat např. charakteristiky náhodné veličiny: doba mezi nehodami nebo počet nehod v měsíci. Údaje jsou dohledatelné na Dopravní nehodě v mapě."

A já mám otázku otázku (otázky) na Vás... Příliš odpovědi nerozumím a není mi pořád moc jasné, co bych tedy měl počítat.

Děkuji za rady, já jsem zoufalý.

Creatives

Ahoj. Pro testovani str hodnot muzes pouzit Anovu a zjistit jestli se prumerna nehodovost v mesicich od sebe lisi.

Regresni primku lze udelat i v excelu, kde zadas data do 2 sloupcu( nezavisle promenou- ty km a zavisle promenou- pocet tech nehod) zjistis odhad regresni primky, tohle udelas pro vice mesicu a muzes je nejak vzajemne porovnat spolu s r2((index determinace)viz excel a google)

Co se tyka charalteristik, tak to mas vice mene uz napsane, tedy treba aritmeticky prumer, median atd..

avalagne · 01. 01. 2014 18:40

Děkuji za velice rychlou odpověď. Mrknu se na to :)

avalagne · 01. 01. 2014 20:52

Creatives napsal(a):
Ahoj. Pro testovani str hodnot muzes pouzit Anovu a zjistit jestli se prumerna nehodovost v mesicich od sebe lisi.

Začal jsem řešit tuto analýzu, avšak mi není moc jasné (z příkladů a dokumentů, které jsem našel na Googlu), jak tuto metodu aplikovat na můj případ.

Posčítal jsem jednotlivé měsíce (vybral jsem pro semestrální práci konkrétní úsek silnice v období za rok 2012), takže tedy vím, do jaké míry se nehodovost liší. Nejsem moc moudrý, jak dál postupovat.
Inspiraci jsem hledal především zde Odkaz a zde Odkaz

Děkuji za vyjasnění.

Creatives

↑ avalagne:
Možná by bylo dobré vzít těch úseků více, třeba úsek 1, 2, 3 (řádky) a sloupce by představovali počet nehod v jednotlivých měsících nebo naopak(třeba posuzovat roční období, abys neměl toho tolik). Do zpráv jsem ti poslal jeden vypočítaný příklad, snad ti pomůže.

avalagne · 01. 01. 2014 21:14

↑ Creatives:
Ono se má podle zadání právě jednat o konkrétní úsek silnice. Mrknu se na to ve zprávách, děkuji :)

Creatives · 01. 01. 2014 21:19

Anova jde i v excelu, ale s tím ti neporadím

avalagne · 01. 01. 2014 22:24

↑ Creatives:
Jojo, koukal jsem na nějaký příklady na Youtube a opravdu na to je v Excelu nástroj. Ovšem mám problém (nemířím tím pouze na tebe - Creatives).

Zde je obrázek:
//forum.matweb.cz/upload3/img/2014-01/11331_Anova.png

Já jako vím, kde je problém, ale nevím, jak ho vyřešit. Všude používají data, kde jsou například 3 různá odvětví - sloupce (např. výzkum, vedení, účtárna) a k tomu více řádku (řekněme několik zaměstnanců v každém oddělení majících nějaký plat). Jak to ale aplikovat na můj příklad? Jde to vůbec? Já mám pouze 12 měsíců v roce a v každém měsíci určitou nehodovost.

Děkuji za trpělivost.

Creatives

Tak můžeš rok rozdělit na 2 půlroky (nebo na roční období) a testovat jestli je mezi obdobími rozdíl v nehodovosti, a potom říct v kterých se to třeba liší(Tukeyho metoda) ale těch měření je fakt málo....

BTW: anova i dvouvýběrový t-test počítají s tím, že data pochází z norm. rozdělení a pro nehodovost to asi neplatí..asi.. nevím jak moc jste to ve škole řešili a co jste se učili.

KennyMcCormick · 02. 01. 2014 11:12

↑ avalagne:
Máš k dispozici data z více let, nebo jenom z roku 2012?

avalagne · 02. 01. 2014 17:21

↑ KennyMcCormick:
Data by k dispozici byli... Proč? :) Jinak stejně mi to nějak špatně počítá i s tím rozdělením na čtvrtletí... :(
Ještě mám dotaz ohledně regresní přímky - to bych měl tedy zase vzít třeba data za posledních 5 let (třeba 2007-2012) a pro to udělat závislost počet km v kraji vs. počet nehod v kraji... Chápu to tak dobře?

Děkuji Vám za pomoc.

Creatives

↑ avalagne:
Psal si, že máš jenom data pro rok 2012.. Tak porovnávej měsíce nebo čtvrtletí v jednotlivých letech. Jaro 2010, jaro 2011 jaro 2012 atd...

Pro regresní přímku by si měl použit stejné období co máš pro anovu, aby to mělo trochu smysl. Jinak to chápeš dobře. Měla by jít pěkně vidět lineární závislost, čím více silnic, tím více nehod. Snad. Jde o to, že z dat vytvoříš graf, na kterém budou pouze body a pomocí regresní analýzy vytvoříš funkci (lineární) která bude přibližně body protínat a bude pravděpodobně nejbližším odhadem, od skutečných hodnot.

KennyMcCormick

↑ Creatives:

anova i dvouvýběrový t-test počítají s tím, že data pochází z norm. rozdělení a pro nehodovost to asi neplatí..asi..

Správně, neplatí to, nehodovost má Poissonovo rozdělení, v tomhle případě každý měsíc má $\hat\lambda\leq10$ , tj. nemůžeme aproximovat normálním rozdělením.

↑ avalagne:

Data by k dispozici byli... Proč? :) Jinak stejně mi to nějak špatně počítá i s tím rozdělením na čtvrtletí... :(

Čím více dat, tím vyšší šance smysluplného statistického vyhodnocení. Pokud se data v jednotlivých letech za každý měsíc nezvyšují/nesnižují, můžeš sečíst nehody ve všech lednech, nehody ve všech únorech, atd. Tím získáš mnohem větší datový vzorek. Je lepší dělat statistické testy na větším množství dat než na menším množství dat.

Na čtvrtletí to neděl, pokud chceš testovat jednotlivé měsíce, a ne jednotlivá čtvrtletí.

Místo ANOVy udělej nějaký parametrický test pro Poissonovo rozdělení, např. http://sankhya.isical.ac.in/search/64a3/64a3037.pdf.

Ještě mám dotaz ohledně regresní přímky - to bych měl tedy zase vzít třeba data za posledních 5 let (třeba 2007-2012)

Vezmi data ze všech let, která máš k dispozici.

EDIT: Jestli počet nehod v každém roce v čase vzrůstá, nezapomeň to zohlednit při výpočtu té regresní přímky.

avalagne · 03. 01. 2014 20:05

↑ Creatives:
Psal jsem to proto, že jsem si myslel, že to dostačuje. Data mám od roku 2007 po rok 2012 (nějakých 267 nehod na vybraném úseku silnice)... Nehody jsem si všechny už sepsal do Excelu, bohužel nemají žádný export dat, tak to celkem trvalo.

↑ KennyMcCormick:
Díky za rady. Mrknu se na to ještě dnes. Napíšu až to budu mít celkově "připravený", zda všemu, co jste tu psali, rozumím.

Děkuji vám.

avalagne · 03. 01. 2014 22:19

↑↑ KennyMcCormick: Je ten parametrický test, co máte na mysli to samé, co zde na str. 104? http://www.pf.jcu.cz/stru/katedry/m/petrasekstat.pdf

Místo ANOVy udělej nějaký parametrický test pro Poissonovo rozdělení, např. http://sankhya.isical.ac.in/search/64a3/64a3037.pdf.

Jen nemůžu pochopit toto:

Do první třídy se zařadí ty veličiny, které jsou menší
nebo rovny nějakému číslu r. Další třídy jsou postupně tvořeny samostatnými
hodnotami r+1, r+2, . . . , r + k − 2 . Poslední třída obsahuje hodnoty větší
nebo rovné číslu r +k-1. Tím je vytvořeno k tříd, kde k ≥ 3 a jejichž četnosti
označíme Xr , Xr+1, . . . , Xr+k−1."

Děkuji.

Creatives

To neni on. To mas jenom test, ktery testuje zda li data pochazi z poissonova rozdeleni.

KennyMcCormick

↑ avalagne:
Tykej mi...

avalagne napsal(a):
↑↑ KennyMcCormick: Je ten parametrický test, co máte na mysli to samé, co zde na str. 104? http://www.pf.jcu.cz/stru/katedry/m/petrasekstat.pdf

Ne, je to něco jiného. $\chi^2$ test dobré shody je neparametrický, tj. jeho statistická "síla" (power) je nižší. Ale napadlo mě, že ten test, který jsem ti nalinkoval, by ti učitel nemusel uznat, pokud jste ho neprobírali.

Jestli máš k dispozici data z $>30$ let a zároveň jednotlivé měsíce mají stejný rozptyl, udělej ANOVu. Ale jestli jedna z těchto dvou podmínek neplatí, ANOVu bys dělat neměl.

V tom případě můžeš udělat ten $\chi^2$ test. Nulová a alternativní hypotéza budou
$H_0:\forall i,j:\lambda_i=\lambda_j$
$H_a:\exists i,j:\lambda_i\neq\lambda_j$ .

Sečti všechny nehody ve všech lednech a výsledek označ $O_1$ .

Součet všech nehod ve všech únorech označ $O_2$ .

Atd...

Součet všech nehod ve všech prosincích označ $O_{12}$ .

Očekávaná hodnota pro $\chi^2$ test bude
$E=\frac1{12}\sum_{i=1}^{12}O_i$ .

Jestli $E<5$ , sluč všechny nehody v lednech + všechny nehody v únorech do stejné kategorie.

Totéž udělej s březnem + lednem.

Atd.

Listopad a prosinec už můžeš nechat samostatně.

Jestli $E\geq5$ , můžeš to nechat rozdělené na jednotlivé měsíce a spočítat testovou statistiku rovnou jako
$\chi^2=\sum_{i=1}^{12}\frac{(O_i-E)^2}{E}$ .

Nulovou hypotézu $H_0$ zamítneme na 95% hladině jistoty, pokud $\chi^2\geq\chi^2_{12-1,\alpha}$ .

$\chi^2_{12-1,\alpha}=\chi^2_{11;0,05}=19,68$

Tzn. nulovou hypotézu $H_0$ zamítneme, pokud $\chi^2\geq19,68$ .

Je to srozumitelný?

(Kdyby $E<5$ , byl by jiný počet kategorií a musel bys znovu přepočítat $E$ a testová statistika i referenční $\chi^2$ hodnota by byly jiné.)

avalagne · 05. 01. 2014 14:40

OK, budu tykat :) Omlouvám se, za pozdní odpověď, ale práce, škola a rodina je teď nějak časově náročná.
Data jsou v dopravní mapě nehod evidována od 1.1.2007, takže 30 let bohužel nebudu mít. Mám v období od 1.1.2007 do 31.12.2012 cca 270 nehod evidovaných... Z těch musím vycházet. Co se týče různých metod výpočtů apod., myslím si, že je to učiteli jedno, jakou cestu zvolím, jde mu o jejich správně využití a účelnost na daném příkladě. V tomhle je to poměrně volné.
Mám tedy pokračovat touto cestou, jestli jsem to pochopil správně:

KennyMcCormick napsal(a):
↑ avalagne:
V tom případě můžeš udělat ten $\chi^2$ test. Nulová a alternativní hypotéza budou

Je to tak?

Děkuji

avalagne

Tak jsem to spočítal takto:
//forum.matweb.cz/upload3/img/2014-01/33619_Statistika.png
Jediné, co nevím, jak jsi spočítal, je toto: $\chi^2_{12-1,\alpha}=\chi^2_{11;0,05}=19,68$

Děkuji za kontrolu.

EDIT:
Další, co jsem řešil je regresní přímka. Udělal jsem ji však samostatně pro "počet nehod v kraji" a "počet km v kraji".
Je to tak správně?

Výsledek zde:
//forum.matweb.cz/upload3/img/2014-01/38419_Statistika%2B2.png

Děkuji za ochotu mrknout na to.

KennyMcCormick

avalagne napsal(a):
Mám tedy pokračovat touto cestou, jestli jsem to pochopil správně:

KennyMcCormick napsal(a):
↑ avalagne:
V tom případě můžeš udělat ten $\chi^2$ test. Nulová a alternativní hypotéza budou
Je to tak?

Děkuji

Ano, můžeš udělat $\chi^2$ test, i když je neparametrický. Ani ten parametrický test, který jsem tu linkoval předtím, by (v tomto případě) nezamítl nulovou hypotézu, takže na tom nezáleží.

Tak jsem to spočítal takto:

Správně.
Protože 10,35<19,68, závěr zní, že nulovou hypotézu $H_0$ nemůžeme zamítnout ( $p>0,05$ ), tj. v každém měsíci dochází k průměrně stejnému počtu nehod.

Jediné, co nevím, jak jsi spočítal, je toto: $\chi^2_{12-1,\alpha}=\chi^2_{11;0,05}=19,68$

To si najdeš v tabulkách.

Je to referenční hodnota $\chi^2$ rozdělení pro 12-1=11 stupňů volnosti (protože máme 12 měsíců) a $\alpha=0,05$ (protože je zvykem používat úroveň významnosti 5%).

Další, co jsem řešil je regresní přímka. Udělal jsem ji však samostatně pro "počet nehod v kraji" a "počet km v kraji".
Je to tak správně?

Já nevím. Učitel ti napsal, že bys mohl udělat regresní přímku vyjadřující počet km silnic v daném kraji a počet nehod v kraji, takže bych asi udělal závislost počtu nehod na počtu km. Buď to můžeš naklikat v Excelu, nebo to spočítat vzorcem. Výsledek bude cca
$Y=-321,51X+1,16\cdot10^6$ , kde $Y$ je počet nehod a $X$ je počet km v kraji.

Napiš, že tento lineární model není vhodný, protože pro $\text{počet\:km}\geq3\:613$ by se počet nehod stal záporným.

Je to všechno srozumitelný?

avalagne · 07. 01. 2014 20:30

↑ KennyMcCormick:
K $\chi ^{2}$ testu - moc ti děkuji za přesné vysvětlení, není co dodat.

Ohledně regresní přímky - tedy takto? Upřímně pak ale nechápu některé hodnoty z ANOVY a Rezidua. Ale to se najdu na Googlu.

Není tak regresní přímka ale moc přesná, ale data jsou bohužel opravdu takhle "různá".

KennyMcCormick

K $\chi ^{2}$ testu - moc ti děkuji za přesné vysvětlení, není co dodat.

Nemáš zač. :-)

Ohledně regresní přímky - tedy takto?

To nevím, možná to učitel myslel jinak. Jestli máš možnost položit mu doplňující otázku, asi by byl dobrý nápad se ho zeptat.

Ještě mohl chtít 2 regresní přímky v závislosti na více ostatních proměnných, nebo počet nehod v závislosti na více proměnných... Připadá mi, že ti to nenapsal úplně srozumitelně.

Upřímně pak ale nechápu některé hodnoty z ANOVY a Rezidua.

Které hodnoty?

EDIT: Znovu jsem si přečetl tvůj první komentář a možná by byl dobrý nápad udělat regresní přímku počtu nehod v každém měsíci v závislosti na ostatních proměnných.

avalagne · 10. 01. 2014 15:30

To nevím, možná to učitel myslel jinak. Jestli máš možnost položit mu doplňující otázku, asi by byl dobrý nápad se ho zeptat.

Ještě mohl chtít 2 regresní přímky v závislosti na více ostatních proměnných, nebo počet nehod v závislosti na více proměnných... Připadá mi, že ti to nenapsal úplně srozumitelně.

Zeptat se můžu jedině po mailu...

Které hodnoty?

Reziduum a pak chyba střední hodnoty... Nevycházelo mi to, teď už je to ale v pořádku.

EDIT: Znovu jsem si přečetl tvůj první komentář a možná by byl dobrý nápad udělat regresní přímku počtu nehod v každém měsíci v závislosti na ostatních proměnných.

Já si četl znova jeho mail a chápu to tak, že to mají být spíše dvě regresní přímky.

Jak to myslíš toto prosím?

v závislosti na ostatních proměnných

Jinak můžu mu napsat ten mail, ale musím si nejprve ujasnit, co vše od něj potřebuju vyzjistit.

KennyMcCormick

Jak to myslíš toto prosím?
KennyMcCormick napsal(a):
v závislosti na ostatních proměnných

To jsem myslel jako regresní přímku ve tvaru
$Y=AX_1+BX_2+C$ , kde $Y$ by byl počet nehod, $X_1$ by byl počet km silnic v kraji, $X_2$ by byl rok a $A,B\:\text{a}\:C$ by byly nějaké reálné konstanty. (Za předpokladu, že proměnné $X_1$ i $X_2$ by se ukázaly být statisticky významnými.)

Já si četl znova jeho mail a chápu to tak, že to mají být spíše dvě regresní přímky.

OK.

Matematické Fórum

#1 01. 01. 2014 18:19

Analýza dopravních nehod ve vybraném okrese - statistika

#2 01. 01. 2014 18:34 — Editoval Creatives (01. 01. 2014 18:35)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#3 01. 01. 2014 18:40

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#4 01. 01. 2014 20:52

Re: Analýza dopravních nehod ve vybraném okrese - statistika

Creatives napsal(a):

#5 01. 01. 2014 21:09 — Editoval Creatives (01. 01. 2014 21:12)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#6 01. 01. 2014 21:14

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#7 01. 01. 2014 21:19

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#8 01. 01. 2014 22:24

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#9 01. 01. 2014 22:49 — Editoval Creatives (01. 01. 2014 23:02)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#10 02. 01. 2014 11:12

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#11 02. 01. 2014 17:21

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#12 02. 01. 2014 17:41 — Editoval Creatives (02. 01. 2014 17:42)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#13 02. 01. 2014 18:53 — Editoval KennyMcCormick (02. 01. 2014 19:02)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#14 03. 01. 2014 20:05

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#15 03. 01. 2014 22:19

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#16 04. 01. 2014 00:29 — Editoval Creatives (04. 01. 2014 00:31)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#17 04. 01. 2014 20:11 — Editoval KennyMcCormick (04. 01. 2014 20:29)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

avalagne napsal(a):

#18 05. 01. 2014 14:40

Re: Analýza dopravních nehod ve vybraném okrese - statistika

KennyMcCormick napsal(a):

#19 05. 01. 2014 15:54 — Editoval avalagne (05. 01. 2014 17:14)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#20 06. 01. 2014 06:37 — Editoval KennyMcCormick (06. 01. 2014 06:45)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

avalagne napsal(a):

KennyMcCormick napsal(a):

#21 07. 01. 2014 20:30

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#22 09. 01. 2014 07:04 — Editoval KennyMcCormick (09. 01. 2014 07:15)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#23 10. 01. 2014 15:30

Re: Analýza dopravních nehod ve vybraném okrese - statistika

#24 10. 01. 2014 23:59 — Editoval KennyMcCormick (11. 01. 2014 00:00)

Re: Analýza dopravních nehod ve vybraném okrese - statistika

KennyMcCormick napsal(a):

Zápatí