Matematické Fórum

Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.

Nástěnka
22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.

Nejste přihlášen(a). Přihlásit

#1 22. 03. 2016 12:55

student103
Zelenáč
Příspěvky: 8
Škola: FEMS
Pozice: student
Reputace:   
 

Data s extrémnou variabilitou

Ahojte, práve riešim záležitosť týkajúcu sa spracovania dát, v ktorých je však extrémna variabilita a potreboval by som od vás pomoc. Predstavte si nejaký súbor podnikov a pre každý podnik vypočítané nejaké dva finančné ukazovatele - napríklad nejakú likviditu a nejakú rentabilitu. V rámci súboru podnikov mám však zároveň akýsi klasifikátor, ktorý mi rozdeľuje tie podniky na dobré a zle (ako keby dva zhluky). A teraz mojou úlohou je spraviť štatistický test pre dve stredné hodnoty a zistiť, či stredná hodnota rentability v dobrých podnikoch sa štatisticky odlišuje od strednej hodnoty v zlých podnikov.

Aký test by som mal použiť? Samozrejme som najprv použil klasický t-test pre dva nezávislé súbory, avšak tým, že tie ukazovatele vykazujú extrémnu variabilitu, tak to má určite vplyv na samotný výpočet, keďže vo vzorci testovacej charakteristiky figuruje aj hodnota smerodajnej odchýlky. Stane sa potom to, že priemery sú "na oko" značne odlišné, no nulová hypotéza nie je zamietnutá - viď. prílohu.

Ako teda postupovať? Je vhodnejšie použiť neparametrický mann-whitney u test alebo je nutné si súbor dát nejak upraviť (btw: ide o desaťtisíce pozorovaní)?

Ďakujem.

//forum.matweb.cz/upload3/img/2016-03/47718_obr.jpg

Offline

 

#2 22. 03. 2016 23:32

Stýv
Vrchní cenzor
Příspěvky: 5710
Reputace:   215 
Web
 

Re: Data s extrémnou variabilitou

tak jasně, že ten rozptyl má vliv na výsledek. ale to je dobře, proto v tom vzorci figuruje. spíš by mohl být problém, že ty dva rozptyly nejsou stejné, takže - pokud je jejich rozdíl významný statisticky - je potřeba použít upravený t-test pro nestejné rozptyly

vidím dobře, že v té druhé skupině je 606 pozorování, a z nich maximální je 80M? tzn. bez tohohle jednoho pozorování by průměr byl cca o dvě třetiny menší... to by možná nebylo od věci zamyslet se, jestli by nebylo lepší takovéhle outliery z dat odstranit

Offline

 

#3 23. 03. 2016 09:20

creat
Příspěvky: 75
Škola: EF Žu - Kves
Reputace:   
 

Re: Data s extrémnou variabilitou

Potom ešte skontroluj, či majú dáta normálne rozdelenie. Normalita je podmienkou pre t-test.


Pes je na to, aby poslúchal a nie aby rozkazoval v chalupe.

Offline

 

#4 23. 03. 2016 19:46

student103
Zelenáč
Příspěvky: 8
Škola: FEMS
Pozice: student
Reputace:   
 

Re: Data s extrémnou variabilitou

V prvom rade Vám ďakujem za odpovede.

Stýv - aký presne test máš na mysli pod "upravený t-test pro nestejné rozptyly"? Predsa na obrázku je vidieť, že ak Variances are equal, tak použiješ "Pooled" a ak Variances are unequal, tak použiješ "Satterthwaite". Takže v mojom prípade interpretujem Satterthwaite, čo som znázornil aj šípkou. Alebo máš na mysli niečo iné?

mimochodom, môžem sa pokúsiť poodstraňovať outliers, ale je možné, že potom mi zo skupiny Y = 1 zostane 300 pozorovaní namiesto 606. Otázka však znie, či je správne takto postupovať, ak my vieme, že charakter týchto dát je proste taký, že je v nich extrémny rozptyl. Tu možno  neexistuje ani pravidlo central limit theorem :)


Creat - pri všetkých finančných ukazovateľoch bola zamietnutá nulová hypotéza v Kolmogorov-Smirnovom teste. Teda ani jeden finančný ukazovateľ nepochádza z normálneho rozdelenia. Finančné ukazovatele sú vlastne pomery dvoch veličín. Napríklad Doba obratu zásob (DOZ) = Zásoby / Tržby * 365. Si predstavte, že nejaká spoločnosť má Zásoby vo výške 1 mil. EUR, avšak tržby iba 1 tis. EUR. Tak jej DOZ bude 365 000. Tie outiery sú tam proste prirodzené a odstrániť ich nechcem, pretože by som stratil dosť pozorovaní zo skupiny Y = 1 (mám tam iba 606 pozorovaní a každé pozorovanie z tejto skupiny je pre mňa vzácne).

Mal by som teda radšej použiť neparametrický Mann Whitney U test? Čo si o tom myslíte?

BTW: všade na internete sa píše niečo v tom zmysle, že neparametrické testy používame, ak dáta nemajú normálne rozdelenie alebo ak nie sme schopní určiť z akého rozdelenia dáta pochádzajú. Napríklad zdroj: http://sphweb.bumc.bu.edu/otlt/MPH-Modu … tric2.html

Podľa mňa to moje dáta splňujú, ale stále som sám seba nedokázal dostatočne presvedčiť, a preto sa snažím o to, aby ma o "pravde" presvedčil niekto iný.  Ďakujem

Offline

 

#5 23. 03. 2016 22:10

Stýv
Vrchní cenzor
Příspěvky: 5710
Reputace:   215 
Web
 

Re: Data s extrémnou variabilitou

student103 napsal(a):

Stýv - aký presne test máš na mysli pod "upravený t-test pro nestejné rozptyly"? Predsa na obrázku je vidieť, že ak Variances are equal, tak použiješ "Pooled" a ak Variances are unequal, tak použiješ "Satterthwaite". Takže v mojom prípade interpretujem Satterthwaite, čo som znázornil aj šípkou. Alebo máš na mysli niečo iné?

jo, to bude ono, akorát jesm tyhle názvy asi nikdy neslyšel

velký rozptyl je jedna věc, outliery druhá věc. to musíš posoudit ty, jestli tam ty data fakt patří. možná by nebylo od věci ty data zlogaritmovat, třeba by se začaly chovat trochu rozumněji

Offline

 

Zápatí

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson