Matematické Fórum

student103 · 22. 03. 2016 12:55

Ahojte, práve riešim záležitosť týkajúcu sa spracovania dát, v ktorých je však extrémna variabilita a potreboval by som od vás pomoc. Predstavte si nejaký súbor podnikov a pre každý podnik vypočítané nejaké dva finančné ukazovatele - napríklad nejakú likviditu a nejakú rentabilitu. V rámci súboru podnikov mám však zároveň akýsi klasifikátor, ktorý mi rozdeľuje tie podniky na dobré a zle (ako keby dva zhluky). A teraz mojou úlohou je spraviť štatistický test pre dve stredné hodnoty a zistiť, či stredná hodnota rentability v dobrých podnikoch sa štatisticky odlišuje od strednej hodnoty v zlých podnikov.

Aký test by som mal použiť? Samozrejme som najprv použil klasický t-test pre dva nezávislé súbory, avšak tým, že tie ukazovatele vykazujú extrémnu variabilitu, tak to má určite vplyv na samotný výpočet, keďže vo vzorci testovacej charakteristiky figuruje aj hodnota smerodajnej odchýlky. Stane sa potom to, že priemery sú "na oko" značne odlišné, no nulová hypotéza nie je zamietnutá - viď. prílohu.

Ako teda postupovať? Je vhodnejšie použiť neparametrický mann-whitney u test alebo je nutné si súbor dát nejak upraviť (btw: ide o desaťtisíce pozorovaní)?

Ďakujem.

//forum.matweb.cz/upload3/img/2016-03/47718_obr.jpg

Stýv · 22. 03. 2016 23:32

tak jasně, že ten rozptyl má vliv na výsledek. ale to je dobře, proto v tom vzorci figuruje. spíš by mohl být problém, že ty dva rozptyly nejsou stejné, takže - pokud je jejich rozdíl významný statisticky - je potřeba použít upravený t-test pro nestejné rozptyly

vidím dobře, že v té druhé skupině je 606 pozorování, a z nich maximální je 80M? tzn. bez tohohle jednoho pozorování by průměr byl cca o dvě třetiny menší... to by možná nebylo od věci zamyslet se, jestli by nebylo lepší takovéhle outliery z dat odstranit

creat · 23. 03. 2016 09:20

Potom ešte skontroluj, či majú dáta normálne rozdelenie. Normalita je podmienkou pre t-test.

student103 · 23. 03. 2016 19:46

V prvom rade Vám ďakujem za odpovede.

Stýv - aký presne test máš na mysli pod "upravený t-test pro nestejné rozptyly"? Predsa na obrázku je vidieť, že ak Variances are equal, tak použiješ "Pooled" a ak Variances are unequal, tak použiješ "Satterthwaite". Takže v mojom prípade interpretujem Satterthwaite, čo som znázornil aj šípkou. Alebo máš na mysli niečo iné?

mimochodom, môžem sa pokúsiť poodstraňovať outliers, ale je možné, že potom mi zo skupiny Y = 1 zostane 300 pozorovaní namiesto 606. Otázka však znie, či je správne takto postupovať, ak my vieme, že charakter týchto dát je proste taký, že je v nich extrémny rozptyl. Tu možno neexistuje ani pravidlo central limit theorem :)

Creat - pri všetkých finančných ukazovateľoch bola zamietnutá nulová hypotéza v Kolmogorov-Smirnovom teste. Teda ani jeden finančný ukazovateľ nepochádza z normálneho rozdelenia. Finančné ukazovatele sú vlastne pomery dvoch veličín. Napríklad Doba obratu zásob (DOZ) = Zásoby / Tržby * 365. Si predstavte, že nejaká spoločnosť má Zásoby vo výške 1 mil. EUR, avšak tržby iba 1 tis. EUR. Tak jej DOZ bude 365 000. Tie outiery sú tam proste prirodzené a odstrániť ich nechcem, pretože by som stratil dosť pozorovaní zo skupiny Y = 1 (mám tam iba 606 pozorovaní a každé pozorovanie z tejto skupiny je pre mňa vzácne).

Mal by som teda radšej použiť neparametrický Mann Whitney U test? Čo si o tom myslíte?

BTW: všade na internete sa píše niečo v tom zmysle, že neparametrické testy používame, ak dáta nemajú normálne rozdelenie alebo ak nie sme schopní určiť z akého rozdelenia dáta pochádzajú. Napríklad zdroj: http://sphweb.bumc.bu.edu/otlt/MPH-Modu … tric2.html

Podľa mňa to moje dáta splňujú, ale stále som sám seba nedokázal dostatočne presvedčiť, a preto sa snažím o to, aby ma o "pravde" presvedčil niekto iný. Ďakujem

Stýv · 23. 03. 2016 22:10

student103 napsal(a):
Stýv - aký presne test máš na mysli pod "upravený t-test pro nestejné rozptyly"? Predsa na obrázku je vidieť, že ak Variances are equal, tak použiješ "Pooled" a ak Variances are unequal, tak použiješ "Satterthwaite". Takže v mojom prípade interpretujem Satterthwaite, čo som znázornil aj šípkou. Alebo máš na mysli niečo iné?

jo, to bude ono, akorát jesm tyhle názvy asi nikdy neslyšel

velký rozptyl je jedna věc, outliery druhá věc. to musíš posoudit ty, jestli tam ty data fakt patří. možná by nebylo od věci ty data zlogaritmovat, třeba by se začaly chovat trochu rozumněji

Matematické Fórum

#1 22. 03. 2016 12:55

Data s extrémnou variabilitou

#2 22. 03. 2016 23:32

Re: Data s extrémnou variabilitou

#3 23. 03. 2016 09:20

Re: Data s extrémnou variabilitou

#4 23. 03. 2016 19:46

Re: Data s extrémnou variabilitou

#5 23. 03. 2016 22:10

Re: Data s extrémnou variabilitou

student103 napsal(a):

Zápatí