Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.
Nástěnka
❗22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
❗04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
❗23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.
Nejste přihlášen(a). Přihlásit
Ahojte, práve riešim záležitosť týkajúcu sa spracovania dát, v ktorých je však extrémna variabilita a potreboval by som od vás pomoc. Predstavte si nejaký súbor podnikov a pre každý podnik vypočítané nejaké dva finančné ukazovatele - napríklad nejakú likviditu a nejakú rentabilitu. V rámci súboru podnikov mám však zároveň akýsi klasifikátor, ktorý mi rozdeľuje tie podniky na dobré a zle (ako keby dva zhluky). A teraz mojou úlohou je spraviť štatistický test pre dve stredné hodnoty a zistiť, či stredná hodnota rentability v dobrých podnikoch sa štatisticky odlišuje od strednej hodnoty v zlých podnikov.
Aký test by som mal použiť? Samozrejme som najprv použil klasický t-test pre dva nezávislé súbory, avšak tým, že tie ukazovatele vykazujú extrémnu variabilitu, tak to má určite vplyv na samotný výpočet, keďže vo vzorci testovacej charakteristiky figuruje aj hodnota smerodajnej odchýlky. Stane sa potom to, že priemery sú "na oko" značne odlišné, no nulová hypotéza nie je zamietnutá - viď. prílohu.
Ako teda postupovať? Je vhodnejšie použiť neparametrický mann-whitney u test alebo je nutné si súbor dát nejak upraviť (btw: ide o desaťtisíce pozorovaní)?
Ďakujem. 
Offline
tak jasně, že ten rozptyl má vliv na výsledek. ale to je dobře, proto v tom vzorci figuruje. spíš by mohl být problém, že ty dva rozptyly nejsou stejné, takže - pokud je jejich rozdíl významný statisticky - je potřeba použít upravený t-test pro nestejné rozptyly
vidím dobře, že v té druhé skupině je 606 pozorování, a z nich maximální je 80M? tzn. bez tohohle jednoho pozorování by průměr byl cca o dvě třetiny menší... to by možná nebylo od věci zamyslet se, jestli by nebylo lepší takovéhle outliery z dat odstranit
Offline
V prvom rade Vám ďakujem za odpovede.
Stýv - aký presne test máš na mysli pod "upravený t-test pro nestejné rozptyly"? Predsa na obrázku je vidieť, že ak Variances are equal, tak použiješ "Pooled" a ak Variances are unequal, tak použiješ "Satterthwaite". Takže v mojom prípade interpretujem Satterthwaite, čo som znázornil aj šípkou. Alebo máš na mysli niečo iné?
mimochodom, môžem sa pokúsiť poodstraňovať outliers, ale je možné, že potom mi zo skupiny Y = 1 zostane 300 pozorovaní namiesto 606. Otázka však znie, či je správne takto postupovať, ak my vieme, že charakter týchto dát je proste taký, že je v nich extrémny rozptyl. Tu možno neexistuje ani pravidlo central limit theorem :)
Creat - pri všetkých finančných ukazovateľoch bola zamietnutá nulová hypotéza v Kolmogorov-Smirnovom teste. Teda ani jeden finančný ukazovateľ nepochádza z normálneho rozdelenia. Finančné ukazovatele sú vlastne pomery dvoch veličín. Napríklad Doba obratu zásob (DOZ) = Zásoby / Tržby * 365. Si predstavte, že nejaká spoločnosť má Zásoby vo výške 1 mil. EUR, avšak tržby iba 1 tis. EUR. Tak jej DOZ bude 365 000. Tie outiery sú tam proste prirodzené a odstrániť ich nechcem, pretože by som stratil dosť pozorovaní zo skupiny Y = 1 (mám tam iba 606 pozorovaní a každé pozorovanie z tejto skupiny je pre mňa vzácne).
Mal by som teda radšej použiť neparametrický Mann Whitney U test? Čo si o tom myslíte?
BTW: všade na internete sa píše niečo v tom zmysle, že neparametrické testy používame, ak dáta nemajú normálne rozdelenie alebo ak nie sme schopní určiť z akého rozdelenia dáta pochádzajú. Napríklad zdroj: http://sphweb.bumc.bu.edu/otlt/MPH-Modu … tric2.html
Podľa mňa to moje dáta splňujú, ale stále som sám seba nedokázal dostatočne presvedčiť, a preto sa snažím o to, aby ma o "pravde" presvedčil niekto iný. Ďakujem
Offline
student103 napsal(a):
Stýv - aký presne test máš na mysli pod "upravený t-test pro nestejné rozptyly"? Predsa na obrázku je vidieť, že ak Variances are equal, tak použiješ "Pooled" a ak Variances are unequal, tak použiješ "Satterthwaite". Takže v mojom prípade interpretujem Satterthwaite, čo som znázornil aj šípkou. Alebo máš na mysli niečo iné?
jo, to bude ono, akorát jesm tyhle názvy asi nikdy neslyšel
velký rozptyl je jedna věc, outliery druhá věc. to musíš posoudit ty, jestli tam ty data fakt patří. možná by nebylo od věci ty data zlogaritmovat, třeba by se začaly chovat trochu rozumněji
Offline