Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.
Nástěnka
❗22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
❗04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
❗23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.
Nejste přihlášen(a). Přihlásit
Ahoj, odevzdáváme ve škole praktický projekt v programu Stata, ale mám trochu problém s modelem. Stáhla jsem Airbnb data a snažím se odhadovat cenu ubytování na základě nějakých dalších proměnných (vzdálenost od centra, počet postelí, pokojů, koupelen...). Používám metodu nejmenších čtverců (OLS), která má za předpoklad normálně rozdělená rezidua (nebo alespoň s nulovou střední hodnotou a konstantním rozptylem). Provedla jsem logaritmickou transformaci ceny a vzdálenosti, teď mi jakžtakž rezidua kopírují normální rozdělení, ale nejsem si moc jistá zbytkem. Model vypadá zhruba nějak takhle:

-rozdělení reziduí - to už mi přijde celkem OK
-rezidua v závislosti na vyrovnaných (odhadnutých) hodnotách. Tady mě už znervózňuje ten ocas vpravo... Jestli tomu dobře rozumím, reziduum je kladný, když podhodnocuju a záporný, když odhad nadhodnocuju. Takže to znamená, že vysoké hodnoty mi to odhaduje moc vysoké? Může ten tvar souviset s logaritmickou transformací?
A tohle se mu nelíbí úplně nejvíc - rezidua v závislosti na ceně... Ta data vypadají trochu heteroskedasticky, ale by mělo ovlivnit jen vyhodnocování statistický významnosti jednotlivých proměnných... Vypadá divně ten rostoucí tvar. Znamená to, že když je logaritmus ceny malý, tak mám odhady vyšší a když je logaritmus ceny velký, tak odhaduju zbytečně málo? Dá se to svést na to, že nejsou k dispozici všechny důležitý proměnný, tak to nedělá nestranný odhady? To by bylo vychýlený jen na jednu stranu, ne? Budu vděčná za jakýkoliv kometář hlavně k poslednímu grafu. Mám jen teorii a úplně nevím, jak si poradit s praxí. Děkuju moc.
Offline
Heteroskedasticitu bys viděla na druhém obrázku residuals/fitted, v tvém případě to na heteroskedasticitu nevypadá. Na posledním grafu to vypadá spíš na to vynechání nějakého signifikantního regresoru, takže bych dle toho grafu soudil, že dochází k vychýlení a nestrannost odhadů nejspíš neplatí. To ale věřím, že můžeš otestovat, jestli máš exogenní proměnné nebo ne. Pokud jo, tak pak odhady použitých regresorů jsou správné, ale pořád ti teda bude chybět nějaký regressor na vysvětlení celkového chování ceny, ale aspoň budeš vědět hodnoty a statistickou významnost ostatních regresorů.
Offline