Matematické Fórum

Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.

Nástěnka
22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.

Nejste přihlášen(a). Přihlásit

#1 07. 09. 2019 11:02 — Editoval Pritt (07. 09. 2019 11:20)

Pritt
Příspěvky: 394
Pozice: student
Reputace:   19 
 

nelineární regrese pro odhad parametrů rozdělení

Zdravím,

snažím se odhadovat parametry rozdělení metodou nelineární regrese a nejmenších čtverců.

Chtěl bych se zeptat, co je formálně i neformálně špatně na následujícím postupu pro odhad parametrů. Třeba jestli upravené hodnoty pozorování mohou mít nějaký špatný vliv na celkový výsledek.

Budu rád za každé připomínky! Děkuji.

Nechť $X =  \{ x_1,\dots,x_m | m \in \mathbb{N}, \; x_i \in \mathbb{R}, \forall i \in \hat{m} \}$ jsou pozorované hodnoty seřazené vzestupně. Nechť číslo $h \in \mathbb{N}, \; h < m$ udává počet podintervalů, na které rozdělíme interval $\langle x_1,x_m \rangle$. Číslo $d = \dfrac{x_m - x_1}{h}$ zachycuje šířku jednoho intervalu $\langle x_1 + jd, x_1 + (j+1)d \rangle = \langle a_{j},a_{j+1} \rangle, \; j \in \widehat{\underline{h-1}}$. Nechť $Y_0,\dots,Y_{h-1}$ jsou relativní četnosti naměřených hodnot $x_1,\dots,x_m$ v jednotlivých podintervalech, tzn. $Y_j = \frac{1}{m}\mathrm{card}\left( X \cap \langle a_{j},a_{j+1} ) \right),\; j \in \widehat{\underline{h{-}2}},\; Y_{h-1} = \frac{1}{m}\mathrm{card}\left( X \cap \langle a_{h-1},a_{h} \rangle \right)$ a nechť $s_j = \frac{a_{j+1} + a_j}{2}$ je střed j-tého podintervalu $\langle a_{j},a_{j+1} \rangle,\; j \in \widehat{\underline{h{-}1}}$.
   
Předpoklady pro další postup jsou následující:

1) $\boldsymbol Y = \begin{pmatrix}
Y_0 \\ \vdots \\ Y_{h-1}
\end{pmatrix}
= \boldsymbol f(\boldsymbol \Theta) + \boldsymbol e,
$
kde $\boldsymbol e \sim N(\boldsymbol 0, \sigma^2\boldsymbol I)$ a $\boldsymbol f(\boldsymbol \Theta) = \left( f(s_0,\boldsymbol \Theta), \dots, f(s_{h-1}, \boldsymbol \Theta) \right)^T$ a $f(x,\boldsymbol \Theta)$ je známá regresní funkce.
2) Vektor parametrů $\boldsymbol \Theta \in \Omega$, kde $\Omega \subset \mathbb{R}^k$ je otevřená konvexní množina.
3) Funkce $f(x,\boldsymbol \Theta) \in \mathcal{C}^2(\Omega),\; \forall x \in \mathcal{X}$.
4) Jacobiho matice $F(\boldsymbol \Theta)$ (matice prvních parciálních derivací) regresní funkce je typu $h\times k$, kde $\left[ F(\boldsymbol \Theta) \right]_{ij} = \dfrac{\partial}{\partial \Theta_j}f(s_i,\boldsymbol \Theta),\; j \in \hat{k},i \in \widehat{\underline{h-1}}$ a má hodnost $k$ aspoň v nějakém okolí optimální hodnoty $\boldsymbol \Theta$.

Nyní definujme funkci

$ S(\boldsymbol \Theta) = \sum_{i=0}^{h-1}\left( Y_i - f(s_i,\boldsymbol \Theta) \right)^2.$

Vektor $\boldsymbol \Theta^*$, který minimalizuje funkci $S(\boldsymbol \Theta)$, se nazývá odhad metodou nejmenších čtverců. Tento bod $\boldsymbol \Theta^*$ musí na $\Omega$ splňovat tzv. normální rovnice, které dostaneme derivováním $\dfrac{\mathrm{D}S(\Theta_1,\dots,\Theta_k)}{\mathrm{D}(\Theta_1,\dots,\Theta_k)}$. Tedy platí

$\boldsymbol F(\boldsymbol \Theta^*)^T(\boldsymbol Y - \boldsymbol f(\boldsymbol \Theta^*)) = \boldsymbol 0.$


Ve zkratce to znamená, že si vytvářím vlastně histogram a z každého sloupce (intervalu) vezmu vždy střed a těm odpovídají hodnoty relativních četností v daném intervalu. Tyto body se pak snažím modelovat nějakou regresní funkcí metodou nejmenších čtverců.

Otázka zní: Je tento postup v něčem špatně, ve smyslu - modeluji ve skutečnosti jiná data, nebo vzniká moc velká chyba. Jak jinak (lépe) by šla regrese použít pro odhad parametrů rozdělení?

Offline

 

Zápatí

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson