Matematické Fórum

dussed · 05. 10. 2012 09:31

Prosím o pomoc nebo alespoň radu či nasměrování jak vyhodnotit experimentální data.

Na vstupou mám několik vstupních dat, např. teplota, množství látky 1, množství látky 2, tlak, apod (Vs1, Vs2, Vs3...Vsx). Na výstupu pak měřím třeba hustotu finálního produktu (Vy1), ale i další měřené veličiny. Uvádím to jako obecný příklad.

Potřeboval bych otestovat jestli minimálně 2 vstupní veličiny mají vliv na hodnotu výstupní veličiny, resp. jestli existuje test, který je schopen najednou posuzovat i vliv více vstupních veličin na jednu (či více) výstupních...?
Snad jsem to vyjádřil jasně.

Př.:

měření hodnota1 hodnota2 hodnota3 hodnota4 výstup1 výstup2
1 800 200 1,56 200 250 1,69
2 795 198 1,562 201 254 1,70
...atd.

Co by mi pomohlo je jaký test nebo matematický aparát použít, případně odkaz na ukázku apod.

Děkuji za ochotu

radekm · 05. 10. 2012 09:49 — Editoval radekm (05. 10. 2012 09:54)

Zkusil bych použít (lineární) regresi a testovat, jestli jsou parametry (β) u hodnot rovny 0. Pokud je to normální model, tak to jde testovat t-testem.

dussed · 05. 10. 2012 10:47

↑ radekm:

Nešlo by to prosím více polopatě....?
Děkuji

radekm · 05. 10. 2012 20:47

Pro jednotlivé naměřené hodnoty budeme testovat, zda mají vliv na výstup1 v normálním lineárním modelu.

Poznámka na začátek: předpokládám, že víte, co je to lineární regrese a rozumíte bodům 1) a 2). Doporučuji tohle všechno dělat v nějakém výpočetním prostředí - např. R. R popisovaný test dělá automaticky, takže tam v podstatě stačí načíst data, definovat model a na něm zavolat příkaz summary.

1) Začneme tím, že sestavíme lineární model. Předpokládejme, že máme $n$ měření. Naměřené výstupy uspořádáme do sloupcového vektoru $\mathbf{Y}\in\mathbb{R}^{n\times 1}$ :

$\mathbf{Y} = \begin{pmatrix}250\\254\\ \vdots \end{pmatrix}$

Dále naměřené hodnoty uspořádáme do matice $\mathbf{X}\in\mathbb{R}^{n\times 5}$ :

$\mathbf{X} = \begin{pmatrix} 1 & 800 & 200 & 1.56 & 200 \\ 1 & 795 & 198 & 1.562 & 201 \\ \vdots & \vdots & \vdots & \vdots & \vdots \end{pmatrix}$

V prvním sloupci matice jsou samé 1 - to proto, abychom do modelu dostali absolutní člen. Model lineární regrese předpokládá, že platí

$\mathbf{Y} = \mathbf{X} \mathbf{\beta} + \mathbf{\varepsilon}$

pro nějaký vektor parametrů

$\mathbf{\beta} = \begin{pmatrix}\beta_0\\ \beta_1\\ \vdots\\ \beta_4 \end{pmatrix}$

(mj. $\beta_0$ je absolutní člen) a vektor chyb

$\mathbf{\varepsilon} = \begin{pmatrix}\varepsilon_1\\ \varepsilon_2\\ \vdots\\ \varepsilon_n \end{pmatrix}$

kde $\operatorname{Var}\varepsilon_i = \sigma^2$ a $\operatorname{E}\varepsilon_i = 0$ . V normálním lineárním modelu navíc platí $\mathbf{Y} \sim N_n(\mathbf{X}\mathbf{\beta}, \sigma^2 \mathbb{I})$ .

2) Metodou nejmenších čtverců spočítáme odhad parametrů $\mathbf{\beta}$ a označíme ho $\hat{\mathbf{\beta}}$ . V normálním lineárním modelu platí $\hat{\mathbf{\beta}} \sim N_5(\mathbf{\beta}, \sigma^2(X^T X)^{-1})$ , což se využívá k odvození testu.

S pomocí $\hat{\mathbf{\beta}}$ spočteme $\hat{\mathbf{Y}} = \mathbf{X}\hat{\mathbf{\beta}}$ .

3) Provedem test. V normálním lineárním modelu platí

$\frac{\hat\beta_j-\beta_j}{\hat\sigma\sqrt{v_{j,j}}} \sim t_{n-\operatorname{rank}\mathbf{X}}$

kde $v_{j,j}$ je j-tý diagonální prvek matice $(X^T X)^{-1}$ a $\hat\sigma^2 = \frac{RSS}{n-\operatorname{rank} \mathbf{X}}$ a $RSS = \sum_{i=1}^n (\mathbf{Y}_i - \hat{\mathbf{Y}}_i)^2$ .

Test formuluji takto:

$H_0: \beta_j = 0$
$H_1: \beta_j \neq 0$

Zamítám $H_0$ , pokud $\left|\frac{\hat\beta_j}{\hat\sigma\sqrt{v_{j,j}}}\right| > t_{n-\operatorname{rank}\mathbf{X}, 1-\alpha/2}$

Například pokud test zamítne, že $\beta_1 = 0$ , tak parametr $\beta_1$ je nenulový a model závisí na hodnotě1.

radekm · 05. 10. 2012 20:52 — Editoval radekm (05. 10. 2012 21:03)

Mj. ze stránek Matfyzpressu lze stáhnout knížku o Regresi od pana Zváry (úplně dole).

vengi · 06. 10. 2012 01:17

↑ dussed:
Ja by som na to isla jednoduchsie - v Exceli je v module Analýza udajov - funkcia Regrese (Regresia). Tam staci oznacit bunky a vypocita tu popisane hodnoty.

dussed · 06. 10. 2012 07:22

↑ vengi:

Nakonec jsem to vygooglil a přesně jsem to udělal. Funguje to... ale našel jsem nějaký článek, kde se píše, že Excel některé věci pojmenovává jinak než jak se matematicky jmenují (třeba násobné R atd.). Co by mi pomohlo je výklad jednotlivých pojmů a symbolů co Excel generuje, resp. jejich význam...
Volba "Data - Analýza dat - Regrese"

Co znamenají tyto hodnoty, resp. když se blíží 0 či 1 co to znamená...
Násobné R
Hodnota spolehlivosti R
Nastavená hodnota spolehlivosti R
Chyba stř. hodnoty
SS MS F Významnost F
Koeficienty Chyba stř. hodnoty t Stat Hodnota P Dolní 95% Horní 95% Dolní 95,0% Horní 95,0%
Očekávané Y Rezidua Normovaná rezidua

Marně jsem kdekoliv hledal význam jednotlivých položek.

Moc děkuji...

Matematické Fórum

#1 05. 10. 2012 09:31

Test statistické významnosti

#2 05. 10. 2012 09:49 — Editoval radekm (05. 10. 2012 09:54)

Re: Test statistické významnosti

#3 05. 10. 2012 10:47

Re: Test statistické významnosti

#4 05. 10. 2012 20:47

Re: Test statistické významnosti

#5 05. 10. 2012 20:52 — Editoval radekm (05. 10. 2012 21:03)

Re: Test statistické významnosti

#6 06. 10. 2012 01:17

Re: Test statistické významnosti

#7 06. 10. 2012 07:22

Re: Test statistické významnosti

Zápatí