Modello lineare generalizzato: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m ortografia |
m Bot: righe vuote in eccesso e modifiche minori |
||
Riga 46:
:<math> f_Y(y \mid \theta, \tau) = h(y,\tau) \exp \left(\frac{b(\theta)T(y) - A(\theta)}{d(\tau)} \right).</math>
Il parametro <math>\boldsymbol\theta</math> è correlato alla media della distribuzione. Se <math>\mathbf{b}(\boldsymbol\theta)</math> è la funzione identità, si suol dire che la distribuzione è nella [[forma canonica]] (o ''forma
:<math>\boldsymbol\mu = \operatorname{E}(\mathbf{Y}) = \nabla A(\boldsymbol\theta).</math>
Riga 56:
# la distribuzione della variabile risposta, che deve appartenere alla famiglia di dispersione esponenziale; può essere [[Distribuzione di Bernoulli|Bernoulli]], [[Distribuzione binomiale|Binomiale]] (risposta dicotomica), [[Distribuzione di Poisson|Poisson]] (risposta conteggio), [[Distribuzione Gamma|Gamma]] (fenomeni di durata), [[Distribuzione normale|Normale]], [[Distribuzione normale inversa|Normale Inversa]]
Ad esempio: la [[regressione lineare]] è un glm con funzione di collegamento la [[funzione identità]] e distribuzione della variabile risposta [[Distribuzione normale|Normale]]; la [[regressione logistica]] è un glm con funzione di collegamento la [[Funzione logistica|funzione logit]] e distribuzione della variabile risposta Bernoulli; la [[regressione poissoniana]] è un glm con funzione di collegamento la funzione logaritmica e distribuzione della variabile risposta Poisson
== Stima dei paramentri ==
Riga 67:
# ''iterative'': l'algoritmo itera fino a convergenza l'algoritmo Fisher-Scoring (algoritmo numerico di massimizzazione che deriva dallo [[sviluppo in serie di Taylor]] arrestato al primo ordine, che si sintetizza nella seguente formula: <math>\beta^{(r+1)}=\beta^{(r)}+I(\beta^{(r)})^{-1}*s(\beta^{(r)})</math>, dove <math>I(\beta^{(r)})</math> è l'informazione attesa di Fisher e <math>s(\beta^{(r)})</math> è la funzione punteggio o score function.
# ''reweighted'': le singole unità statistiche sono riponderate tramite la matrice <math>W=diag(w_i)</math> dove <math>w_i=\left ( \frac{d\mu_i}{d\eta_i} \right )^2*\left ( \frac{1}{Var(Y_i)} \right )</math>
# ''leasts squares'': si dimostra che la formula dell'algoritmo di Fisher-Scoring nel caso dei glm si ricorduce alla seguente <math>\beta^{(r+1)}=(X'W^{(r)}X)^{-1}X'W^{(r)}z^{(r)}</math>, dove <math>z</math> è il vettore delle pseudo-risposte <math>z_i=\eta_i*(y_i-\mu_i)*{d\eta_i \over d\mu_i}</math>; che, ponendo <math>W=I</math> e <math>y_i=z_i</math>, si riconduce alla formula dei [[Metodo dei minimi quadrati|minimi quadrati]] per il modello di regressione lineare normale.
=== Stima del parametro di dispersione ===
Riga 73:
* <math>\tilde{d(\tau)}={1 \over n-k-1}*\sum_{i=1}^N{(y_i-\widehat{\mu_i})^2 \over V(\widehat{\mu_i})}</math>
* <math>\tilde{d(\tau)}={D \over n-k-1}</math> dove <math>D</math> è la devianza del modello.
== Interpretazione dei coefficienti di regressione ==
Il significato delle stime dei coefficienti di regressione <math>\widehat{\beta_j}</math> varia a seconda della categoria di modello di modello lineare generalizzato preso in considerazione:
* regresssioni lineare normale: <math>\widehat{\beta_j}</math> corrisponde alla variazione assoluta media della variabile risposta in corrispondenza della variazione univaria
* regressione logistica e binomiale: <math>\widehat{OR}=\exp{\beta_j}</math> corrisponde all'aumento percentuale dell'[[Odds ratio|Odds Ratio]] all'aumentare di un'unità della j-esima covariata a parità delle altre condiioni
* regressione poissoniana: <math>\widehat{IRR}=\exp{\widehat{\beta_j}}</math> corrisponde alla variazione percentuale della risposta media all'aumentare di un'unità della j-esima covariata a parità delle altre condizioni (Incident Rate Ratio)
Inoltre, è possibile stabilire tramite [[Test di verifica d'ipotesi|verifica d'ipotesi]] la significatività dei singoli coefficienti di regressione. In paricolare, si ricorre al test di Wald, noto anche come [[test Z]]: <math>H_0:\beta_j=0</math> vs <math>H_1:\beta_j\neq0</math>.
Riga 96 ⟶ 94:
# Test basato devianza: la statistica test è <math>D^*\sim\chi_{n-k-1}^2</math> (per n grande)
#Test basato sulla <math>\mathrm{X}^2</math> di Pearson: la statistica test è <math>\mathrm{X}^2=\sum_{i=1}^N{(y_i-\widehat\mu_i)^2 \over \mathrm{V}(\widehat\mu_i)d(\tau)}\sim \chi^2_{n-k-1}</math>. (per n grande)
In entrambi i casi se
=== Confronto tra modelli annidati ===
|