Modello lineare generalizzato: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
m ortografia
FrescoBot (discussione | contributi)
m Bot: righe vuote in eccesso e modifiche minori
Riga 46:
:<math> f_Y(y \mid \theta, \tau) = h(y,\tau) \exp \left(\frac{b(\theta)T(y) - A(\theta)}{d(\tau)} \right).</math>
 
Il parametro <math>\boldsymbol\theta</math> è correlato alla media della distribuzione. Se <math>\mathbf{b}(\boldsymbol\theta)</math> è la funzione identità, si suol dire che la distribuzione è nella [[forma canonica]] (o ''forma naturale''). Si noti che qualsiasi distribuzione può essere convertita in forma canonica mediante la sostituzione di <math>\boldsymbol\theta</math> con <math>\boldsymbol\theta'</math> per mezzo della trasformazione <math>\boldsymbol\theta = \mathbf{b}(\boldsymbol\theta')</math>. È sempre possibile convertire <math>A(\boldsymbol\theta)</math> in termini del nuovo parametro <math>\boldsymbol\theta'</math>, anche se <math>\mathbf{b}(\boldsymbol\theta')</math> non è una [[funzione invertibile]]. Se inoltre, <math>\mathbf{T}(\mathbf{y})</math> è l'identità e <math>\tau</math> è conosciuto, allora <math>\boldsymbol\theta</math> è detto ''parametro canonico'' (o parametro naturale) ed è correlato alla media dalla relazione
 
:<math>\boldsymbol\mu = \operatorname{E}(\mathbf{Y}) = \nabla A(\boldsymbol\theta).</math>
Riga 56:
# la distribuzione della variabile risposta, che deve appartenere alla famiglia di dispersione esponenziale; può essere [[Distribuzione di Bernoulli|Bernoulli]], [[Distribuzione binomiale|Binomiale]] (risposta dicotomica), [[Distribuzione di Poisson|Poisson]] (risposta conteggio), [[Distribuzione Gamma|Gamma]] (fenomeni di durata), [[Distribuzione normale|Normale]], [[Distribuzione normale inversa|Normale Inversa]]
 
Ad esempio: la [[regressione lineare]] è un glm con funzione di collegamento la [[funzione identità]] e distribuzione della variabile risposta [[Distribuzione normale|Normale]]; la [[regressione logistica]] è un glm con funzione di collegamento la [[Funzione logistica|funzione logit]] e distribuzione della variabile risposta Bernoulli; la [[regressione poissoniana]] è un glm con funzione di collegamento la funzione logaritmica e distribuzione della variabile risposta Poisson <ref name=":0">{{Cita libro|titolo=Hardin J.W., Hilbe J.M., Generalized Linear Models and Extensions, Stata Press, 2007}}</ref>.
 
== Stima dei paramentri ==
Riga 67:
# ''iterative'': l'algoritmo itera fino a convergenza l'algoritmo Fisher-Scoring (algoritmo numerico di massimizzazione che deriva dallo [[sviluppo in serie di Taylor]] arrestato al primo ordine, che si sintetizza nella seguente formula: <math>\beta^{(r+1)}=\beta^{(r)}+I(\beta^{(r)})^{-1}*s(\beta^{(r)})</math>, dove <math>I(\beta^{(r)})</math> è l'informazione attesa di Fisher e <math>s(\beta^{(r)})</math> è la funzione punteggio o score function.
# ''reweighted'': le singole unità statistiche sono riponderate tramite la matrice <math>W=diag(w_i)</math> dove <math>w_i=\left ( \frac{d\mu_i}{d\eta_i} \right )^2*\left ( \frac{1}{Var(Y_i)} \right )</math>
# ''leasts squares'': si dimostra che la formula dell'algoritmo di Fisher-Scoring nel caso dei glm si ricorduce alla seguente <math>\beta^{(r+1)}=(X'W^{(r)}X)^{-1}X'W^{(r)}z^{(r)}</math>, dove <math>z</math> è il vettore delle pseudo-risposte <math>z_i=\eta_i*(y_i-\mu_i)*{d\eta_i \over d\mu_i}</math>; che, ponendo <math>W=I</math> e <math>y_i=z_i</math>, si riconduce alla formula dei [[Metodo dei minimi quadrati|minimi quadrati]] per il modello di regressione lineare normale. <ref name=":0" />
 
=== Stima del parametro di dispersione ===
Riga 73:
 
* <math>\tilde{d(\tau)}={1 \over n-k-1}*\sum_{i=1}^N{(y_i-\widehat{\mu_i})^2 \over V(\widehat{\mu_i})}</math>
* <math>\tilde{d(\tau)}={D \over n-k-1}</math> dove <math>D</math> è la devianza del modello. <ref name=":0" />
 
== Interpretazione dei coefficienti di regressione ==
Il significato delle stime dei coefficienti di regressione <math>\widehat{\beta_j}</math> varia a seconda della categoria di modello di modello lineare generalizzato preso in considerazione:
 
* regresssioni lineare normale: <math>\widehat{\beta_j}</math> corrisponde alla variazione assoluta media della variabile risposta in corrispondenza della variazione univaria della j-esima covariata a parità della altrae condizioni;
* regressione logistica e binomiale: <math>\widehat{OR}=\exp{\beta_j}</math> corrisponde all'aumento percentuale dell'[[Odds ratio|Odds Ratio]] all'aumentare di un'unità della j-esima covariata a parità delle altre condiioni
* regressione poissoniana: <math>\widehat{IRR}=\exp{\widehat{\beta_j}}</math> corrisponde alla variazione percentuale della risposta media all'aumentare di un'unità della j-esima covariata a parità delle altre condizioni (Incident Rate Ratio)
 
 
 
Inoltre, è possibile stabilire tramite [[Test di verifica d'ipotesi|verifica d'ipotesi]] la significatività dei singoli coefficienti di regressione. In paricolare, si ricorre al test di Wald, noto anche come [[test Z]]: <math>H_0:\beta_j=0</math> vs <math>H_1:\beta_j\neq0</math>.
Riga 96 ⟶ 94:
# Test basato devianza: la statistica test è <math>D^*\sim\chi_{n-k-1}^2</math> (per n grande)
#Test basato sulla <math>\mathrm{X}^2</math> di Pearson: la statistica test è <math>\mathrm{X}^2=\sum_{i=1}^N{(y_i-\widehat\mu_i)^2 \over \mathrm{V}(\widehat\mu_i)d(\tau)}\sim \chi^2_{n-k-1}</math>. (per n grande)
In entrambi i casi se il [[Valore p|p-value]] è maggiore del livello di significatività fisato a priori, non rifiuto l'ipotesi nulla e concludo che il modello è adeguato.
 
=== Confronto tra modelli annidati ===