Modello lineare generalizzato: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
miglioramento del senso della frase |
AggiuntAggiunta della sezioni: Stima del modello, Stima dei parametri e Interpretazione dei coefficienti di regressione |
||
Riga 49:
:<math>\boldsymbol\mu = \operatorname{E}(\mathbf{Y}) = \nabla A(\boldsymbol\theta).</math>
== Specificazione del modello ==
Come sopra citato, i modelli lineari generalizzati comprendono una vasta gamma di modelli. Dunque per individuare un particolare modello é necessiario specificare:ù
# la funzione di collegamento <math>g</math> (nota anche come link function) da applicare al valore atteso della variabile risposta <math>g(E[Y])=\eta</math>; tale funzione deve essere nota, monotona e derivabile
# la distribuzione della variabile risposta, che deve appartenere alla famiglia di dispersione esponenziale; può essere [[Distribuzione di Bernoulli|Bernoulli]], [[Distribuzione binomiale|Binomiale]] (risposta dicotomica), [[Distribuzione di Poisson|Poisson]] (risposta conteggio), [[Distribuzione Gamma|Gamma]] (fenomeni di durata), [[Distribuzione normale|Normale]], [[Distribuzione normale inversa|Normale Inversa]]
Ad esempio: la [[regressione lineare]] è un glm con funzione di collegamento la [[funzione identità]] e distribuzione della variabile risposta [[Distribuzione normale|Normale]]; la [[regressione logistica]] è un glm con funzione di collegamento la [[Funzione logistica|funzione logit]] e ditribuzione della variabile risposta Bernoulli; la [[regressione poissoniana]] è un glm con funzione di collegamento la funzione logaritmica e distribuzione della variabile risposta Poisson <ref name=":0">{{Cita libro|titolo=Hardin J.W., Hilbe J.M., Generalized Linear Models and Extensions, Stata Press, 2007}}</ref>.
== Stima dei paramentri ==
=== Stima dei coefficienti di regressione <math>\beta</math> ===
La stima dei coefficienti di regressione avviene tramite il [[metodo della massima verosimiglianza]], che consisteste nel massimizzare la funzione di verosimiglianza. Nel caso dei glm, che conservano l'indipendenza della variabile risposta, tale funzione è data dalla produttoria della funzione di denistà o di probabilità. Si procede facendo la derivata prima della funzione di verosimiglianza e uguagliandola a zero. Da tale equazione si dovrebbe ottenere la stima <math>\widehat{\beta}</math> dei coefficienti <math>\beta</math>. Tuttavia tale equazione non ammette soluzione analitica. Pertanto, è necessario ricorrere ad algoritmi numerici per ottenere tale stima.
Il metodo più usato è l'algoritmo IRLS (''iterative reweighted leasts squares).'' Dalla denominazione dell'algoritmo si può desumere il suo funzionamento:
# ''iterative'': l'algoritmo itera fino a convergenza l'algoritmo Fisher-Scoring (algoritmo numerico di massimizzazione che deriva dallo [[sviluppo in serie di Taylor]] arrestato al primo ordine, che si sintetizza nella seguente formula: <math>\beta^{(r+1)}=\beta^{(r)}+I(\beta^{(r)})^{-1}*s(\beta^{(r)})</math>, dove <math>I(\beta^{(r)})</math> è l'informazione attesa di Fisher e <math>s(\beta^{(r)})</math> è la funzione punteggio o score function.
# ''reweighted'': le singole unità statistiche sono riponderate tramite la matrice <math>W=diag(w_i)</math> dove <math>w_i=\left ( \frac{d\mu_i}{d\eta_i} \right )^2*\left ( \frac{1}{Var(Y_i)} \right )</math>
# ''leasts squares'': si dimostra che la formula dell'algoritmo di Fisher-Scoring nel caso dei glm si ricorduce alla seguente <math>\beta^{(r+1)}=(X'W^{(r)}X)^{-1}X'W^{(r)}z^{(r)}</math>, dove <math>z</math> è il vettore delle pseudo-risposte <math>z_i=\eta_i*(y_i-\mu_i)*{d\eta_i \over d\mu_i}</math>; che, ponendo <math>W=I</math> e <math>y_i=z_i</math>, si riconduce alla formula dei [[Metodo dei minimi quadrati|minimi quadrati]] per il modello di regressione lineare normale. <ref name=":0" />
=== Stima del parametro di dispersione <math>\tau</math> ===
Per la stima del parametro di dispersione si ricorre al [[Metodo dei momenti (statistica)|metodo dei momenti]] e si ottiengono i seguenti risultati:
* <math>\tilde{d(\tau)}={1 \over n-k-1}*\sum_{i=1}^N{(y_i-\widehat{\mu_i})^2 \over V(\widehat{\mu_i})}</math>
* <math>\tilde{d(\tau)}={D \over n-k-1}</math> dove <math>D</math> è la devianza del modello. <ref name=":0" />
== Interpretazione dei coefficienti di regressione ==
Il significato delle stime dei coefficienti di regressione <math>\widehat{\beta_j}</math> varia a seconda della categoria di modello di modello lineare generalizzato preso in considerazione:
* regresssioni lineare normale: <math>\widehat{\beta_j}</math> corrisponde alla variazione assoluta media della variabile risposta in corrispondenza della variazione univaria della j-esima covariata a parità della altrae condizioni;
* regressione logistica e binomiale: <math>\widehat{OR}=\exp{\beta_j}</math> corrisponde all'aumento percentuale dell'[[Odds ratio|Odds Ratio]] all'aumentare di un'unità della j-esima covariata a parità delle altre condiioni
* regressione poissoniana: <math>\widehat{IRR}=\exp{\widehat{\beta_j}}</math> corrisponde alla variazione percentuale della risposta media all'aumentare di un'unità della j-esima covariata a parità delle altre condizioni (Incident Rate Ratio)
== Note ==
|