Modello lineare generalizzato: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Funzionalità collegamenti suggeriti: 3 collegamenti inseriti.
CRK 74 (discussione | contributi)
mNessun oggetto della modifica
Riga 8:
La regressione lineare ordinaria prevede il valore atteso di una data quantità sconosciuta (la variabile di risposta, una variabile casuale) come [[combinazione lineare]] di un insieme di valori osservati (predittori). Ciò implica che un cambiamento costante in un predittore porta a un cambiamento costante nella variabile di risposta (cioè un modello a risposta lineare). Ciò è appropriato quando la variabile di risposta può variare, con buona approssimazione, indefinitamente in entrambe le direzioni, o più generalmente per qualsiasi quantità che varia solo di una quantità relativamente piccola rispetto alla variazione delle variabili predittive, ad es. altezze umane.
 
Tuttavia, queste ipotesi non sono appropriate per alcuni tipi di variabili di risposta. Ad esempio, nei casi in cui si prevede che la variabile di risposta sia sempre positiva e che vari in un ampio intervallo, i cambiamenti costanti dell'input portano a variazioni di output che variano geometricamente (cioè in modo esponenziale), piuttosto che costantemente. Ad esempio, supponiamo che un modello di previsione lineare apprenda da alcuni dati (forse tratti principalmente da grandi spiagge) che una diminuzione della temperatura di 10 gradi porterebbe a 1.000 persone in meno a visitare la spiaggia. È improbabile che questo modello si generalizzi bene su spiagge di dimensioni diverse. Più specificamente, il problema è che se si utilizza il modello per prevedere la nuova presenza con un calo di temperatura di 10 gradi per una spiaggia che riceve regolarmente 50 bagnanti, si prevede un valore di presenza impossibile di -950 bagnanti. Logicamente, un modello più realistico prevederebbeprevedrebbe invece un tasso costante di maggiore frequentazione della spiaggia (ad es. un aumento di 10 gradi porta a un raddoppio della frequentazione della spiaggia e un calo di 10 gradi porta a un dimezzamento delle presenze). Tale modello è definito modello a risposta esponenziale (o modello log-lineare, poiché si prevede che il logaritmo della risposta vari linearmente).
 
Allo stesso modo, un modello che predice una probabilità di fare una scelta sì/no (una variabile di Bernoulli) è ancora meno adatto come modello a risposta lineare, poiché le probabilità sono limitate su entrambe le estremità (devono essere comprese tra 0 e 1). Si immagini, ad esempio, un modello che prevede la probabilità che una determinata persona vada in spiaggia in funzione della temperatura. Un modello ragionevole potrebbe prevedere, ad esempio, che una variazione di 10 gradi renda una persona due volte più o meno propensa ad andare in spiaggia. Ma cosa significa "due volte più probabile" in termini di probabilità? Non può letteralmente significare raddoppiare il valore di probabilità (ad es. 50% diventa 100%, 75% diventa 150%, ecc.). Piuttosto, sono le probabilità che raddoppiano: da 2:1 a 4:1, a 8:1, ecc. Tale modello è un modello logistico.
Riga 51:
 
== Specificazione del modello ==
Come sopra citato, i modelli lineari generalizzati comprendono una vasta gamma di modelli. Dunque per individuare un particolare modello é necessiarionecessario specificare:
 
# la funzione di collegamento <math>g</math> (nota anche come link function) da applicare al valore atteso della variabile risposta <math>g(E[Y])=\eta</math>; tale funzione deve essere nota, monotona e derivabile
Riga 58:
Ad esempio: la [[regressione lineare]] è un glm con funzione di collegamento la [[funzione identità]] e distribuzione della variabile risposta [[Distribuzione normale|Normale]]; la [[regressione logistica]] è un glm con funzione di collegamento la [[Funzione logistica|funzione logit]] e distribuzione della variabile risposta Bernoulli; la [[regressione poissoniana]] è un glm con funzione di collegamento la funzione logaritmica e distribuzione della variabile risposta Poisson<ref name=":0">{{Cita libro|titolo=Hardin J.W., Hilbe J.M., Generalized Linear Models and Extensions, Stata Press, 2007}}</ref>.
 
== Stima dei paramentriparametri ==
 
=== Stima dei coefficienti di regressione ===
Riga 67:
# ''iterative'': l'algoritmo itera fino a convergenza l'algoritmo Fisher-Scoring (algoritmo numerico di massimizzazione che deriva dallo [[sviluppo in serie di Taylor]] arrestato al primo ordine, che si sintetizza nella seguente formula: <math>\beta^{(r+1)}=\beta^{(r)}+I(\beta^{(r)})^{-1}*s(\beta^{(r)})</math>, dove <math>I(\beta^{(r)})</math> è l'informazione attesa di Fisher e <math>s(\beta^{(r)})</math> è la funzione punteggio o score function.
# ''reweighted'': le singole unità statistiche sono riponderate tramite la matrice <math>W=diag(w_i)</math> dove <math>w_i=\left ( \frac{d\mu_i}{d\eta_i} \right )^2*\left ( \frac{1}{Var(Y_i)} \right )</math>
# ''leasts squares'': si dimostra che la formula dell'algoritmo di Fisher-Scoring nel caso dei glm si ricorducericonduce alla seguente <math>\beta^{(r+1)}=(X'W^{(r)}X)^{-1}X'W^{(r)}z^{(r)}</math>, dove <math>z</math> è il vettore delle pseudo-risposte <math>z_i=\eta_i*(y_i-\mu_i)*{d\eta_i \over d\mu_i}</math>; che, ponendo <math>W=I</math> e <math>y_i=z_i</math>, si riconduce alla formula dei [[Metodo dei minimi quadrati|minimi quadrati]] per il modello di regressione lineare normale.<ref name=":0" />
 
=== Stima del parametro di dispersione ===
Per la stima del parametro di dispersione <math>\tau</math> si ricorre al [[Metodo dei momenti (statistica)|metodo dei momenti]] e si ottiengonoottengono i seguenti risultati:
 
* <math>\tilde{d(\tau)}={1 \over n-k-1}*\sum_{i=1}^N{(y_i-\widehat{\mu_i})^2 \over V(\widehat{\mu_i})}</math>
Riga 78:
Il significato delle stime dei coefficienti di regressione <math>\widehat{\beta_j}</math> varia a seconda della categoria di modello di modello lineare generalizzato preso in considerazione:
 
* regresssioniregressioni lineare normale: <math>\widehat{\beta_j}</math> corrisponde alla variazione assoluta media della variabile risposta in corrispondenza della variazione univariaunivariata della j-esima covariata a parità della altraealtre condizioni;
* regressione logistica e binomiale: <math>\widehat{OR}=\exp{\beta_j}</math> corrisponde all'aumento percentuale dell'[[Odds ratio|Odds Ratio]] all'aumentare di un'unità della j-esima covariata a parità delle altre condiionicondizioni
* regressione poissoniana: <math>\widehat{IRR}=\exp{\widehat{\beta_j}}</math> corrisponde alla variazione percentuale della risposta media all'aumentare di un'unità della j-esima covariata a parità delle altre condizioni (Incident Rate Ratio)
 
Inoltre, è possibile stabilire tramite [[Test di verifica d'ipotesi|verifica d'ipotesi]] la significatività dei singoli coefficienti di regressione. In paricolareparticolare, si ricorre al test di Wald, noto anche come [[test Z]]: <math>H_0:\beta_j=0</math> vs <math>H_1:\beta_j\neq0</math>.
 
La statistica test è: <math>z.value={\widehat{\beta_j}-0 \over SE(\widehat{B_j})} \sim N(0,1)</math>, il [[Valore p|p-value]] si calcola come: <math>2P(Z>|z.value|)</math>. Se il p-value è inferiore al valore <math>\alpha</math> fissato a priori allora la covariata è significativa al livello <math>\alpha</math>.
Riga 90:
 
=== Bontà del modello ===
Per varificareverificare la bontà del modello si può ricorrere a due test statistici: uno basato sulla devianza ed uno basato sulla <math>\mathrm{X}^2</math> di [[Karl Pearson|Pearson]]. Entrambi hanno come ipotesi nulla l'adaguetezzaadeguatezza del modello.
 
# Test basato devianza: la statistica test è <math>D^*\sim\chi_{n-k-1}^2</math> (per n grande)
Riga 113:
# <math>R^2={1-exp((-D_{M_0}+D_{M})/n) \over 1-exp(-D_{M_0}/n)}\in[0,1]</math>, il modello migliore ha valore più alto
# <math>AIC=-2*[l_M-(k+1)]</math>, il modello migliore ha valore più basso
# <math>BIC=-2l_M+(k+1)log(n)</math>, il modello migliore ha valotrevalore più basso
 
== Note ==