Modello lineare generalizzato: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m Bot: righe vuote in eccesso e modifiche minori |
Funzionalità collegamenti suggeriti: 3 collegamenti inseriti. |
||
Riga 1:
I '''modelli lineari generalizzati''' (GLM) sono una generalizzazione del più classico [[modello lineare]] nell'ambito della [[regressione lineare]]. Mentre nel modello lineare classico si ipotizza che la variabile endogena sia distribuita in modo [[variabile casuale normale|normale]], nell'ambito dei modelli lineari generalizzati la variabile endogena può essere distribuita come una qualsiasi [[variabile casuale]] della famiglia esponenziale e dunque, oltre alla variabile casuale normale, entrano in gioco anche altre variabili casuali, quali la [[variabile casuale binomiale|binomiale]], la [[variabile casuale poissoniana|poissoniana]], la [[variabile casuale gamma|gamma]], la [[variabile casuale normale inversa|normale inversa]] e altre.
I modelli lineari generalizzati vennero formulati da [[John Nelder]] e [[Robert Wedderburn]]
Riga 6:
== Intuizione ==
La regressione lineare ordinaria prevede il valore atteso di una data quantità sconosciuta (la variabile di risposta, una variabile casuale) come [[combinazione lineare]] di un insieme di valori osservati (predittori). Ciò implica che un cambiamento costante in un predittore porta a un cambiamento costante nella variabile di risposta (cioè un modello a risposta lineare). Ciò è appropriato quando la variabile di risposta può variare, con buona approssimazione, indefinitamente in entrambe le direzioni, o più generalmente per qualsiasi quantità che varia solo di una quantità relativamente piccola rispetto alla variazione delle variabili predittive, ad es. altezze umane.
Tuttavia, queste ipotesi non sono appropriate per alcuni tipi di variabili di risposta. Ad esempio, nei casi in cui si prevede che la variabile di risposta sia sempre positiva e che vari in un ampio intervallo, i cambiamenti costanti dell'input portano a variazioni di output che variano geometricamente (cioè in modo esponenziale), piuttosto che costantemente. Ad esempio, supponiamo che un modello di previsione lineare apprenda da alcuni dati (forse tratti principalmente da grandi spiagge) che una diminuzione della temperatura di 10 gradi porterebbe a 1.000 persone in meno a visitare la spiaggia. È improbabile che questo modello si generalizzi bene su spiagge di dimensioni diverse. Più specificamente, il problema è che se si utilizza il modello per prevedere la nuova presenza con un calo di temperatura di 10 gradi per una spiaggia che riceve regolarmente 50 bagnanti, si prevede un valore di presenza impossibile di -950 bagnanti. Logicamente, un modello più realistico prevederebbe invece un tasso costante di maggiore frequentazione della spiaggia (ad es. un aumento di 10 gradi porta a un raddoppio della frequentazione della spiaggia e un calo di 10 gradi porta a un dimezzamento delle presenze). Tale modello è definito modello a risposta esponenziale (o modello log-lineare, poiché si prevede che il logaritmo della risposta vari linearmente).
Riga 61:
=== Stima dei coefficienti di regressione ===
La stima dei coefficienti di regressione <math>\beta </math> avviene tramite il [[metodo della massima verosimiglianza]], che consiste nel massimizzare la funzione di verosimiglianza. Nel caso dei glm, che conservano l'indipendenza della variabile risposta, tale funzione è data dalla [[produttoria]] della funzione di denistà o di probabilità. Si procede facendo la derivata prima della funzione di verosimiglianza e uguagliandola a zero. Da tale equazione si dovrebbe ottenere la stima <math>\widehat{\beta}</math> dei coefficienti <math>\beta</math>. Tuttavia tale equazione non ammette soluzione analitica. Pertanto, è necessario ricorrere ad algoritmi numerici per ottenere tale stima.
Il metodo più usato è l'algoritmo IRLS (''iterative reweighted leasts squares).'' Dalla denominazione dell'algoritmo si può desumere il suo funzionamento:
|