Modello lineare generalizzato: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Botcrux (discussione | contributi)
m Bot: Aggiungo template {{interprogetto}} (FAQ)
FrescoBot (discussione | contributi)
m Bot: numeri di pagina nei template citazione
 
(9 versioni intermedie di 7 utenti non mostrate)
Riga 3:
I modelli lineari generalizzati vennero formulati da [[John Nelder]] e [[Robert Wedderburn]]
come un modo per uniformare all'interno di un unico modello diversi altri modelli statistici, compreso il [[regressione lineare|modello lineare]], le [[regressione logistica]] e la [[regressione poissoniana]].
Si riesce in questo modo a incorporare in un unico modello anche altri modelli oltre a quello lineare.<ref>{{Cita pubblicazione|nome=J. A.|cognome=Nelder|nome2=R. W. M.|cognome2=Wedderburn|data=1972|titolo=Generalized Linear Models|rivista=Journal of the Royal Statistical Society. Series A (General)|volume=135|numero=3|pp=370–384370-384|accesso=1º novembre 2020-11-01|doi=10.2307/2344614|url=https://www.jstor.org/stable/2344614}}</ref>
 
== Intuizione ==
La regressione lineare ordinaria prevede il valore atteso di una data quantità sconosciuta (la variabile di risposta, una variabile casuale) come [[combinazione lineare]] di un insieme di valori osservati (predittori). Ciò implica che un cambiamento costante in un predittore porta a un cambiamento costante nella variabile di risposta (cioè un modello a risposta lineare). Ciò è appropriato quando la variabile di risposta può variare, con buona approssimazione, indefinitamente in entrambe le direzioni, o più generalmente per qualsiasi quantità che varia solo di una quantità relativamente piccola rispetto alla variazione delle variabili predittive, ad es. altezze umane.
 
Tuttavia, queste ipotesi non sono appropriate per alcuni tipi di variabili di risposta. Ad esempio, nei casi in cui si prevede che la variabile di risposta sia sempre positiva e che vari in un ampio intervallo, i cambiamenti costanti dell'input portano a variazioni di output che variano geometricamente (cioè in modo esponenziale), piuttosto che costantemente. Ad esempio, supponiamo che un modello di previsione lineare apprenda da alcuni dati (forse tratti principalmente da grandi spiagge) che una diminuzione della [[temperatura]] di 10 gradi porterebbe a 1.000 persone in meno a visitare la spiaggia. È improbabile che questo modello si generalizzi bene su spiagge di dimensioni diverse. Più specificamente, il problema è che se si utilizza il modello per prevedere la nuova presenza con un calo di temperatura di 10 gradi per una spiaggia che riceve regolarmente 50 bagnanti, si prevede un valore di presenza impossibile di -950 bagnanti. Logicamente, un modello più realistico prevedrebbe invece un tasso costante di maggiore frequentazione della spiaggia (ad es. un aumento di 10 gradi porta a un raddoppio della frequentazione della spiaggia e un calo di 10 gradi porta a un dimezzamento delle presenze). Tale modello è definito modello a risposta esponenziale (o modello log-lineare, poiché si prevede che il [[logaritmo]] della risposta vari linearmente).
 
Allo stesso modo, un modello che predice una probabilità di fare una scelta sì/no (una variabile di Bernoulli) è ancora meno adatto come modello a risposta lineare, poiché le probabilità sono limitate su entrambe le estremità (devono essere comprese tra 0 e 1). Si immagini, ad esempio, un modello che prevede la probabilità che una determinata persona vada in spiaggia in funzione della temperatura. Un modello ragionevole potrebbe prevedere, ad esempio, che una variazione di 10 gradi renda una persona due volte più o meno propensa ad andare in spiaggia. Ma cosa significa "due volte più probabile" in termini di probabilità? Non può letteralmente significare raddoppiare il valore di probabilità (ad es. 50% diventa 100%, 75% diventa 150%, ecc.). Piuttosto, sono le probabilità che raddoppiano: da 2:1 a 4:1, a 8:1, ecc. Tale modello è un modello logistico.
 
I modelli lineari generalizzati coprono tutte queste situazioni consentendo variabili di risposta che hanno distribuzioni arbitrarie (piuttosto che distribuzioni semplicemente normali) e che una funzione arbitraria della variabile di risposta (la funzione di collegamento) vari linearmente con i valori previsti (piuttosto che assumere che la risposta stessa debba variare linearmente). Ad esempio, il caso precedente del numero previsto di partecipanti alla spiaggia sarebbe tipicamente modellato con una distribuzione di Poisson e un collegamento logaritmico, mentre il caso della probabilità prevista di frequentazione della spiaggia sarebbe tipicamente modellato con una distribuzione di Bernoulli (o distribuzione binomiale, a seconda di come viene esattamente formulato il problema) e una funzione di collegamento log-[[odds]] (o [[logit]]).<ref>{{Cita pubblicazione|nome=Stephen|cognome=Senn|data=2003-02|titolo=A Conversation with John Nelder|rivista=Statistical Science|volume=18|numero=1|pp=118–131118-131|lingua=en|accesso=1º novembre 2020-11-01|doi=10.1214/ss/1056397489|url=https://projecteuclid.org/euclid.ss/1056397489}}</ref>
 
== Panoramica ==
Riga 30:
 
== Le componenti del modello ==
Il GLM è composto da tre elementi<ref>{{Cita web|url=https://online.stat.psu.edu/stat504/node/216/|titolo=6.1 - Introduction to Generalized Linear Models {{!}} STAT 504|sito=online.stat.psu.edu|accesso=2020-11-01|dataarchivio=27 ottobrenovembre 2020|urlarchivio=https://web.archive.org/web/20201027055228/https://online.stat.psu.edu/stat504/node/216/|urlmorto=sì}}</ref>:
# la funzione di distribuzione <math>f</math>, facente parte della famiglia esponenziale;
# il predittore lineare <math>\eta=\mathbf{X}\boldsymbol{\beta}</math>;
Riga 64:
Il metodo più usato è l'algoritmo IRLS (''iterative reweighted leasts squares).'' Dalla denominazione dell'algoritmo si può desumere il suo funzionamento:
 
# ''iterative'': l'[[algoritmo]] itera fino a convergenza l'algoritmo Fisher-Scoring (algoritmo numerico di massimizzazione che deriva dallo [[sviluppo in serie di Taylor]] arrestato al primo ordine, che si sintetizza nella seguente formula: <math>\beta^{(r+1)}=\beta^{(r)}+I(\beta^{(r)})^{-1}*s(\beta^{(r)})</math>, dove <math>I(\beta^{(r)})</math> è l'informazione attesa di Fisher e <math>s(\beta^{(r)})</math> è la funzione punteggio o score function.
# ''reweighted'': le singole unità statistiche sono riponderate tramite la matrice <math>W=diag(w_i)</math> dove <math>w_i=\left ( \frac{d\mu_i}{d\eta_i} \right )^2*\left ( \frac{1}{Var(Y_i)} \right )</math>
# ''leasts squares'': si dimostra che la formula dell'algoritmo di Fisher-Scoring nel caso dei glm si riconduce alla seguente <math>\beta^{(r+1)}=(X'W^{(r)}X)^{-1}X'W^{(r)}z^{(r)}</math>, dove <math>z</math> è il vettore delle pseudo-risposte <math>z_i=\eta_i* + (y_i-\mu_i)*{d\eta_i \over d\mu_i}</math>; che, ponendo <math>W=I</math> e <math>y_i=z_i</math>, si riconduce alla formula dei [[Metodo dei minimi quadrati|minimi quadrati]] per il modello di regressione lineare normale.<ref name=":0" />
 
=== Stima del parametro di dispersione ===
Riga 86:
 
== Bonta del modello e confronto tra modelli ==
Innanzitutto, si definisce il concetto di devianza per un modello lineare generalizzato, interpretabile come la distanza dal modello saturo in termini di estremo superiore della log-[[Funzione di verosimiglianza|verosimiglianza]]. Il modullomodello saturo è quello con <math>k=n</math>, ha un fit perfetto ma genera [[overfitting]]. In formule: <math>D=-2*d(\tau)*[l(\widehat\beta, y)-l(\widehat\beta_s, y)]=-2*\sum_{i=1}^N[y_i\widehat\theta_i-c(\widehat\theta_i)]-[y_i\widehat\theta_{iS}-c(\widehat\theta_{iS})=\sum_{i=1}^Nd_i</math>. Inoltre, si introduce la devianza normalizzata <math>D^*={D \over d(\tau)}</math>
 
=== Bontà del modello ===
Per verificare la bontà del modello si può ricorrere a due test statistici: uno basato sulla devianza ed uno basato sulla <math>\mathrm{X}^2</math> di [[Karl Pearson|Pearson]]. Entrambi hanno come ipotesi nulla l'adeguatezza del modello.
 
# Test basato devianza: la statistica test è <math>D^*\dot\sim\chi_{n-k-1}^2</math> (per n grande e parametro di dispersione <math>\tau</math> noto e piccolo<ref>{{Cita pubblicazione|autore=Bent Jørgensen|anno=1987|titolo=Exponential Dispersion Models|rivista=Journal of the Royal Statistical Society. Series B (Methodological)|volume=49|numero=2|pp=127-162|url=http://www.jstor.org/stable/2345415}}</ref>. Per il modello lineare normale la distribuzione del test è esatta. Per il glm Poisson il risultato va bene per <math>\mu_i</math> o <math>\hat\mu_i</math> grandi, ad esempio maggiori di 5);
# Test basato devianza: la statistica test è <math>D^*\sim\chi_{n-k-1}^2</math> (per n grande)
#Test basato sulla <math>\mathrm{X}^2</math> di Pearson: la statistica test è <math>\mathrm{X}^2=\sum_{i=1}^N{(y_i-\widehat\mu_i)^2 \over \mathrm{V}(\widehat\mu_i)d(\tau)}\sim \chi^2_{n-k-1}</math>. (per n grande).
In entrambi i casi se il [[Valore p|p-value]] è maggiore del livello di significatività fisatofissato a priori, non rifiuto l'ipotesi nulla e concludo che il modello è adeguato.
 
=== Confronto tra modelli annidati ===
Due modelli <math>M_1</math> (con <math>k_1</math> covariate) ed <math>M_2</math> (con <math>k_2</math> covariate), tali che <math>k_1<k_2</math>, si dicono annidati se hanno la stessa specificazione e le prime <math>k_1</math> covariate di <math>M_2</math> coincidono con le covariate di <math>M_1</math> a cui sse enene aggiungono altre. PePer rconfrontareconfrontare due modelli annidati si può ricorrere a due [[Test di verifica d'ipotesi|test statistici]]: il test basato sulla devianza e quello basato sulla statistica F.
 
Per entrambi i test l'[[ipotesi nulla]] è: <math>H_0: \beta_{k_1+1}=\beta_{k_2+2}=...=\beta_{k_2}=0</math>.
Riga 118:
 
== Altri progetti ==
{{interprogetto|preposizione=sul}}
 
{{Controllo di autorità}}