Modello lineare generalizzato: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
→Bontà del modello: corretti gli assunti |
m sistemazione fonti e fix vari |
||
Riga 3:
I modelli lineari generalizzati vennero formulati da [[John Nelder]] e [[Robert Wedderburn]]
come un modo per uniformare all'interno di un unico modello diversi altri modelli statistici, compreso il [[regressione lineare|modello lineare]], le [[regressione logistica]] e la [[regressione poissoniana]].
Si riesce in questo modo a incorporare in un unico modello anche altri modelli oltre a quello lineare.<ref>{{Cita pubblicazione|nome=J. A.|cognome=Nelder|nome2=R. W. M.|cognome2=Wedderburn|data=1972|titolo=Generalized Linear Models|rivista=Journal of the Royal Statistical Society. Series A (General)|volume=135|numero=3|pp=370–384|accesso=1º novembre 2020
== Intuizione ==
Riga 12:
Allo stesso modo, un modello che predice una probabilità di fare una scelta sì/no (una variabile di Bernoulli) è ancora meno adatto come modello a risposta lineare, poiché le probabilità sono limitate su entrambe le estremità (devono essere comprese tra 0 e 1). Si immagini, ad esempio, un modello che prevede la probabilità che una determinata persona vada in spiaggia in funzione della temperatura. Un modello ragionevole potrebbe prevedere, ad esempio, che una variazione di 10 gradi renda una persona due volte più o meno propensa ad andare in spiaggia. Ma cosa significa "due volte più probabile" in termini di probabilità? Non può letteralmente significare raddoppiare il valore di probabilità (ad es. 50% diventa 100%, 75% diventa 150%, ecc.). Piuttosto, sono le probabilità che raddoppiano: da 2:1 a 4:1, a 8:1, ecc. Tale modello è un modello logistico.
I modelli lineari generalizzati coprono tutte queste situazioni consentendo variabili di risposta che hanno distribuzioni arbitrarie (piuttosto che distribuzioni semplicemente normali) e che una funzione arbitraria della variabile di risposta (la funzione di collegamento) vari linearmente con i valori previsti (piuttosto che assumere che la risposta stessa debba variare linearmente). Ad esempio, il caso precedente del numero previsto di partecipanti alla spiaggia sarebbe tipicamente modellato con una distribuzione di Poisson e un collegamento logaritmico, mentre il caso della probabilità prevista di frequentazione della spiaggia sarebbe tipicamente modellato con una distribuzione di Bernoulli (o distribuzione binomiale, a seconda di come viene esattamente formulato il problema) e una funzione di collegamento log-[[odds]] (o [[logit]]).<ref>{{Cita pubblicazione|nome=Stephen|cognome=Senn|data=2003-02|titolo=A Conversation with John Nelder|rivista=Statistical Science|volume=18|numero=1|pp=118–131|lingua=en|accesso=1º novembre 2020
== Panoramica ==
Riga 30:
== Le componenti del modello ==
Il GLM è composto da tre elementi<ref>{{Cita web|url=https://online.stat.psu.edu/stat504/node/216/|titolo=6.1 - Introduction to Generalized Linear Models {{!}} STAT 504
# la funzione di distribuzione <math>f</math>, facente parte della famiglia esponenziale;
# il predittore lineare <math>\eta=\mathbf{X}\boldsymbol{\beta}</math>;
Riga 91:
Per verificare la bontà del modello si può ricorrere a due test statistici: uno basato sulla devianza ed uno basato sulla <math>\mathrm{X}^2</math> di [[Karl Pearson|Pearson]]. Entrambi hanno come ipotesi nulla l'adeguatezza del modello.
# Test basato devianza: la statistica test è <math>D^*\dot\sim\chi_{n-k-1}^2</math> (per n grande e parametro di dispersione <math>\tau</math> noto e piccolo<ref>{{Cita pubblicazione|autore=Bent Jørgensen|nome=Bent|cognome=Jørgensen|anno=1987|titolo=Exponential Dispersion Models|rivista=Journal of the Royal Statistical Society. Series B (Methodological)|volume=49|numero=2|pp=127-162|
#Test basato sulla <math>\mathrm{X}^2</math> di Pearson: la statistica test è <math>\mathrm{X}^2=\sum_{i=1}^N{(y_i-\widehat\mu_i)^2 \over \mathrm{V}(\widehat\mu_i)d(\tau)}\sim \chi^2_{n-k-1}</math>. (per n grande).
In entrambi i casi se il [[Valore p|p-value]] è maggiore del livello di significatività fissato a priori, non rifiuto l'ipotesi nulla e concludo che il modello è adeguato.
=== Confronto tra modelli annidati ===
|