Modello probit: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica
Etichetta: Rimozione di avvisi di servizio
tolgo un a capo
 
(16 versioni intermedie di 9 utenti non mostrate)
Riga 1:
[[File:Logistic-sigmoid-vs-scaled-probit.svg|thumb|In rosso tratteggiato è rappresentato il modello probit.]]
Il modello Probit, in Ingegneria dei trasporti, è un modello di utilità aleatoria la cui ipotesi di base è che i residui aleatori ε relativi all'utilità percepita, siano distribuiti come una variabile aleatoria normale multivariata definita da un vettore di medie e una matrice di covarianze. Il modello si differenzia dal modello Logit Multinomiale solamente per l'ipotesi sulla distribuzione degli ε. In quest'ultimo l'ipotesi è che i residui siano distribuiti secondo una variabile aleatoria di Gumbel di parametro θ. Il Probit non è un modello in forma chiusa, per cui per calcolare le probabilità Probit, abbiamo bisogno di metodi iterativi; il più usato è il metodo Monte Carlo. Possiamo trovare due tipi di specificazioni Probiit che sono l'Error Components e l'Error Coefficients. Il modello Error Components Probit, con algoritmo Monte Carlo, è il modello più utilizzato per calcolare le probabilità del modello di scelta del percorso. L'Error Components Probit, fonda le sue ipotesi in questa relazione: ε= '''F'''x'''z'''; dove F è una matrice che ha tante righe quanti sono gli ε, e tante colonne quante sono le z; le z sono variabili aleatorie monovariate indipendenti. Per l' Error Components z= '''η'''/'''F''' dove le '''η''' sono v.a. Normali monovariate indipendenti, ed '''F''' la deviazione standard di '''η'''. In più rispetto al Logit, con il Probit riesco a riprodurre le correlazioni tra le alternative, per cui risulta più preciso.
In [[statistica]] e in [[econometria]], il '''modello probit''' è un modello di [[regressione nonlineare]] utilizzato quando la [[variabile dipendente]] è di tipo [[Variabile dicotomica|dicotomico]]. L'obiettivo del modello è di stabilire la probabilità con cui un'osservazione può generare uno o l'altro valore della variabile dipendente; può inoltre essere utilizzato per classificare le osservazioni, in base alla caratteristiche di queste, in due categorie.<ref name="Definizione">{{Cita libro|titolo=Introduction to Econometrics|url=https://archive.org/details/introductiontoec0000stoc_z0a9|autore1=James H. Stock|autore2=Mark W. Watson|editore=Pearson|anno=2015|edizione=3|lingua=inglese|ISBN=978-1-292-07131-2|capitolo=Regression with a Binary Dependent Variable|pp=[https://archive.org/details/introductiontoec0000stoc_z0a9/page/437 437]-439}}</ref><br />
Il modello è stato proposto per la prima volta da [[Chester Ittner Bliss]] nel [[1934]],<ref>{{Cita pubblicazione|titolo=THE METHOD OF PROBITS|autore=Chester I. Bliss|wkautore=Chester Ittner Bliss|rivista=Science|data=12 gennaio 1934|volume=79|pp=38-39|doi=10.1126/science.79.2037.38|PMID=17813446|accesso=20 novembre 2018}}</ref> ampliato l'anno successivo da [[Ronald Fisher]] che introdusse un metodo iterativo per la stima dei parametri tramite il [[metodo della massima verosimiglianza]].
 
== Scelta della funzione ==
[[File:Probit plot.svg|thumb|La funzione probit. L'inversa di questa funzione è utilizzata nel modello probit.]]
Un modello di regressione dove la variabile dipendente è dicotomica, ossia una variabile che può avere come unici valori 0 e 1 o riconducibili ad essi, calcola la probabilità che questa variabile acquisisca valore 1.
::<math>\mathbb{E} \left[ Y \mid X=x \right ] = 1 \ Pr \left ( Y=1 \mid X=x \right )+0 \ Pr \left ( Y=0 \mid X=x \right ) = \ Pr \left ( Y=1 \mid X=x \right )</math>
Data questa limitazione dei valori di <math>Y</math>, la funzione da adottare per la regressione deve essere nonlineare con codominio <math>C= \left [ 0,1 \right ]</math>, una caratteristica che possiedono le [[Funzione di ripartizione|funzioni di ripartizione]].<ref name="Definizione" /> La necessità di non linearità deriva dal fatto che la funzione, per poter rimanere all'interno del codominio dato, deve avere [[derivata]] prima non costante, quindi dipendente dai regressori. Se così non fosse, la funzione sarebbe una retta e il suo codominio diventerebbe <math>\mathbb{R}</math>. Si supponga infatti il seguente modello lineare:
::<math>\ Pr \left ( Y=1 \mid X=x \right ) = \beta_0 + \beta_1 X</math>
dove la derivata
::<math>\frac{\partial}{\partial X} \ Pr \left ( Y=1 \mid X=x \right ) = \beta_1</math>
è costante e uguale al parametro <math>\beta_1</math>. In base al segno di questo parametro, la funzione sarà crescente, se positivo, o decrescente se negativo, ma non è possibile avere come codominio <math>C</math> perché questo richiederebbe una derivata dipendente dal valore di <math>X</math>. Se si considera invece il seguente modello:
::<math>\ Pr \left ( Y=1 \mid X=x \right ) = \ F \left ( \alpha_0 + \alpha_1 X \right )</math>
dove la derivata
::<math>\frac{\partial}{\partial X} \ Pr \left ( Y=1 \mid X=x \right ) = \ f \left ( \alpha_0 + \alpha_1 X \right )\alpha_1</math>
è dipendente anche dalla variabile <math>X</math>, è possibile, al variare di <math>X</math>, far variare la pendenza della curva, limitando questa al codominio dato.
Per il modello probit si utilizza come funzione <math>F</math> la funzione di ripartizione della [[distribuzione normale]] standard, ossia l'[[Funzione inversa|inversa]] della funzione probit.<ref name="Definizione" />
 
== Definizione ==
Il modello di regressione probit per la [[Popolazione statistica|popolazione]] è:<ref name="Definizione" />
::<math>\mathbb{E}\left[Y\mid\mathbf{X}\right]=\ Pr\left(Y=1 \mid X_1, \ldots, X_k\right)=\Phi\left(\beta_0 + \beta_1 X_1 + \ldots + \beta_k X_k \right)=\Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right)</math>
dove:
*<math>Pr</math> indica la probabilità;
*<math>Y</math> è la [[variabile dipendente]] [[Variabile dicotomica|dicotomica]] con una [[distribuzione bernoulliana]] <math>Y \sim \mathcal{Be}\left(\Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right)\right)</math>;
* <math>\mathbf{X}</math> è il [[Vettore (matematica)|vettore]] di [[variabili indipendenti]] o regressori <math>X_1, \ldots, X_k</math>;
* <math>\boldsymbol{\beta}</math> è il vettore di parametri <math>\beta_0, \ldots, \beta_k</math>;
* <math>\Phi</math> è la funzione di ripartizione della distribuzione normale standard.
 
=== Varianza ===
La [[varianza]] della variabile dipendente risulta dipendere dal vettore dei regressori <math>\mathbf{X}</math>. Infatti
::<math>Var\left(Y\mid\mathbf{X}\right)=\mathbb{E}\left[Y^2\mid\mathbf{X}\right]-\mathbb{E}\left[Y\mid\mathbf{X}\right]^2=\Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right)\cdot\left(1-\Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right)\right)</math>.
 
=== Effetto marginale ===
L'effetto sulla variabile dipendente <math>Y</math> dato da un cambiamento in un regressore <math>X_j</math>, chiamato effetto marginale, è calcolato come la derivata del [[valore atteso]] di <math>Y</math> rispetto a <math>X_j</math>:
::<math>\frac{\partial}{\partial X_j}\mathbb{E}\left[Y\mid\mathbf{X}\right] = \Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right) = \phi\left(\mathbf{X}^T \boldsymbol{\beta}\right)\cdot \beta_j</math>
dove <math>\phi</math> è la [[funzione di densità di probabilità]] della [[distribuzione normale]] standard e <math>\beta_j</math> è il parametro che moltiplica il regressore <math>X_j</math>.<ref name="Definizione" /> Per il calcolo della derivata il regressore deve essere continuo.
 
== Illustrazione del metodo ==
Per ogni osservazione [[Campione statistico|campionaria]] <math>i = 1, \ldots, n</math> si dispone di una determinazione <math>Y</math> e di <math>k</math> determinazioni <math>X_1, \ldots, X_k</math>. Il modello cerca una relazione non lineare, utilizzando la funzione di ripartizione della distribuzione normale standard, tra la variabile dipendente e <math>k</math> variabili indipendenti, stimando il valore dei coefficienti <math>\beta_0, \ldots, \beta_k</math> tramite il metodo della massima verosimiglianza.<ref name="Definizione" />
 
== Stima dei parametri ==
Il vettore di parametri <math>\boldsymbol{\beta}</math> è di norma stimato con il [[metodo della massima verosimiglianza]], con il quale si ottengono stimatori [[Efficienza (statistica)|efficienti]], [[Consistenza (statistica)|consistenti]] e distribuiti normalmente nel caso in cui il [[campione statistico]] sia abbastanza grande.<ref name="Stimatori">{{Cita libro|titolo=Introduction to Econometrics|url=https://archive.org/details/introductiontoec0000stoc_z0a9|autore1=James H. Stock|autore2=Mark W. Watson|editore=Pearson|anno=2015|edizione=3|lingua=inglese|ISBN=978-1-292-07131-2|capitolo=Regression with a Binary Dependent Variable|pp=[https://archive.org/details/introductiontoec0000stoc_z0a9/page/441 441]-442}}</ref> Queste proprietà permettono di calcolare il [[test t]] su un parametro, il [[test F]] nel caso di restrizioni multiple e gli [[Intervallo di confidenza|intervalli di confidenza]].<ref name="Stimatori" />
 
=== Funzione di verosimiglianza ===
Nel modello probit la variabile dipendente <math>Y</math> è dicotomica e con distribuzione <math>Y \sim \mathcal{Be} \left (p \right )</math>. Si consideri un campione di <math>n</math> osservazioni dove ciascuna di esse è identificata con <math>i=1, \ldots, n</math>. Per la definizione del modello, la probabilità che questa variabile sia 1 per una data osservazione <math>i</math> è
::<math>\ Pr\left(Y_i=1 \mid X_{1i}, \ldots, X_{ki}\right)=\Phi\left(\beta_0 + \beta_1 X_{1i} + \ldots + \beta_k X_{ki} \right)=p_i</math>,
mentre la probabilità che sia 0 è
::<math>\ Pr\left(Y_i=0 \mid X_{1i}, \ldots, X_{ki}\right)=1 - \Phi\left(\beta_0 + \beta_1 X_{1i} + \ldots + \beta_k X_{ki} \right)=1-p_i</math>.
La distribuzione di [[probabilità condizionata]] per ogni elemento <math>i</math> può essere scritta come
::<math>\ Pr\left(Y_i=y_i \mid X_{1i}, \ldots, X_{ki}\right)=p_i^{y_i} \left (1-p_i \right )^{1-y_i}</math>.
Si considera ora l'intero campione e sia assume che per ogni osservazione <math>i</math>, <math>\left (X_{1i}, X_{2i}, \ldots, X_{ki}, Y_i \right )</math> siano [[Variabili indipendenti e identicamente distribuite|indipendenti e identicamente distribuite]]. Risulta quindi che la distribuzione di [[probabilità congiunta]] di <math>Y_1, \ldots, Y_n</math> è il prodotto delle probabilità condizionate di ogni osservazione:
::<math>\ Pr \left ( Y_1=y_1, \ldots, Y_n=y_n \mid X_{1i}, \ldots, X_{ki}\right) =</math>
::<math>=\Pr \left ( Y_1=y_1 \mid X_{11}, \ldots, X_{k1} \right ) \cdot \ldots \cdot \ Pr \left ( Y_n=y_n \mid X_{1n}, \ldots, X_{kn} \right ) =</math>
::<math>= p_1^{y_1} \left ( 1-p_1 \right ) ^{1-y_1} \cdot \ldots \cdot p_n^{y_n} \left ( 1-p_n \right ) ^{1-y_n} = \prod_{i=1}^n p_i^{y_i} \left ( 1-p_i \right ) ^{1-y_i}</math>.
 
Si riprende ora la definizione del modello probit e la si sostituisce al posto di <math>p_i</math>, ottenendo quindi la [[funzione di verosimiglianza]]<ref>L'intera derivazione della funzione di verosimiglianza è consultabile alle pagine qui riportate. {{Cita libro|titolo=Introduction to Econometrics|url=https://archive.org/details/introductiontoec0000stoc_z0a9|autore1=James H. Stock|autore2=Mark W. Watson|editore=Pearson|anno=2015|edizione=3|lingua=inglese|ISBN=978-1-292-07131-2|capitolo=Regression with a Binary Dependent Variable|pp=[https://archive.org/details/introductiontoec0000stoc_z0a9/page/465 465]-466}}</ref>
::<math>\mathcal{L}_{probit} \left ( \beta_0, \ldots, \beta_k; Y_1, \ldots, Y_n \mid X_{1i}, \ldots, X_{ki} \right )=
\prod_{i=1}^n \left [\Phi\left(\beta_0 + \beta_1 X_{1i} + \ldots + \beta_k X_{ki} \right) \right ]^{Y_i} \left [1 - \Phi\left(\beta_0 + \beta_1 X_{1i} + \ldots + \beta_k X_{ki} \right) \right ]^{1-Y_i}</math>.
 
=== Metodo della massima verosimiglianza ===
Per calcolare gli stimatori <math>\hat \beta_0, \hat \beta_1, \ldots, \hat \beta_k</math> dei parametri <math>\beta_0, \beta_1, \ldots, \beta_k</math> risulta conveniente calcolare la funzione di log-verosimiglianza poiché in questo modo si riesce a eliminare la produttoria. Si applica quindi il logaritmo alla funzione di verosimiglianza:
::<math>\mathcal{l}_{probit} \left ( \beta_0, \ldots, \beta_k; Y_1, \ldots, Y_n \mid X_{1i}, \ldots, X_{ki} \right )=\ln \mathcal{L}_{probit} \left ( \beta_0, \ldots, \beta_k; Y_1, \ldots, Y_n \mid X_{1i}, \ldots, X_{ki} \right )=</math>
::<math>=\sum_{i=1}^n Y_i \ln \left [\Phi\left(\beta_0 + \beta_1 X_{1i} + \ldots + \beta_k X_{ki} \right) \right ] + \sum_{i=1}^n \left (1-Y_i \right ) \ln \left [1 - \Phi\left(\beta_0 + \beta_1 X_{1i} + \ldots + \beta_k X_{ki} \right) \right ]</math>.
Gli stimatori calcolati con il metodo della massima verosimiglianza massimizzano la funzione precedente risolvendo il seguente problema:
::<math>\left \{ \hat \beta_0, \hat \beta_1, \ldots, \hat \beta_k \right \}_{MV} = \arg\max_{\beta_0,\ldots, \beta_k} \mathcal{l}_{probit} \left ( \beta_0, \ldots, \beta_k; Y_1, \ldots, Y_n \mid X_{1i}, \ldots, X_{ki} \right )</math>.<ref name="metodo MV">{{Cita libro|titolo=Introduction to Econometrics|url=https://archive.org/details/introductiontoec0000stoc_z0a9|autore1=James H. Stock|autore2=Mark W. Watson|editore=Pearson|anno=2015|edizione=3|lingua=inglese|ISBN=978-1-292-07131-2|capitolo=Regression with a Binary Dependent Variable|pp=[https://archive.org/details/introductiontoec0000stoc_z0a9/page/465 465]-466}}</ref>
Per semplificare la scrittura consideriamo <math>\boldsymbol{\beta}</math> un vettore dei parametri <math>\beta_0, \beta_1, \ldots, \beta_k</math>, <math>\phi</math> la derivata di <math>\Phi</math>, ossia la [[funzione di densità di probabilità]] della distribuzione normale standard, e <math>n</math> il numero di osservazioni nel campione. Le condizioni per la massimizzazione sono due: quella di primo ordine dove la [[derivata]] prima rispetto ai parametri deve essere posta uguale a zero per trovare i punti estremanti, la seconda invece pone la derivata seconda, sempre rispetto ai parametri, minore di zero per determinare le [[concavità]] della funzione.
* <math>\frac{\partial}{\partial \boldsymbol{\beta}} \mathcal{l}_{probit} \left ( \boldsymbol{\beta}; \mathbf{y} \right ) = 0\Longleftrightarrow \sum_{i=1}^n \left\{\frac{y_i - \Phi\left(\mathbf{x}_i'\boldsymbol{\beta}\right)}{\Phi\left(\mathbf{x}_i'\boldsymbol{\beta}\right)\left[1-\Phi\left(\mathbf{x}_i'\boldsymbol{\beta}\right)\right]}\cdot\phi\left(\mathbf{x}_i'\boldsymbol{\beta}\right)\right\} = 0</math>
* <math>\frac{\partial^2}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta'}} \mathcal{l}_{probit} \left ( \boldsymbol{\beta}; \mathbf{y} \right ) < 0</math>
Solitamente le soluzioni di queste condizioni non sono semplici da determinare oppure non possono essere trovate affatto, ma per ovviare a questo problema si possono utilizzare dei programmi statistici per computer che, attraverso alcuni [[algoritmi]], trovano delle loro approssimazioni.<ref name="metodo MV" />
 
==Note==
<references/>
 
== Bibliografia ==
* {{Cita libro|titolo=Econometric Analysis|autore=William H. Greene|editore=Prentice-Hall|annooriginale=1990|edizione=4|anno=1993|lingua=inglese|capitolo=Chapter 21|ISBN=0-13-013297-7}}
* {{Cita libro|titolo=Introduction to Econometrics|url=https://archive.org/details/introductiontoec0000stoc_z0a9|autore1=James H. Stock|autore2=Mark W. Watson|editore=Pearson|anno=2015|edizione=3|lingua=inglese|ISBN=978-1-292-07131-2|capitolo=Regression with a Binary Dependent Variable}}
 
==Voci correlate==
* [[Modello logit]]
 
== Altri progetti ==
{{interprogetto}}
 
{{Statistica}}
{{Controllo di autorità}}
{{Portale|statistica|economia}}
 
[[Categoria:Analisi di regressione]]