Modello probit: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Albzf (discussione | contributi)
Aggiunto valore atteso, varianza e effetto marginale. Modifiche minori.
tolgo un a capo
 
(10 versioni intermedie di 8 utenti non mostrate)
Riga 1:
[[File:Logistic-sigmoid-vs-scaled-probit.svg|thumb|In rosso tratteggiato è rappresentato il modello probit.]]
In [[statistica]] ede in [[econometria]], il '''modello probit''' è un modello di [[regressione nonlineare]] utilizzato quando la [[variabile dipendente]] è di tipo [[Variabile dicotomica|dicotomico]]. L'obbiettivoobiettivo del modello è di stabilire la probabilità con cui un'osservazione può generare uno o l'altro valore della variabile dipendente; può inoltre essere utilizzato per classificare le osservazioni, in base alla caratteristiche di queste, in due categorie.<ref name="Definizione">{{Cita libro|titolo=Introduction to Econometrics|url=https://archive.org/details/introductiontoec0000stoc_z0a9|autore1=James H. Stock|autore2=Mark W. Watson|editore=Pearson|anno=2015|edizione=3|lingua=inglese|ISBN=978-1-292-07131-2|capitolo=Regression with a Binary Dependent Variable|pp=[https://archive.org/details/introductiontoec0000stoc_z0a9/page/437 437]-439}}</ref><br />
Il modello è stato proposto per la prima volta da [[Chester Ittner Bliss]] nel [[1934]],<ref>{{Cita pubblicazione|titolo=THE METHOD OF PROBITS|autore=Chester I. Bliss|wkautore=Chester Ittner Bliss|rivista=Science|data=12 gennaio 1934|volume=79|pp=38-39|doi=10.1126/science.79.2037.38|PMID=17813446|accesso=20 novembre 2018}}</ref> ampliato l'anno successivo da [[Ronald Fisher]] che introdusse un metodo iterativo per la stima dei parametri tramite il [[metodo della massima verosimiglianza]].
 
== Scelta della funzione ==
[[File:Probit plot.pngsvg|thumb|La funzione probit. L'inversa di questa funzione è utilizzata nel modello probit.]]
Un modello di regressione dove la variabile dipendente è dicotomica, ossia una variabile che può avere come unici valori 0 e 1 o riconducibili ad essi, calcola la probabilità che questa variabile acquisisca valore 1.
::<math>\mathbb{E} \left[ Y \mid X=x \right ] = 1 \ Pr \left ( Y=1 \mid X=x \right )+0 \ Pr \left ( Y=0 \mid X=x \right ) = \ Pr \left ( Y=1 \mid X=x \right )</math>
Data questa limitazione dei valori di <math>Y</math>, la funzione da adottare per la regressione deve essere nonlineare con codominio <math>C= \left [ 0,1 \right ]</math>, una caratteristica che possiedono le [[Funzione di ripartizione|funzioni di ripartizione]].<ref name="Definizione" /> La necessità di non linearità deriva dal fatto che la funzione, per poter rimanere all'interno del codominio dato, deve avere [[derivata]] prima non costante, quindi dipendente dai regressori. Se così non fosse, la funzione sarebbe una retta e il suo codominio diventerebbe <math>\mathbb{R}</math>. Si supponga infatti il seguente modello lineare:
::<math>\ Pr \left ( Y=1 \mid X=x \right ) = \beta_0 + \beta_1 X</math><br>
dove la derivata
::<math>\frac{\partial}{\partial X} \ Pr \left ( Y=1 \mid X=x \right ) = \beta_1</math>
è costante e uguale al parametro <math>\beta_1</math>. In base al segno di questo parametro, la funzione sarà crescente, se positivo, o decrescente se negativo, ma non è possibile avere come codominio <math>C</math> perché questo richiederebbe una derivata dipendente dal valore di <math>X</math>. Se si considera invece il seguente modello:
::<math>\ Pr \left ( Y=1 \mid X=x \right ) = \ F \left ( \alpha_0 + \alpha_1 X \right )</math><br>
dove la derivata
::<math>\frac{\partial}{\partial X} \ Pr \left ( Y=1 \mid X=x \right ) = \ f \left ( \alpha_0 + \alpha_1 X \right )\alpha_1</math>
Riga 20:
== Definizione ==
Il modello di regressione probit per la [[Popolazione statistica|popolazione]] è:<ref name="Definizione" />
::<math>\mathbb{E}\left[Y\mid\mathbf{X}\right]=\ Pr\left(Y=1 \mid X_1, \ldots, X_k\right)=\Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right)=\Phi\left(\beta_0 + \beta_1 X_1 + \ldots + \beta_k X_k \right)=\Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right)</math>
dove:
*<math>Pr</math> indica la probabilità;
Riga 27:
* <math>\boldsymbol{\beta}</math> è il vettore di parametri <math>\beta_0, \ldots, \beta_k</math>;
* <math>\Phi</math> è la funzione di ripartizione della distribuzione normale standard.
 
=== Valore atteso ===
Poiché la variabile dipendente è distribuita <math>Y \sim \mathcal{Be}\left(\Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right)\right)</math>, il suo [[valore atteso]] è
::<math>\mathbb{E}\left[Y=y_i\mid\mathbf{X}\right]=1 \ Pr \left ( Y=1 \mid \mathbf{X} \right )+0 \ Pr \left ( Y=0 \mid \mathbf{X} \right )=\ Pr \left ( Y=1 \mid \mathbf{X} \right )=\Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right)</math>.
 
=== Varianza ===
La [[varianza]] della variabile dipendente risulta dipendere dal vettore dei regressori <math>\mathbf{X}</math>. Infatti
::<math>Var\left(Y=y_i\mid\mathbf{X}\right)=\mathbb{E}\left[Y^2=y_i^2\mid\mathbf{X}\right]-\mathbb{E}\left[Y=y_i\mid\mathbf{X}\right]^2=\Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right)\cdot\left(1-\Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right)\right)</math>.
 
=== Effetto marginale ===
L'effetto sulla variabile dipendente <math>Y</math> dato da un cambiamento in un regressore <math>X_j</math>, chiamato effetto marginale, è calcolato come la derivata del [[valore atteso]] di <math>Y</math> rispetto a <math>X_j</math>:
::<math>\frac{\partial}{\partial X_j}\mathbb{E}\left[Y=y_i\mid\mathbf{X}\right] = \Phi\left(\mathbf{X}^T \boldsymbol{\beta} \right) = \phi\left(\mathbf{X}^T \boldsymbol{\beta}\right)\cdot \beta_j</math>
dove <math>\phi</math> è la [[funzione di densità di probabilità]] della [[distribuzione normale]] standard e <math>\beta_j</math> è il parametro associatoche almoltiplica il regressore <math>X_j</math>.<ref name="Definizione" /> Per il calcolo della derivata il regressore deve essere continuo.
 
== Illustrazione del metodo ==
Riga 45 ⟶ 41:
 
== Stima dei parametri ==
Il vettore di parametri <math>\boldsymbol{\beta}</math> è di norma stimato con il [[metodo della massima verosimiglianza]], con il quale si ottengono stimatori [[Efficienza (statistica)|efficienti]], [[Consistenza (statistica)|consistenti]] e distribuiti normalmente nel caso in cui il [[campione statistico]] sia abbastanza grande.<ref name="Stimatori">{{Cita libro|titolo=Introduction to Econometrics|url=https://archive.org/details/introductiontoec0000stoc_z0a9|autore1=James H. Stock|autore2=Mark W. Watson|editore=Pearson|anno=2015|edizione=3|lingua=inglese|ISBN=978-1-292-07131-2|capitolo=Regression with a Binary Dependent Variable|pp=[https://archive.org/details/introductiontoec0000stoc_z0a9/page/441 441]-442}}</ref> Queste proprietà permettono di calcolare il [[test t]] su un parametro, il [[test F]] nel caso di restrizioni multiple e gli [[Intervallo di confidenza|intervalli di confidenza]].<ref name="Stimatori" />
 
=== Funzione di verosimiglianza ===
Riga 59 ⟶ 55:
::<math>= p_1^{y_1} \left ( 1-p_1 \right ) ^{1-y_1} \cdot \ldots \cdot p_n^{y_n} \left ( 1-p_n \right ) ^{1-y_n} = \prod_{i=1}^n p_i^{y_i} \left ( 1-p_i \right ) ^{1-y_i}</math>.
 
Si riprende ora la definizione del modello probit e la si sostituisce al posto di <math>p_i</math>, ottenendo quindi la [[funzione di verosimiglianza]]<ref>L'intera derivazione della funzione di verosimiglianza è consultabile alle pagine qui riportate. {{Cita libro|titolo=Introduction to Econometrics|url=https://archive.org/details/introductiontoec0000stoc_z0a9|autore1=James H. Stock|autore2=Mark W. Watson|editore=Pearson|anno=2015|edizione=3|lingua=inglese|ISBN=978-1-292-07131-2|capitolo=Regression with a Binary Dependent Variable|pp=[https://archive.org/details/introductiontoec0000stoc_z0a9/page/465 465]-466}}</ref>
::<math>\mathcal{L}_{probit} \left ( \beta_0, \ldots, \beta_k; Y_1, \ldots, Y_n \mid X_{1i}, \ldots, X_{ki} \right )=
\prod_{i=1}^n \left [\Phi\left(\beta_0 + \beta_1 X_{1i} + \ldots + \beta_k X_{ki} \right) \right ]^{Y_i} \left [1 - \Phi\left(\beta_0 + \beta_1 X_{1i} + \ldots + \beta_k X_{ki} \right) \right ]^{1-Y_i}</math>.
Riga 68 ⟶ 64:
::<math>=\sum_{i=1}^n Y_i \ln \left [\Phi\left(\beta_0 + \beta_1 X_{1i} + \ldots + \beta_k X_{ki} \right) \right ] + \sum_{i=1}^n \left (1-Y_i \right ) \ln \left [1 - \Phi\left(\beta_0 + \beta_1 X_{1i} + \ldots + \beta_k X_{ki} \right) \right ]</math>.
Gli stimatori calcolati con il metodo della massima verosimiglianza massimizzano la funzione precedente risolvendo il seguente problema:
::<math>\left \{ \hat \beta_0, \hat \beta_1, \ldots, \hat \beta_k \right \}_{MV} = \arg\max_{\beta_0,\ldots, \beta_k} \mathcal{l}_{probit} \left ( \beta_0, \ldots, \beta_k; Y_1, \ldots, Y_n \mid X_{1i}, \ldots, X_{ki} \right )</math>.<ref name="metodo MV">{{Cita libro|titolo=Introduction to Econometrics|url=https://archive.org/details/introductiontoec0000stoc_z0a9|autore1=James H. Stock|autore2=Mark W. Watson|editore=Pearson|anno=2015|edizione=3|lingua=inglese|ISBN=978-1-292-07131-2|capitolo=Regression with a Binary Dependent Variable|pp=[https://archive.org/details/introductiontoec0000stoc_z0a9/page/465 465]-466}}</ref>
Per semplificare la scrittura consideriamo <math>\boldsymbol{\beta}</math> un vettore dei parametri <math>\beta_0, \beta_1, \ldots, \beta_k</math>, <math>\phi</math> la derivata di <math>\Phi</math>, ossia la [[funzione di densità di probabilità]] della distribuzione normale standard, e <math>n</math> il numero di osservazioni nel campione. Le condizioni per la massimizzazione sono due: quella di primo ordine dove la [[derivata]] prima rispetto ai parametri deve essere posta uguale a zero per trovare i punti estremanti, la seconda invece pone la derivata seconda, sempre rispetto ai parametri, minore di zero per determinare le [[concavità]] della funzione.
* <math>\frac{\partial}{\partial \boldsymbol{\beta}} \mathcal{l}_{probit} \left ( \boldsymbol{\beta}; \mathbf{y} \right ) = 0\Longleftrightarrow \sum_{i=1}^n \left\{\frac{y_i - \Phi\left(\mathbf{x}_i'\boldsymbol{\beta}\right)}{\Phi\left(\mathbf{x}_i'\boldsymbol{\beta}\right)\left[1-\Phi\left(\mathbf{x}_i'\boldsymbol{\beta}\right)\right]}\cdot\phi\left(\mathbf{x}_i'\boldsymbol{\beta}\right)\right\} = 0</math>
* <math>\frac{\partial^2}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta'}} \mathcal{l}_{probit} \left ( \boldsymbol{\beta}; \mathbf{y} \right ) < 0</math>
Solitamente le soluzioni di queste condizioni non sono semplici da determinare oppure non possono essere trovate affatto, ma per ovviare a questo problema si possono utilizzare dei programmi statistici per computer che, attraverso alcuni [[algoritmi]], trovano delle loro approssimazioni.<ref name="metodo MV" />
 
Riga 79 ⟶ 75:
== Bibliografia ==
* {{Cita libro|titolo=Econometric Analysis|autore=William H. Greene|editore=Prentice-Hall|annooriginale=1990|edizione=4|anno=1993|lingua=inglese|capitolo=Chapter 21|ISBN=0-13-013297-7}}
* {{Cita libro|titolo=Introduction to Econometrics|url=https://archive.org/details/introductiontoec0000stoc_z0a9|autore1=James H. Stock|autore2=Mark W. Watson|editore=Pearson|anno=2015|edizione=3|lingua=inglese|ISBN=978-1-292-07131-2|capitolo=Regression with a Binary Dependent Variable}}
 
==Voci correlate==
* [[Modello logit]]
 
== Altri progetti ==
{{interprogetto|commons}}
 
== Collegamenti esterni ==
* {{Thesaurus BNCF}}
 
{{Statistica}}
{{Controllo di autorità}}
{{Portale|statistica|economia}}
 
{{Portale|statistica|economia}}
[[Categoria:Analisi di regressione]]