La regressione dei quantili (o regressione quantile o ancora regressione quantilica) è un tipo di analisi di regressione usato in statistica e in econometria. Se il metodo dei minimi quadrati risulta nella stima della media della variabile di risposta condizionata ai valori delle variabili indipendenti, la regressione dei quantili mira a stimare mediana condizionata, o altri quantili della variabile dipendente.

La regressione mediana si ottiene minimizzando la somma degli scarti assoluti, mentre per altri quantili , la funzione di perdita è 

Per costruzione, la retta (o iperpiano) di regressione si trova al di sopra della proporzione delle osservazioni del campione. Perciò, nel caso della mediana () metà delle osservazioni si troverà sopra alla retta di regressione e metà sotto.

Storia

L'idea di stimare la pendenza della regressione mediana, un importante teorema a proposito della minimizzazione della somma degli scarti assoluti e un algoritmo geometrico per costruire la regressione mediana sono stati proposti nel 1760 da Ruđer Josip Bošković, un prete gesuita di Dubrovnik[1][2]. I calcoli necessari all'analisi della regressione mediana sono particolarmente ostici per dataset più grandi, se confrontati con quelli del metodo dei minimi quadrati; per cui è stata storicamente meno popolare nella comunità statistica, fino alla grande diffusione dei computer nell'ultima parte del ventesimo secolo.

Confronto con la regressione in media

La regressione dei quantili è il metodo da utilizzare se interessa stimare l'intera distribuzione condizionata della variabile di risposta, e non solo il suo valore atteso. In questo senso, è possibile valutare simultaneamente il comportamento di diversi quantili, tuttavia il suo primo utilizzo è quello della stima della mediana condizionata. In questo caso è alternativa alla regressione in media (metodo dei minimi quadrati).

Un vantaggio della regressione mediana è che la stima dei parametri risulta più robusta a valori estremi, esattamente come la mediana lo è rispetto alla media. confrontare le stime della regressione mediana con quelle della regressione in media può rivelare se degli outlier influenzano i risultati.[3]

Lo svantaggio principale della regressione dei quantili riguarda la soluzione del problema di minimizzazione: mentre il metodo dei minimi quadrati ha una soluzione in forma chiusa, la regressione dei quantili richiede l'impiego di un metodo di programmazione lineare. Inoltre gli stimatori degli stessi parametri hanno per la regressione in media una maggior varianza e una convergenza alla distribuzione normale più problematica. Non è assolutamente possibile sfruttare la distribuzione esatta degli stimatori con campioni piccoli, come invece è possibile con il metodo dei minimi quadrati se gli errori si distribuiscono normalmente.

La regressione dei quantili ha un'altra importante applicazione se il quantile di interesse è estremo, come   o  : in questa maniera si possono stimare delle bande di confidenza per la variabile dipendente senza assumere per essa una particolare distribuzione condizionata.

Proprietà asintotiche

Per  , sotto alcune condizioni di regolarità,   è asintoticamente normale:

 

dove

  

Stime dirette della matrice di varianza-covarianza asintotiche non sono sempre soddisfacenti. L'inferenza sui parametri può essere condotta con il metodo bootstrap[4].

Proprietà di equivarianza

Per qualsiasi   e   vale:

 
 

Per qualsiasi   e   vale:

 

Sia   una qualsiasi matrice non-singolare   e  

 

Invarinaza rispetto a trasformazioni monotone

Se   è una funzione monotona crescente in  , vale:

 

Quest'ultima proprietà non vale per la regressione in media.

Metodi bayesiani per la regressione dei quantili

Poichè la regressione dei quantili non assume generalmente una distribuzione specifica per gli errori, e dunque una verosimiglianza calcolabile, metodi bayesiani, quali ad esempio i modelli gerarchici, non sono immediatamente applicabili. Per risolvere questo problema si utilizza la distribuzione asimmetrica di Laplace per la stima della verosimiglianza[5], questo perché il metodo della massima verosimiglianza risulta in questo caso nelle stesse stime della regressione dei quantili. L'inferenza a posteriori, comunque, va interpretata con attenzione, perché la distribuzione utilizzata nella stima non corrisponde, in genere, a quella degli errori. Yang e He[6] hanno dimostrato che si può aver un'inferenza a posteriori valida, ammesso però che la distribuzione utilizzata nella stima corrisponde a quella empirica.

Note

  1. ^ Stephen M. Stigler, Studies in the history of probability and statistics XL Boscovich, Simpson and a 1760 manuscript note on fitting a linear relation, in Biometrika, vol. 71, n. 3, 1º dicembre 1984, pp. 615–620, DOI:10.1093/biomet/71.3.615. URL consultato il 9 novembre 2017.
  2. ^ Koenker, p. 4
  3. ^ Fahrmeir, L., Regression : models, methods and applications, ISBN 9783642343339, OCLC 843758031.
  4. ^ Masha Kocherginsky, Xuming He e Yunming Mu, Practical Confidence Intervals for Regression Quantiles, in Journal of Computational and Graphical Statistics, vol. 14, n. 1, 1º marzo 2005, pp. 41–55, DOI:10.1198/106186005x27563. URL consultato il 9 novembre 2017.
  5. ^ Hideo Kozumi e Genya Kobayashi, Gibbs sampling methods for Bayesian quantile regression, in Journal of Statistical Computation and Simulation, vol. 81, n. 11, 1º novembre 2011, pp. 1565–1578, DOI:10.1080/00949655.2010.496117. URL consultato il 9 novembre 2017.
  6. ^ (EN) Yunwen Yang e Xuming He, Bayesian empirical likelihood for quantile regression, in The Annals of Statistics, vol. 40, n. 2, 2012-04, pp. 1102–1131, DOI:10.1214/12-aos1005. URL consultato il 9 novembre 2017.

Bibliografia

  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica