Bootstrap (statistica): differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nuova pagina: == Bootstrap == Il bootstrap è una tecnica statistica che permette di stimare parametri (o statistiche). Tale metodo si basa sull'assunto che una stima per essere precisa deve basars...
 
 
(50 versioni intermedie di 34 utenti non mostrate)
Riga 1:
{{F|statistica|marzo 2022}}
== Bootstrap ==
Il '''bootstrap''' è una tecnica [[statistica]] di [[ricampionamento]] con reimmissione per approssimare la distribuzione campionaria di una statistica. Permette di approssimare media e varianza di uno [[stimatore]], costruire intervalli di confidenza e calcolare [[p-value]] di test quando, in particolare, non si conosce la distribuzione della statistica di interesse.
 
Nel caso di [[campionamento casuale]] semplice, il funzionamento è il seguente: consideriamo un campione effettivamente osservato di numerosità <math>n</math>, diciamo <math>\mathbf{x}=(x_1,\ldots,x_n)</math>. Da <math>\mathbf{x}</math> si ricampionano <math>B</math> altri campioni di numerosità costante <math>n</math>, diciamo <math>\mathbf{x}^*_1,\ldots,\mathbf{x}^*_B</math>. Se <math>F</math> è la funzione di ripartizione del [[fenomeno aleatorio]] dal quale è stato campionato <math>\textbf{x}</math>, allora la [[funzione di ripartizione empirica]] <math>\hat{F}</math> è un'approssimazione di <math>F</math>; per cui un ricampionamento da essa approssima un ricampionamento dal modello originale. Per costruzione <math>\hat{F}</math> è la funzione di ripartizione di una variabile aleatoria uniforme su <math>\textbf{x}</math>, dunque di fatto ogni ricampionamento <math>\textbf{x}_k^*</math>, con <math>k=1,\dots,B</math>, è ottenuto scegliendo in modo uniforme con ripetizione <math>n</math> valori da <math>\textbf{x}</math>.
Il bootstrap è una tecnica statistica che permette di stimare parametri (o statistiche). Tale metodo si basa sull'assunto che una stima per essere precisa deve basarsi su un gran numero di dati: non occorre però analizzare tutta la popolazione (analisi impossibile quanto sconveniente) nè estrarre un campione dalla popolazione originale di numerosità grande (spesso operazione costosa, altre improbabile).
Il funzionamento è semplice: a partire da un campione estratto di numerosità pari ad n si ricampionano m campioni di numerosità costante pari ad n; i dati provenienti dal primo campione possono essere estratti più di una volta e ciascun dato ha probabilità pari a 1/n di essere estratto.
T(x*)=θ: dove T è la statistica test in esame. Tale quantità è da calcolare per ogni campione: in questo modo si hanno a disposizione m stime, dalle quali è possibile calcolare la media, la varianza bootstrap.
Partendo quindi da queste quantità stiimate è possibile calcolare intervalli di confidenza, saggiare ipotesi.
 
Sia <math>T</math> lo stimatore di <math>\theta</math> che ci interessa studiare, diciamo <math>T(\mathbf{x})=\hat{\theta}</math>. Si calcola tale quantità per ogni campione bootstrap, <math>T(\mathbf x^*_1),\ldots,T(\mathbf x^*_B)</math>. In questo modo si hanno a disposizione <math>B</math> stime di <math>\theta</math>, dalle quali è possibile calcolare la [[media (statistica)|media]] bootstrap, la [[varianza]] bootstrap, i percentili bootstrap, ecc. che sono approssimazioni dei corrispondenti valori ignoti e portano informazioni sulla distribuzione di <math>T(\mathbf{x})</math>.
R è un software gratuito statistico all'interno del quale esiste una libreria (nome=boot) che permette di applicare il metodo bootstrap e tutte le sue applicazioni in modo semplice ed immediato.
 
== Algoritmo bootstrap (per campione semplice) ==
----
Dato il campione <math>\textbf{x} =(x_1,\ldots, x_n)</math>:
[http://www.r-project.org/ download R]
* Si simulano <math>B</math> campioni <math>\textbf{x}^{*}_1,\ldots,\textbf{x}^{*}_B</math>, di numerosità <math>n</math> da <math>\hat{F}</math>.
[http://it.wikipedia.org/wiki/R_(software) pagina Wikipedia]
* Si calcolano le <math>B</math> replicazioni corrispondenti ai campioni simulati: <math>\hat{\theta}(\textbf{x}^{*}_1),\ldots,\hat{\theta}(\textbf{x}^{*}_B)</math>, dove <math>\hat{\theta}(\textbf{x}^{*}_k) = T(\textbf{x}_k^*).</math>
* Si stima la varianza campionaria come:
 
::<math>\text{Var}_B(\hat{\theta}) = \frac{1}{B-1}\sum_{k=1}^B \left( \hat{\theta}(\textbf{x}^{*}_k)-\theta^* \right)^2,\quad \text{dove }\theta^* = \frac{1}{B}\sum_{k=1}^B \hat{\theta}(\textbf{x}^{*}_k).</math>
 
* Si stima la distorsione come:
 
::<math>\beta = \theta^*-\theta=\frac{1}{B}\sum_{k=1}^{B} \hat{\theta}(\textbf{x}^{*}_k)-\theta.</math>
 
Partendo quindi da queste quantità stiimatestimate è possibile, anche lavorando in ambito [[Statistica non parametrica|non parametrico]], calcolare [[intervallo di confidenza|intervalli di confidenza]], saggiare [[Ipotesi statistica|ipotesi]], ecc.
 
== Bibliografia ==
* Efron,Bradley e Tibshirani, Robert, ''An Introduction to the Bootstrap'', New York, Chapman & Hall, 1994, ISBN 9781489945419
* Yen-Chi Chen, ''[https://faculty.washington.edu/yenchic/17Sp_403/Lec5-bootstrap.pdf Lecture on Bootstrap]''
 
==Voci correlate==
* [[Metodo Monte Carlo]]
* [[Convalida incrociata]]
 
== Collegamenti esterni ==
* {{Collegamenti esterni}}
 
{{Controllo di autorità}}
{{Portale|matematica}}
 
[[Categoria:Statistica computazionale]]
[[Categoria:Analisi dei dati]]