Bootstrap (statistica): differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Davide (discussione | contributi)
Nessun oggetto della modifica
 
(44 versioni intermedie di 30 utenti non mostrate)
Riga 1:
{{F|statistica|marzo 2022}}
Il '''bootstrap''' è una tecnica [[statistica]] che permette di stimare parametri (o statistiche).
Il '''bootstrap''' è una tecnica [[statistica]] di [[ricampionamento]] con reimmissione per approssimare la distribuzione campionaria di una statistica. Permette di approssimare media e varianza di uno [[stimatore]], costruire intervalli di confidenza e calcolare [[p-value]] di test quando, in particolare, non si conosce la distribuzione della statistica di interesse.
 
Nel caso di [[campionamento casuale]] semplice, il funzionamento è il seguente: consideriamo un campione effettivamente osservato di numerosità <math>n</math>, diciamo <math>\mathbf{x}=(x_1,\ldots,x_n)</math>. Da <math>\mathbf{x}</math> si ricampionano <math>B</math> altri campioni di numerosità costante <math>n</math>, diciamo <math>\mathbf{x}^*_1,\ldots,\mathbf{x}^*_B</math>. Se <math>F</math> è la funzione di ripartizione del [[fenomeno aleatorio]] dal quale è stato campionato <math>\textbf{x}</math>, allora la [[funzione di ripartizione empirica]] <math>\hat{F}</math> è un'approssimazione di <math>F</math>; per cui un ricampionamento da essa approssima un ricampionamento dal modello originale. Per costruzione <math>\hat{F}</math> è la funzione di ripartizione di una variabile aleatoria uniforme su <math>\textbf{x}</math>, dunque di fatto ogni ricampionamento <math>\textbf{x}_k^*</math>, con <math>k=1,\dots,B</math>, è ottenuto scegliendo in modo uniforme con ripetizione <math>n</math> valori da <math>\textbf{x}</math>.
Tale metodo si basa sull'assunto che una stima per essere precisa deve basarsi su un gran numero di dati: non occorre però analizzare tutta la popolazione, nè estrarre un campione dalla popolazione originale di numerosità grande (spesso operazione costosa, altre volte improbabile).
 
Sia <math>T</math> lo stimatore di <math>\theta</math> che ci interessa studiare, diciamo <math>T(\mathbf{x})=\hat{\theta}</math>. Si calcola tale quantità per ogni campione bootstrap, <math>T(\mathbf x^*_1),\ldots,T(\mathbf x^*_B)</math>. In questo modo si hanno a disposizione <math>B</math> stime di <math>\theta</math>, dalle quali è possibile calcolare la [[media (statistica)|media]] bootstrap, la [[varianza]] bootstrap, i percentili bootstrap, ecc. che sono approssimazioni dei corrispondenti valori ignoti e portano informazioni sulla distribuzione di <math>T(\mathbf{x})</math>.
Il funzionamento è il seguente: a partire da un campione estratto di numerosità pari ad ''n'' si ricampionano ''m'' campioni di numerosità costante pari ad ''n''; i dati provenienti dal primo campione possono essere estratti più di una volta e ciascun dato ha probabilità pari a ''1/n'' di essere estratto.
 
== Algoritmo bootstrap (per campione semplice) ==
''T(x*)=θ'': dove ''T'' è la statistica test in esame. Tale quantità è da calcolare per ogni campione: in questo modo si hanno a disposizione ''m'' stime, dalle quali è possibile calcolare la [[media]], la [[varianza]] bootstrap.
Dato il campione <math>\textbf{x} =(x_1,\ldots, x_n)</math>:
* Si simulano <math>B</math> campioni <math>\textbf{x}^{*}_1,\ldots,\textbf{x}^{*}_B</math>, di numerosità <math>n</math> da <math>\hat{F}</math>.
* Si calcolano le <math>B</math> replicazioni corrispondenti ai campioni simulati: <math>\hat{\theta}(\textbf{x}^{*}_1),\ldots,\hat{\theta}(\textbf{x}^{*}_B)</math>, dove <math>\hat{\theta}(\textbf{x}^{*}_k) = T(\textbf{x}_k^*).</math>
* Si stima la varianza campionaria come:
 
::<math>\text{Var}_B(\hat{\theta}) = \frac{1}{B-1}\sum_{k=1}^B \left( \hat{\theta}(\textbf{x}^{*}_k)-\theta^* \right)^2,\quad \text{dove }\theta^* = \frac{1}{B}\sum_{k=1}^B \hat{\theta}(\textbf{x}^{*}_k).</math>
Partendo quindi da queste quantità stimate è possibile calcolare [[intervallo di confidenza|intervalli di confidenza]], saggiare [[Ipotesi statistica|ipotesi]].
 
* Si stima la distorsione come:
 
::<math>\beta = \theta^*-\theta=\frac{1}{B}\sum_{k=1}^{B} \hat{\theta}(\textbf{x}^{*}_k)-\theta.</math>
 
Partendo quindi da queste quantità stimate è possibile, anche lavorando in ambito [[Statistica non parametrica|non parametrico]], calcolare [[intervallo di confidenza|intervalli di confidenza]], saggiare [[Ipotesi statistica|ipotesi]], ecc.
 
== Bibliografia ==
* Efron,Bradley e Tibshirani, Robert, ''An Introduction to the Bootstrap'', New York, Chapman & Hall, 1994, ISBN 9781489945419
* Yen-Chi Chen, ''[https://faculty.washington.edu/yenchic/17Sp_403/Lec5-bootstrap.pdf Lecture on Bootstrap]''
 
==Voci correlate==
* [[Metodo Monte Carlo]]
* [[Convalida incrociata]]
 
== Collegamenti esterni ==
* {{Collegamenti esterni}}
 
{{Controllo di autorità}}
{{Portale|matematica}}
 
[[Categoria:Statistica computazionale]]
[[categoria:statistica]]
[[Categoria:Analisi dei dati]]