Bootstrap (statistica): differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 02:39, 20 nov 2024 modifica D.brunoo (discussione \| contributi) 10 modifiche Nessun oggetto della modifica Etichette: Modifica visuale Modifica da mobile Modifica da web per mobile ← Differenza precedente		Versione attuale delle 16:21, 5 feb 2025 modifica annulla Master CarlRoy (discussione \| contributi) 527 modifiche Funzionalità collegamenti suggeriti: 1 collegamento inserito. Etichette: Modifica visuale Attività per i nuovi utenti Suggerito: aggiungi collegamenti
(4 versioni intermedie di 3 utenti non mostrate)
Riga 1: {{F\|statistica\|marzo 2022}} Il '''bootstrap''' è una tecnica [[statistica]] di [[ricampionamento]] con reimmissione per approssimare la distribuzione campionaria di una statistica. Permette di approssimare media e varianza di uno [[stimatore]], costruire intervalli di confidenza e calcolare [[p-value]] di test quando, in particolare, non si conosce la distribuzione della statistica di interesse. Permette perciò di approssimare media e varianza di uno [[stimatore]], costruire intervalli di confidenza e calcolare p-value di test quando, in particolare, non si conosce la distribuzione della statistica di interesse. Nel caso di [[campionamento casuale]] semplice, il funzionamento è il seguente: consideriamo un campione effettivamente osservato di numerosità <math>n</math>, diciamo <math>\mathbf{x}=(x_1,\ldots,x_n)</math>. Da <math>\mathbf{x}</math> si ricampionano <math>B</math> altri campioni di numerosità costante <math>n</math>, diciamo <math>\mathbf{x}^_1,\ldots,\mathbf{x}^_B</math>. Se <math>F</math> è la funzione di ripartizione del [[fenomeno aleatorio]] dal quale è stato campionato <math>\textbf{x}</math>, allora la [[funzione di ripartizione empirica]] <math>\hat{F}</math> è un'approssimazione di <math>F</math>; per cui un ricampionamento da essa approssima un ricampionamento dal modello originale. Per costruzione <math>\hat{F}</math> è la funzione di ripartizione di una variabile aleatoria uniforme su <math>\textbf{x}</math>, dunque di fatto ogni ricampionamento <math>\textbf{x}_k^</math>, con <math>k=1,\dots,B</math>, è ottenuto scegliendo in modo uniforme con ripetizione <math>n</math> valori da <math>\textbf{x}</math>. Sia <math>T</math> lo stimatore di <math>\theta</math> che ci interessa studiare, diciamo <math>T(\mathbf{x})=\hat{\theta}</math>. Si calcola tale quantità per ogni campione bootstrap, <math>T(\mathbf x^_1),\ldots,T(\mathbf x^_B)</math>. In questo modo si hanno a disposizione <math>mB</math> stime di <math>\theta</math>, dalle quali è possibile calcolare la [[media (statistica)\|media]] bootstrap, la [[varianza]] bootstrap, i percentili bootstrap, ecc. che sono approssimazioni dei corrispondenti valori ignoti e portano informazioni sulla distribuzione di <math>T(\mathbf{x})</math>. === Algoritmo bootstrap (per campione semplice) === Dato il campione <math>\textbf{x} =(x_1,\ldots, x_n)</math>: Si simulano <math>B</math> campioni <math>\textbf{x}^{}_1,\ldots,\textbf{x}^{}_B</math>, di numerosità <math>n</math> da <math>\hat{F}</math>. * Si calcolano le <math>B</math> replicazioni corrispondenti ai campioni simulati: <math>\hat{\theta}(\textbf{x}^{}_1),\ldots,\hat{\theta}(\textbf{x}^{}_B)</math>, dove <math>\hat{\theta}(\textbf{x}^{}_k) = T(\textbf{x}_k^).</math> * Si stima la varianza campionaria come: ::<math>\text{Var}_B(\hat{\theta}) = \frac{1}{B-1}\sum_{k=1}^B \left( \hat{\theta}(\textbf{x}^{}_k)-\theta^ \right)^2,\quad \text{dove }\theta^* = \frac{1}{B}\sum_{k=1}^B \hat{\theta}(\textbf{x}^{}_k).</math> Si stima la distorsione come: * Si stima la varianza campionaria come: :<math>\beta ~~display~~=~~"block">~~ \~~text{Var}_B(\hat{~~theta^-\theta}) = \frac{1}{B-1}\sum_{k=1}^{B ~~\left(~~} \hat{\theta}(\textbf{x}^{}_k)-\theta~~^* \right)^2~~.</math> ~~\quad \text{dove} \quad \theta^* = \frac{1}{B}\sum_{k=1}^B \hat{\theta}(\textbf{x}^{}_k) </math>~~ Si stima la distorsione come: <math display="block">\beta = \theta^-\theta=\frac{1}{B}\sum_{k=1}^{B} \hat{\theta}(\textbf{x}^{}_k)-\hat{\theta}</math> Partendo quindi da queste quantità stimate è possibile, anche lavorando in ambito [[Statistica non parametrica\|non parametrico]], calcolare [[intervallo di confidenza\|intervalli di confidenza]], saggiare [[Ipotesi statistica\|ipotesi]], ecc.