Distribuzione t di Student: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
m Storia: fix
 
(26 versioni intermedie di 13 utenti non mostrate)
Riga 4:
| pdf_image = [[File:student_t_pdf.svg|325px|Funzione di densità di probabilità]]
| cdf_image = [[File:student_t_cdf.svg|325px|Funzione di ripartizione]]
| parametri = <math>\nu = n>0\ </math> (''gradi di libertà'')
| supporto = <math>\mathbb{R}</math>
| pdf = <math>\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})} \left(1+\frac{t^2}{n}\right)^{-(\frac{n+1}{2})}</math>
| cdf = <math>\frac {\Beta\left( \frac{t+\sqrt{t^2+n}}{2\sqrt{t^2+n}},\frac{n}{2},\frac{n}{2} \right)} {\Beta\left( \frac{n}{2},\frac{n}{2} \right)}</math>
<br><small>dove <math>\Beta</math> è la [[funzione beta di Eulero|funzione beta]]</small>
| media = <math>0\ </math> se <math>n>1</math><br>non definita altrimenti
Riga 15:
| skewness = <math>0\ </math> se <math>n>3</math><br>non definita altrimenti
| curtosi = <math>\frac{6}{n-4}\ </math> se <math>n>4</math><br>infinita altrimenti
| entropia = <math>\tfrac{n+1}{2}\left(\digamma\left( \tfrac{1+n}{2} \right)-\digamma\left(\tfrac{n}{2}\right)\right)+\log{\left(\sqrt{n}\Beta\left( \tfrac{n}{2},\tfrac{1}{2} \right)\right)}</math><br>
dove <math>\digamma</math> è la [[funzione digamma]] e <math>\Beta</math> è la [[funzione beta di Eulero|funzione beta]]
| momgenfun =
Riga 21:
dove <math>K_{n}(x)</math> è una [[Armoniche cilindriche#Funzioni di Bessel|funzione di Bessel]]
}}
Nella [[Teoria della probabilità|teoria delle probabilità]] la '''distribuzione di Student''', o '''t di Student''', è una [[Variabile casuale#Distribuzione di probabilità|distribuzione di probabilità]] continua che governa il rapporto tra due [[Variabile casuale|variabili aleatorie]], la prima con [[distribuzione normale]] standard e la seconda, al quadrato, segue una [[distribuzione chi quadrato]].
 
Questa distribuzione interviene nella stima della [[media (statistica)|media]] di una popolazione che segue la distribuzione normale, e viene utilizzata negli omonimi [[test t|test t di Student]] per la [[significatività]] e per ogni [[intervallo di confidenza]] della differenza tra due medie.
 
== Cenni storiciStoria ==
La distribuzione venne descritta nel [[1908]] da [[William Sealy Gosset]], che pubblicò il suo risultato sotto lo [[pseudonimo]] "Student" perché la fabbrica di birra [[Guinness (azienda)|fabbrica di birra Guinness]] presso la quale era impiegato vietava ai propri dipendenti di pubblicare articoli affinché questi non divulgassero segreti di produzione. Il nome ''distribuzione di Student'' venne successivamente introdotto da [[Ronald Fisher]].<ref>
{{cita pubblicazione
|autore=Student ([[William Sealy Gosset]])
Riga 58:
== Definizione ==
La distribuzione di Student con parametro <math>n</math> (''gradi di libertà'') governa la variabile aleatoria
 
:<math>t_nT_n=\frac{Z}{\sqrt{kK/n}},</math>
dove <math>Z</math> e <math>k</math> sono due variabili aleatorie [[Variabili dipendenti e indipendenti|indipendenti]] che seguono rispettivamente la [[distribuzione normale]] standard <math>\mathcal{N}(0,1)</math> e la [[distribuzione chi quadrato|distribuzione chi quadro]] <math>\chi^2(n)</math> con <math>n</math> gradi di libertà.
 
dove <math>Z</math> e <math>kK</math> sono due variabili aleatorie [[Variabili dipendenti e indipendenti|indipendenti]] che seguono rispettivamente la [[distribuzione normale]] standard <math>\mathcal{N}(0,1)</math> e la [[distribuzione chi quadrato|distribuzione chi quadro]] <math>\chi^2(n)</math> con <math>n</math> gradi di libertà.
 
== Stimatori ==
La [[media (statistica)|media]] <math>\mu</math> e la [[varianza]] <math>\sigma^2</math> di una popolazione <math>X</math> possono essere stimate tramite un suo [[Campionamento statistico|campione]] di <math>N</math> elementi, <math>X_1,\ldots,X_N</math> con gli [[stimatore|stimatori]]
 
:<math>\bar{X}=\frac{1}{N}\sum_{i=1}^N X_i,</math>
:<math>S^2=\frac{1}{N-1}\sum_{i=1}^N (X_i-\bar{X})^2.</math>
 
Supponiamo che le variabili aleatorie <math>X_1,\ldots,X_N</math> che compongono il campione siano [[Indipendenza stocastica|indipendenti]] e distribuite [[Distribuzione normale|normalmente]], allora <math>\bar{X}</math> è una variabile normale <math>\mathcal{N}\left(\mu,\frac{\sigma^2}{N}\right)</math> con [[valore atteso]] <math>\mu</math> e varianza <math>\frac{\sigma^2}{N}</math>. Pertanto la variabile <math>Z</math> così definita
 
:<math>Z=\frac{\bar{X}-\mu}{\sqrt{\sigma^2/N}}</math>
 
seguirà una distribuzione normale standard, <math>\mathcal{N}(0,1)</math>. Il problema è che spesso non si conosce <math>\sigma^2</math>, pertanto dovremo avere a che fare con uno stimatore della varianza come <math>S^2</math>.
 
Riga 77 ⟶ 82:
 
Pertanto si definisce la variabile aleatoria
 
:<math>t_{N-1}=\frac{\bar{X}-\mu}{\sqrt{S^2/N}}=\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{N}\frac{(N-1)S^2}{(N-1)\sigma^2}}}=\frac{Z}{\sqrt{k/(N-1)}}.</math>
 
Tale variabile aleatoria segue una distribuzione di probabilità detta "t di Student".
 
== Ricavare la distribuzione di t ==
 
Cominciamo con il dimostrare che <math>k</math> è una variabile aleatoria di tipo chi-quadro. Ricordiamo che una distribuzione <math>\chi^2(n)</math> è una particolare variabile di tipo [[Distribuzione Gamma|gamma]] definita come segue
 
:<math>\chi^2(n) = \mathrm{\Gamma}\left(\frac{1}{2}, \frac{n}{2}\right) = \frac{e^{-\frac{x}{2}} x^{\frac{n}{2}-1}}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}.,</math>
 
Dovedove <math>\Gamma(x)</math> è la funzione [[Funzione Gamma|funzione Gamma di Eulero]] definita come

:<math>\Gamma(x) = \int_0^{+\infty}{t^{x-1} e^{-t}dt},</math> con <math>\mathrm{Re}(x) \neq -n,</math> \forallper ogni <math>n \in \mathbb{N}_0.</math>
 
Una variabile chi-quadro con <math>n</math> gradi di libertà si ottiene sommando <math>n</math> variabili normali standard <math>\mathcal{N}(0,1)</math> elevate al quadrato. Detto ciò partiamo dalla definizione della varianza campionaria e aggiungiamo e sottraiamo nell'argomento della sommatoria <math>\mu</math>, il valore aspettato della variabile aleatoria <math>X_i</math> che coincide con quello della variabile aleatoria <math>\bar{X}</math>.
Riga 92 ⟶ 100:
:<math>S^2=\frac{1}{N-1}\sum_i(X_i-\bar{X})^2 = \frac{1}{N-1}\sum_i(X_i + \mu - \mu -\bar{X})^2.</math>
 
Definiamo i parametri <math>aa_i</math> e <math>b</math> come <math>aa_i = X_i - \mu, b = \bar{X}-\mu</math> e riscriviamo la formula precedente
 
:<math>(N-1)S^2 = \sum_i(aa_i-b)^2 = \sum_i aa_i^2 + \sum_i b^2 -2\sum_i aba_ib = \sum_i (X_i - \mu)^2 + \sum_i (\bar{X} - \mu)^2 - 2 \sum_i (\bar{X} - \mu)(X_i - \mu).</math>
 
Ora possiamo esplicitare fuori dalle sommatorie tutti i termini che non dipendono da <math>i</math>, ovveroossia <math>\bar{X}</math> e <math>\mu</math>
 
:<math>(N-1)S^2 = \sum_i (X_i - \mu)^2 + N (\bar{X} - \mu)^2 - 2(\bar{X} - \mu) \sum_i (X_i - \mu) = \sum_i (X_i - \mu)^2 + N (\bar{X} - \mu)^2 - 2(\bar{X} - \mu) \left[- N\mu+ \sum_i X_i \right]</math>
 
:<math>(N-1)S^2 = \sum_i (X_i - \mu)^2 + N (\bar{X} - \mu)^2 - 2N(\bar{X} - \mu)^2 = \sum_i (X_i - \mu)^2 - N (\bar{X} - \mu)^2,</math>
 
sapendo che la somma su tutti gli <math>X_i</math> è pariuguale a <math>N\bar{X}</math>. Dividendo ora a destra e a sinistra per <math>\sigma^2</math> otteniamo a destra delle variabili normali
 
:<math>\frac{(N-1)S^2}{\sigma^2} = \sum_isum_{i=1}^N \left(\frac{X_i - \mu}{\sigma}\right)^2 - N \left(\frac{\bar{X} - \mu}{\sigma}\right)^2 = \sum_isum_{i=1}^N \left(\frac{X_i - \mu}{\sigma}\right)^2 - \left(\frac{\bar{X} - \mu}{\sigma/\sqrt{N}}\right)^2.</math>
 
Abbiamo quindi ottenuto a sinistra una variabile che precedentemente avevamo indicato con <math>k</math>, mentre a destra abbiamo somme di variabili normali standard al quadrato, coincidenti con una variabile chi quadro con <math>N</math> gradi di libertà e un'altra variabile normale anch'essa standard elevata al quadrato, ovveroossia una variabile chi-quadro ad un solo grado di libertà. Sapendo che somme di variabili di tipo chi-quadro con <math>n</math> e <math>m</math> gradi di libertà corrispondono ancora ad una variabile chi-quadro con <math>n+m</math> gradi di libertà otteniamo che la funzione di densità di probabilità di <math>k</math> è di tipo chi-quadro con <math>N-1</math> gradi di libertà.
 
Pertanto ora iniziamo a dire che
 
:<math>t_n|k = Z \sqrt{\frac{n}{k}},</math>
 
dove <math>n=N-1</math> è il numero di gradi di libertà, e che
Riga 116 ⟶ 123:
:<math>f(t_n|k) = \mathcal{N}\left(0, \frac{n}{k}\right) = \sqrt{\frac{k}{2\pi n}} e^{-\frac{kt^2}{2n}}.</math>
 
Conosciuta la variabile aleatoria <math>k</math>, essa si riduce difatti ad un parametro moltiplicativo per la normale. Dalla definizione di [[probabilità condizionata]] si ha
 
:<math>f(t_n, k) = f(t_n|k)f(k),</math>
Riga 130 ⟶ 137:
Notiamo che la funzione di distribuzione cercata non è altro che una [[funzione marginale]] di <math>f(t_n, k)</math>, pertanto si ha
 
:<math>f(t_n) = \int_0^{\infty}\!\!\!f(t_n, k)dk,</math>
 
:<math>f(t_n) = \frac{1}{2^{\frac{n+1}{2}}\sqrt{\pi n} \Gamma\left(\frac{n}{2}\right)} \int_0^{+\infty} k^{\frac{n-1}{2}} e^{-\frac{k}{2}\left(1+\frac{t^2}{n}\right)} dk.</math>
 
Riga 144 ⟶ 150:
l'integrale definito ha come risultato la funzione Gamma di Eulero stessa
 
:<math>\int_0^{+\infty} y^{\frac{n-1}{2}} e ^{-y} dy = \Gamma\left(\frac{n-1}{2}+1\right)=\Gamma\left(\frac{n+1}{2}\right).</math>
 
Pertanto otteniamo al fine il nostro risultato
Riga 150 ⟶ 156:
:<math>f(t_n) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n} \Gamma\left(\frac{n}{2}\right)}\cdot \left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}}</math>
 
Notiamo che il limite di questa [[successione di funzioni]] per <math>n \rightarrow \infty</math> è
 
:<math>\lim_{n\to\infty} f(t_n) = \frac{1}{\sqrt{\pi}} \lim_{n\to\infty} \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n}\Gamma\left(\frac{n}{2}\right)} \lim_{n\to\infty}\left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}} = \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}}.</math>
Riga 162 ⟶ 168:
 
La sua [[funzione di densità di probabilità]] è
 
:<math>f(t) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)} \left(1+\frac{t^2}{n}\right)^{-(n+1)/2} = \frac{1}{\sqrt{n}\,\Beta\left(\frac{1}{2},\frac{n}{2}\right)} \left(1+\frac{t^2}{n}\right)^{-(n+1)/2},</math>,
 
dove <math>\Beta</math> la [[Funzione beta di Eulero|funzione beta]].
 
La sua [[funzione di ripartizione]] è
 
:<math>F(t)=I_x\left(\frac{n}{2},\frac{n}{2}\right),</math>
 
dove <math>I_x(a,b)=\frac{\Beta(x,a,b)}{\Beta(a,b)}</math> è la [[funzione beta di Eulero#Funzione beta incompleta|funzione beta incompleta regolarizzata]] con
:<math>x=\frac{t+\sqrt{t^2+n}}{2\sqrt{t^2+n}}</math>
 
:<math>x=\frac{t+\sqrt{t^2+n}}{2\sqrt{t^2+n}}.</math>
Per <math>k<n</math> i [[Momento (probabilità)|momenti]] (semplici o centrali, in quanto coincidono per una [[Funzione di densità di probabilità|pdf]] simmetrica) di ordine <math>k</math> della distribuzione sono
 
:<math>\mu_k=0</math> se <math>k</math> è dispari,
Per <math>k<n</math> i [[Momento (probabilità)|momenti]] (semplici o centrali, in quanto coincidono per una [[Funzione di densità di probabilità|pdfPDF]] simmetrica) di ordine <math>k</math> della distribuzione sono
:<math>\mu_k=\frac{\Gamma(\frac{k+1}{2})\Gamma(\frac{n-k}{2})n^{k/2}}{\sqrt{\pi}\Gamma(\frac{n}{2})}</math> se <math>k</math> è pari.
 
:<math>\mu_k=\begin{cases}0</math>, & \text{se <math>} k</math>\text{ è dispari,}\\
:<math>\mu_k=displaystyle\frac{\Gamma(\frac{k+1}{2})\Gamma(\frac{n-k}{2})n^{k/2}}{\sqrt{\pi}\Gamma(\frac{n}{2})}</math>, & \text{se <math>} k</math> \text{ è pari.}\end{cases}</math>
 
In particolare, oltre alla [[Valore atteso|speranza matematica]] <math>E (t)=0</math> e all'indice di [[Simmetria (statistica)|asimmetria]] <math>\gamma_1=0</math> (per <math>n>3</math>) predetti dalla simmetria della distribuzione, si trovano:
* la [[varianza]] <math>\text{Var}(t)=\frac{n}{n-2},</math> per <math>n>2;</math>
* l'indice di [[curtosi]] <math>\gamma_2=\frac{6}{n-4},</math> per <math>n>4.</math>
Consideriamo infine un ultimo parametro,: illa [[Full width at half maximum|FWHM]], ovvero la larghezza a mezzametà altezza]]. Per una variabile <math>t</math> di Student abbiamo che il picco della funzione è nel suo valore atteso, ovveroossia in <math>0</math>, dove la distribuzione ha valore massimo

:<math>\frac{\Gamma(\frac{n+1}{2})}{\sqrt{\pi n} \Gamma(\frac{n}{2})}.</math>.

Per cui troviamo i valori di <math>t</math> per i quali <math>f(t_n)</math> assume altezza pariuguale a metà della massima assoluta.
 
:<math>\frac{\Gamma(\frac{n+1}{2})}{2\sqrt{\pi n} \Gamma(\frac{n}{2})}=\frac{\Gamma(\frac{n+1}{2})\left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}}}{\sqrt{\pi n} \Gamma(\frac{n}{2})}.</math>
 
Per cui
 
:<math display="inline">\frac{1}{2}=\left(1+{\frac {t^{2}}{n}}\right)^{-\frac{n+1}{2}}</math>\iff che è equivalente a <math display="inline">2 = \left(1+{\frac {t^{2}}{n}}\right)^{\frac {n+1}{2}}</math> dove <math>t</math> ha due soluzioni, come ci aspettavamo dalla simmetria della funzione, coincidenti a
 
dove <math>t</math> ha due soluzioni, come ci aspettavamo dalla simmetria della funzione, coincidenti a
<math>t_{\pm} = \pm\sqrt{n \left(2^\frac{2}{n+1}-1\right)}</math>
 
:<math>t_{\pm} = \pm\sqrt{n \left(2^\frac{2}{n+1}-1\right)}.</math>

Per cui la larghezza a mezza altezza della funzione è data da

:<math>t_+-t_- = 2\sqrt{n\left(2^\frac{2}{n+1}-1\right)}.</math>
 
Eseguendo il limite per <math>n \rightarrow \infty</math> troviamo un'espressione convergente a
 
:<math>\lim_{n\to\infty} t_+-t_- = 2\sqrt{\ln 4}= \sqrt{8ln8\ln 2},</math>
 
che è l'equivalente della larghezza a metà altezza (FWHM) della normale standard. Viceversa per <math>n=1</math> otteniamo un FWHM = 2. Difatti per <math>n=1</math> la distribuzione t di Student coincide con una [[Distribuzione di Cauchy|distribuzione di Lorentz-Cauchy]] di parametri <math>(0, 1)</math> dove la FWHM è per l'appunto uguale a <math>2</math>.
 
che è l'equivalente della FWHM della normale standard. Viceversa per <math>n=1</math> otteniamo un FWHM = 2. Difatti per <math>n=1</math> la distribuzione t di Student coincide con una [[Distribuzione di Cauchy|distribuzione di Lorentz-Cauchy]] di parametri <math>(0, 1)</math> dove la FWHM è per l'appunto uguale a <math>2</math>.
== Statistica ==
=== Intervallo di confidenza ===
La distribuzione di Student viene utilizzata per definire degli intervalli di confidenza per la media di una popolazione, sulla base degli stimatori puntuali <math>\bar{X}</math> e <math>S_n^2</math> della sua media e della sua varianza. Dall'equazione
 
:<math>T=\frac{\bar{X}-\mu}{\sqrt{S_n^2/n}},</math>
 
si ha infatti
 
:<math>P(a\leqslant T\leqslant b)=P\left(\bar{X}-b\sqrt{S_n^2/n}\leqslant\mu\leqslant\bar{X}-a\sqrt{S_n^2/n}\right).</math>.
 
Scegliendo quindi dei [[quantile|quantili]] <math>q_{\alpha}<q_{\beta}</math> per la distribuzione di Student con <math>n</math> gradi di libertà, si ha
 
:<math>\beta-\alpha=P(q_{\alpha}\leqslant T\leqslant q_{\beta})=P\left(\bar{X}-q_{\beta}\sqrt{S_n^2/n}\leqslant\mu\leqslant\bar{X}-q_{\alpha}\sqrt{S_n^2/n}\right),</math>,
 
cioè un intervallo di confidenza per la media <math>\mu</math> con livello di confidenza <math>\beta-\alpha</math> è:
 
:<math>\left[\ \bar{X}-q_{\beta}\sqrt{S_n^2/n}\ ,\ \bar{X}-q_{\alpha}\sqrt{S_n^2/n}\ \right]</math>.
 
Qualora si considerino intervalli simmetrici si può utilizzare l'indice <math>z_\alpha</math> definito da
 
:<math>\alpha=P(|T|\leqslant z_\alpha)=P(-z_\alpha\leqslant T\leqslant z_\alpha)=2F(z_\alpha)-1,</math>,
ovvero
 
:<math>z_\alpha=q_{1-\frac{\alpha}{2}}</math>,
ossia
 
:<math>z_\alpha=q_{1-\frac{\alpha}{2}},</math>,
 
e si ottiene l'intervallo di confidenza per <math>\mu</math> con livello di confidenza <math>\alpha</math>
 
:<math>\left[\ \bar{X}-z_{\alpha}\sqrt{S_n^2/n}\ ,\ \bar{X}+z_{\alpha}\sqrt{S_n^2/n}\ \right].</math>.
 
== Altre distribuzioni ==
La distribuzione di Student con parametro <math>n=1</math> corrisponde alla [[distribuzione di Cauchy]] di parametri <math>(0,1)</math>: entrambe regolano il rapporto <math>X/Y</math> tra due variabili aleatorie indipendenti aventi distribuzione normale standard.
 
Al tendere di ''<math>n''</math> a infinito la distribuzione di Student con ''<math>n''</math> gradi di libertà [[convergenza di variabili casuali|converge]] alla distribuzione normale standard <math>\mathcal{N}(0,1)</math>.
 
Se <math>T</math> è una variabile aleatoria con distribuzione t di Student di parametro <math>n</math>, allora <math>F=T^2</math> segue la [[distribuzione di Fisher-Snedecor]] di parametri <math>(1,n)</math>.
 
== Tabella dei quantili ==
La seguente tabella<ref>Valori critici calcolati con la funzione qt(p,g) di [[R (software)|R]].</ref> esprime, in funzione del parametro ''<math>n''</math> (riga) e di particolari valori di <math>\alpha</math> (colonna), i quantili <math>q_\alpha</math> per la distribuzione di Student di parametro ''<math>n''</math>:
 
:<math>P(T\leqslant q_\alpha)=F(q_\alpha)=\alpha.</math>.
 
L'ultima riga, indicata con "∞", si riferisce ada una distribuzione normale standard.
 
{| class="wikitable"
Riga 355 ⟶ 390:
{{interprogetto}}
 
== Collegamenti esterni ==
* {{Collegamenti esterni}}
* [http://www.incertitudes.fr/book.pdf Probability, Statistics and Estimation] in inglese. I primi Studentes a pagina 112.
* ''[https://web.archive.org/web/20100821224440/http://www.dti.unimi.it/fscotti/ita/md_biotec_estrazione/allegati/Student.pdf Il test di Student]'' di F. Scotti.
*{{Mathworld|Studentst-Distribution}}
 
{{Probabilità}}
 
{{Portale|matematica}}
 
[[Categoria:Distribuzioni di probabilità|Student]]