Distribuzione beta-binomiale: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
ValterVBot (discussione | contributi)
m Bot: Elimino interlinks vedi Wikidata
 
(14 versioni intermedie di 12 utenti non mostrate)
Riga 1:
In [[teoria delle probabilità]] la '''distribuzione casuale beta-binomiale''' è una famiglia di [[distribuzione di probabilità|distribuzioni di probabilità]] [[Distribuzione discreta|discrete]] che può essere vista come generalizzazione della [[distribuzione binomiale]] e della [[distribuzione Beta]]. Descrive la distribuzione del numero di successi su ''<math>n''</math> esperimenti [[indipendenza statistica|indipendenti]] di tipo sì/no, ma, contrariamente alla distribuzione Binomiale, la probabilità di successo non è un parametro fisso πnoto, ma è un valore incerto distribuito come una [[variabile casuale Beta]] B<math>\Beta(a,b).</math> Si tratta infatti di una [[Mistura di distribuzioni|mistura]] di Binomialebinomiali in cui il parametro π ha distribuzione Beta.
 
La distribuzione beta-binomiale dipende da tre parametri: ''<math>n'', ''a'', ''b''.</math>
 
== Definizione ==
Se ''<math>X''~BeB\sim \mathrm{BetaBin}(n,a,b)</math> è una variabile casuale distribuita come una v.c.variabile casuale beta-binomiale con i parametri ''<math>n'',</math> ''<math>a'',</math> ''<math>b'',</math> allora per <math>x \ge 0</math>
 
:<math>P(X=x) = C {n \choose x} \Gamma(a+x) \Gamma(b+n-x)</math>
:<math>P(X=x) = C {n \choose x} \Gamma(a+x) \Gamma(b+n-x),</math>
dove la costante ''C'' è data da
 
dove la costante <math>C</math> è data da
 
:<math>C = \frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b) \Gamma (a+b+n)}</math>
e <math>\Gamma( )</math> è la [[funzione gamma]].
 
e <math>\Gamma</math> è la [[funzione gamma]].
Un modo alternativo per descrivere la BeB(n,a,b) è dato da
 
:<math>P(X=x) = {n \choose x} \frac{\Beta(a+x , b+n-x)}{\Beta (a, b)}</math>
doveUn modo alternativo per descrivere la <math>\Betamathrm{BetaBin}( n,a,b)</math> è la [[funzionedato beta]].da
 
:<math>P(X=x) = {n \choose x} \frac{\Beta(a+x , b+n-x)}{\Beta (a, b)},</math>
 
dove <math>\Beta</math> è la [[funzione beta di Eulero]].
 
== Caratteristiche ==
Il [[valore atteso]] dipende da tutti e tre i parametri
 
:<math>E(X) = n \frac{a}{a+b}</math>
:<math>\mathrm{E}(X) = n \frac{a}{a+b},</math>
 
così come pure la [[varianza]]
:<math>Var(X) = n \frac{a b}{(a+b)^2} \frac{a+b+n}{a+b+1}</math>
l'assimetria viene indicata con
:<math>(a + b + 2 n)\frac{b-a}{a+b+2} \sqrt{\frac{1+a+b}{n a b (n+a+b)}}</math>
:=<math>(a + b + 2 n)\frac{b-a}{a+b+2}\ \frac{1}{a+b} \sqrt{\frac{1}{Var(X)}}</math>
 
:<math>\mathrm{Var}(X) = n \frac{a b}{(a+b)^2} \frac{a+b+n}{a+b+1}.</math>
 
L'asimmetria viene indicata con
Utilizzando la notazione <math>p=\frac{a}{a+b}</math> il valore atteso e la varianza possono essere descritti in una forma che ricorda quella della v.c. binomiale.
:<math>E(X) = n \frac{a}{a+b} = n p</math>
:<math>Var(X) = n \frac{a b}{(a+b)^2} \frac{a+b+n}{a+b+1} = n p (1-p) \frac{a+b+n}{a+b+1}</math>
dalla quale si nota che a parità di valore atteso (ed ''n'') la v.c. beta-binomiale ha sempre una varianza maggiore della v.c. binomiale.
 
:<math>(a + b + 2 n)\frac{b-a}{a+b+2} \sqrt{\frac{1+a+b}{n a b (n+a+b)}}=(a + b + 2 n)\frac{b-a}{a+b+2}\ \frac{1}{a+b} \sqrt{\frac{1}{\mathrm{Var}(X)}}.</math>
e l'assimitria viene indicata con
:<math>\frac{1-2p}{\sqrt{Var(X)}} \frac{a + b + 2 n}{a + b + 2}</math>
:<math>= \frac{1-2p}{\sqrt{n p (1-p)}} \frac{a + b + 2 n}{a + b + 2} \sqrt{\frac{a + b + 1}{a + b + n}}</math>
 
Utilizzando la notazione <math>p=\frac{a}{a+b},</math> il valore atteso e la varianza possono essere descritti in una forma che ricorda quella della variabile casuale binomiale:
e così anche in questo caso diventa evidente come l'assimetria della beta-binomiale sia sempre maggiore dell'assimetria della binomiale, a parità valore atteso (ed ''n'').
 
:<math>\mathrm{E}(X) = n \frac{a}{a+b} = n p;</math>
:<math>\mathrm{Var}(X) = n \frac{a b}{(a+b)^2} \frac{a+b+n}{a+b+1} = n p (1-p) \frac{a+b+n}{a+b+1}.</math>
 
Dalle precedenti si nota che a parità di valore atteso (ed <math>n</math>) la variabile casuale beta-binomiale ha sempre una varianza maggiore della variabile casuale binomiale.
 
L'asimmetria viene indicata con
:<math>\frac{1-2p}{\sqrt{\mathrm{Var}(X)}} \frac{a + b + 2 n}{a + b + 2}= \frac{1-2p}{\sqrt{n p (1-p)}} \frac{a + b + 2 n}{a + b + 2} \sqrt{\frac{a + b + 1}{a + b + n}}.</math>
 
Anche in questo caso diventa evidente come l'asimmetria della beta-binomiale sia sempre maggiore dell'asimmetria della binomiale, a parità valore atteso (ed <math>n</math>).
 
== Casi particolari ==
Nel caso che <math>a=1</math> e <math>b=1,</math> allora si tratta di una [[variabile casuale uniforme discreta]] con <math>P(X=x)=1/(n+1)</math> essendoci <math>n+1</math> valori possibili.
 
== Ambiti di applicazione ==
La v.c.variabile casuale beta-binomiale è idonea a descrivere fenomeni solitamente descritti dalla v.c.variabile casuale binomiale, qualora però la probabilità varidi successo nella singola prova sia incerta, perché inferita dai dati passati.
 
Un possibile caso è quello di prevedere in senso probabilistico quante lampadine si fulminofulminano entro 1 anno dall'installazione sapendo che la probabilità che si fulminofulminino non è uguale per tutte, ma riesce ad essereè descritta da una v.c.variabile casuale Beta.
 
Analogamente, qualora ci si trovi di fronte ad un modello che dovrebbe essere descritto da una v.c.variabile casuale binomiale, ma dove i dati mostrano una distribuzione molto "larga", allora si può sospettare che la probabilità degli eventi non sia costante, ma vari attorno ad un valore come nel modello beta-binomiale.
 
== Esempi ==
=== Probabilità di estrarre ''X'' palline rosse da un'urna della quale si conosce solo approssimativamente la composizione ===
==== Un modello ====
Nell'ambito dell'[[inferenza bayesiana]], da un'urna della quale si ignora il numero di palline presenti ma che da estrazioni precedenti risulta che vi siano una percentuale di palline rosse che varia come una v.c.variabile casuale <math>\Beta(a,b),</math> dovranno essere estratte (e ogni volta renseritereinserite) ''<math>n''</math> palline. Ci si chiede quale sia la probabilità che ''<math>x''</math> di queste siano rosse. La risposta sta nella v.c.variabile BetaBcasuale <math>\mathrm{BetaBin}(n,a,b).</math>
 
==== Esempio numerico ====
Partendo da un concetto di completa ignoranza che ci porta a descrivere la distribuzione a priori come una v.c.variabile casuale uniforme continua e dunque come una <math>\Beta(1,1)</math> vengono estratte 15 palline, delle quali solo una è rossa. In questo modo la probabilità a posteriori diventa una v.c.variabile casuale <math>\Beta(1+1,1+14)=\Beta(2,15).</math>
 
A questo punto si decide di fare un'ulteriore estrazione di 40 palline e ci si chiede quale sia la probabilità che esattamente due di queste siano rosse.
 
Essendo in questa seconda estrazione la probabilità <math>P(X=x)</math> quella di una variabile casuale <math>\mathrm{BetaBin}(40,2,15)</math> si ottiene che
 
:<math>P(X=2 | n=40, a=2, b=15) = C {40 \choose 2} \Gamma(2+2) \Gamma(15+40-2),</math>
A questo punto si decide di fare una ulteriore estrazione di 40 palline e ci si chiede quale sia la probabilità che esattamente due di queste siano rosse.
 
Essendo in questa seconda estrazione la probabilità P(X=x) quella di una v.c. BetaB(40,2,15) si ottiene che
:<math>P(X=2 | n=40, a=2, b=15) = C {40 \choose 2} \Gamma(2+2) \Gamma(15+40-2)</math>
dove
 
:<math>C = \frac{\Gamma(2+15)}{\Gamma(2) \Gamma(15) \Gamma (2+15+40)}</math>
:<math>C = \frac{\Gamma(2+15)}{\Gamma(2) \Gamma(15) \Gamma (2+15+40)},</math>
 
ed essendo <math>{40 \choose 2} = 780</math> e inoltre essendo in generale <math>\Gamma(k) = (k-1)!</math> e pertanto
 
:<math>\Gamma(2) = 1</math>
:<math>\Gamma(4) = 6</math>
Riga 66 ⟶ 81:
:<math>\Gamma(53) = 52! </math>
:<math>\Gamma(57) = 56! </math>
 
 
si ottiene
 
:<math>P(X=2 | n=40, a=2, b=15) = \frac{16!}{1 \ 14! \ 56!} (780 \ 6 \ 52!) = </math>
::<math>= 780 \ 6 \ \frac{16!}{14!} \ \frac{54!}{56!} = \frac{780}{53} \ \frac{6}{54} \ \frac{15}{55} \ \frac{16}{56} = </math>
::<math> = \frac{260}{53} \ \frac{2}{77} = 0,12741975 = 12,74%.</math>
 
[[File:BetaBinomVsBinom.svg|300pxupright=1.4|thumb|Le due v.c.variabili casuali usate nell'esempio]]
 
Questo risultato è diverso da quello che si sarebbe ottenuto utilizzando come probabilità di successo la stima puntuale, vale a dire la semplice proporzione ottenuta nella prima serie di estrazioni (1/15 = 6,67%) e applicando per la seconda la variabile casuale binomiale <math>B(n=40,p=1/15).</math> In questo caso si sarebbe ottenuto <math>P(X=2 | n=40, p=1/15) = 25,19%.</math>
 
Il grafico mette in evidenza il fatto che la variabile casuale <math>B(n=40,p=1/15)</math> è molto più "stretta" della <math>\mathrm{BetaBin}(40,2,15),</math> ciò è dovuto al fatto che nell'approccio bayesiano non ci si "dimentica" che vi è un'incertezza su quale sia la vera proporzione di palline rosse e questa incertezza rende probabili anche valori più "distanti".
Questo risultato è diverso da quello che si sarebbe ottenuto utilizzando come probabilità di successo la stima puntuale, vale a dire la semplice proporzione ottenuta nella prima serie di estrazioni (1/15 = 6,67%) e applicando per la seconda la v.c. binomiale B(n=40,p=1/15). In questo caso si sarebbe ottenuto P(X=2 | n=40, p=1/15) = 25,19%.
 
Il grafico mette in evidenza il fatto che la v.c. B(n=40,p=1/15) è molto più "stretta" della BetaB(40,2,15), ciò è dovuto al fatto che nell'approccio bayesiano non ci si "dimentica" che vi è una incertezza su quale sia la vera proporzione di palline rosse e questa incertezza rende probabili anche valori più "distanti".
 
=== Scelta bayesiana tra due modelli: Estrazione da un'urna: determinare a quale urna nota corrisponda un'urna ===
 
=== Scelta bayesiana tra due modelli: Estrazione da un'urna, determinare a quale urna nota corrisponda un'urna ===
* Di un'urna si sa che una percentuale ignota di palline sono rosse.
* Si sa che l'urna è o l'urna <math>A</math> oppure l'urna <math>B.</math>
* Dall'urna <math>A</math> sono state estratte in passato 10 palline, delle quali 2 rosse (dunque il 20%), .
* mentreMentre dall'urna <math>B</math> in passato su 15 palline estratte 10 erano rosse (pari al 67%).
* Nulla fa pensare che l'urna in questione sia l'urna <math>A</math> piuttosto che l'urna <math>B.</math>
* Né dell'urna <math>A,</math> né dell'urna B si conosce il numero complessivo di palline.
* dallDall'urna in questione vengono estratte 50 palline, delle quali 12 sono rosse (il 24%).
 
Domande
* qual è la probabilità che l'urna in questione sia l'urna <math>A</math>?
* qual è la distribuzione a posteriori della percentuale di palline rosse?
* qual è la probabilità che dall'urna in questione alla prossima estrazione di 10 palline, neanche una volta esca una rossa?
 
Nell'ambito dell'inferenza bayesiana si può dire pertanto che:
* la probabilità a priori che l'urna in questione sia l'urna <math>A</math> è pari a <math>P(U=A)=1/2</math> e di conseguenza <math>P(U=B)=1-P(U=A)=1/2;</math>
* per l'urna <math>A,</math> grazie all'estrazione di 10 palline, delle quali 2 rosse, la distribuzione a posteriori della percentuale di palline rosse è una v.c.variabile casuale Beta <math>\Beta(a_A=1+2,b_A=1+10-2)</math>, nel caso che la distribuzione a priori sia una rettangolare, equivalente ad una <math>\Beta(1,1);</math>
* analogamente per l'urna <math>B,</math> la distribuzione a posteriori è una <math>\Beta(a_B=1+10,b_B=1+15-10).</math>
 
Per procedere è necessario fare ricorso alla v.c.variabile casuale beta-binomiale, infatti sapendo che su 50 palline estratte 12 sono rosse, si può calcolare la probabilità <math>P(U=A|X=12,n=50)</math> che si tratti dell'urna <math>A,</math> nel seguente modo:
:<math>P(U=A|X=x,n)=\frac{P(U=A) BetaB(X=x,n,a_A,b_A)}{P(U=A) BetaB(X=x,n,a_A,b_A) + P(U=B) BetaB(X=x,n,a_B,b_B)}</math>
che grazie al fatto che P(U=B)=1-P(U=A)=1/2=P(U=A) si semplifica ottenendo
:<math>P(U=A|X=x,n)=\frac{ BetaB(X=x,n,a_A,b_A)}{ BetaB(X=x,n,a_A,b_A) + BetaB(X=x,n,a_B,b_B)}</math>
 
:<math>P(U=A|X=x,n)=\frac{P(U=A) \mathrm{BetaBin}(X=x,n,a_A,b_A)}{P(U=A) \mathrm{BetaBin}(X=x,n,a_A,b_A) + P(U=B) \mathrm{BetaBin}(X=x,n,a_B,b_B)}</math>
tenuto conto dei valori dell'esempio, si calcola
:<math>BetaB(X=12,n=50,a_A=2,b_A=9) = 0,04499198</math>
:<math>BetaB(X=12,n=50,a_B=11,b_B=6) = 0,0007276656</math>
:<math>P(U=A|X=12,n=50)=\frac{ 0,04499198}{0,04499198 + 0,0007276656 }=\frac{ 0,04499198}{0.04571965 } = 0,984084 = 98,4%</math>
ciò vuol dire che la probabilità che l'urna in questione sia l'urna A è del 98,4%.
Questo risultato è comprensibile, visto che il 24% dell'urna ignota è molto più prossimo al 20% dell'urna A che non al 67% dell'urna B.
 
che grazie al fatto che <math>P(U=B)=1-P(U=A)=1/2=P(U=A)</math> si semplifica ottenendo:
Tenuto conto delle prime due estrazioni (quando le urne erano note) e l'estrazione dall'urna della quale si era perso il nome, e del fatto che al 98,4% l'urna in questione è l'urna A, ma che c'è pur sempre una probabilità del 1,6% che si tratti dell'urna B, la percentuale di palline rosse in questa urna della quale non si sa quale delle due sia viene descritta dalla mistura delle due v.c. <math>Beta(n,a=a_i,b=b_i)</math> (con i=A,B) ponderate con le probabilità P(U=i|X=x,n).
 
:<math>P(U=A|X=x,n)=\frac{ \mathrm{BetaBin}(X=x,n,a_A,b_A)}{ \mathrm{BetaBin}(X=x,n,a_A,b_A) + \mathrm{BetaBin}(X=x,n,a_B,b_B)}.</math>
Una volta nota tale mistura di v.c. è possibile calcolare la probabilità che alla prossima estrazione di 10 palline neanche una sia rossa. Par fare ciò è necessario fare ricorso a tecniche di [[calcolo numerico]].
 
Tenuto conto dei valori dell'esempio, si calcola
== Collegamenti esterni ==
 
* http://www.answers.com/topic/beta-binomial-distribution
:<math>\mathrm{BetaBin}(X=12,n=50,a_A=2,b_A=9) = 0,04499198;</math>
* http://www.vosesoftware.com/ModelRiskHelp/Distributions/Discrete_distributions/Beta-Binomial_distribution.htm
:<math>\mathrm{BetaBin}(X=12,n=50,a_B=11,b_B=6) = 0,0007276656;</math>
* http://mathworld.wolfram.com/BetaBinomialDistribution.html
:<math>P(U=A|X=12,n=50)=\frac{ 0,04499198}{0,04499198 + 0,0007276656 }=\frac{ 0,04499198}{0.04571965 } = 0,984084 = 98,4%.</math>
 
Ciò vuol dire che la probabilità che l'urna in questione sia l'urna <math>A</math> è del 98,4%. Questo risultato è comprensibile, visto che il 24% dell'urna ignota è molto più prossimo al 20% dell'urna <math>A</math> che non al 67% dell'urna <math>B.</math>
 
Tenuto conto delle prime due estrazioni (quando le urne erano note) e l'estrazione dall'urna della quale si era perso il nome, e del fatto che al 98,4% l'urna in questione è l'urna <math>A,</math> ma che c'è pur sempre una probabilità dell'1,6% che si tratti dell'urna <math>B,</math> la percentuale di palline rosse in questa urna della quale non si sa quale delle due sia viene descritta dalla mistura delle due variabili casuali <math>\Beta(n,a=a_i,b=b_i)</math> (con <math>i=A,B</math>) ponderate con le probabilità <math>P(U=i|X=x,n).</math>
 
Una volta nota tale mistura di variabili casuali è possibile calcolare la probabilità che alla prossima estrazione di 10 palline neanche una sia rossa. Par fare ciò è necessario fare ricorso a tecniche di [[calcolo numerico]].
 
== Bibliografia ==
* {{de}} Leonhard Held, "''Methoden der statistischen Inferenz. Likelihood und Bayes"'', con la collaborazione di Daniel Sabanés Bové, Spektrum Akademischer Verlag Heidelberg 2008, ISBN 978-3-8274-1939-2
* {{en}} Jim Albert, "''Bayesian Computation With R"'', Springer New York, 2009, ISBN 978-0-387-92297-3 {{Collegamento interrotto|1=[http://www.springerlink.com/content/978-0-387-92297-3] |data=gennaio 2020 |bot=InternetArchiveBot }}
 
== Collegamenti esterni ==
* https://www.answers.com/topic/beta-binomial-distribution
* http://www.vosesoftware.com/ModelRiskHelp/Distributions/Discrete_distributions/Beta-Binomial_distribution.htm
* http://mathworld.wolfram.com/BetaBinomialDistribution.html
 
[[Categoria:Distribuzioni di probabilità|Beta-Binomiale]]