P-P plot

probability plot per valutare quanto due set di dati siano simili, tracciando su di un grafico le due funzioni di ripartizione

Da non confondere con Q-Q plot

Un P-P plot (Probability-Probability plot, o Percent-Percent plot) è un probability plot per valutare quanto due set di dati siano simili, tracciando su di un grafico le due cdf. Questo è memo utilizzato del Q-Q plot

Definizione

Date due distribuzioni di probabilità, con funzioni di ripartizione "F" e "G", il P-P plot traccia su un grafico   al variare di z tra   +\infty </math>. Siccome una funzione di ripartizione ha immagine in [0,1], il dominio di questo grafico parametrico è (-\infty,+\infty) e l'immagine è il quadrato [0,1]X[0,1].

Così per ogni input z l'output è la coppia di numeri corrispondenti alla probabilità che f e g siano minori o uguali a z.

La linea di comparazione è la linea a 45° che ha per estremi (0,0) e (1,1) - le distribuzioni sono uguali se e solo se il grafico cade su questa linea - ogni deviazione indica una differenza tra le distribuzioni.


Utilizzo



Se due distribuzioni sono separate nello spazio, il P-P plot darà poche informazioni - è utile solo per comparare distribuzioni di probabilità che hanno locazioni vicine o uguali. Da notare che passerà per il punto (1/2;1/2) se e solo se le due distribuzioni hanno la stessa mediana.

I P-P plot a volte sono limitati a comparazioni tra due campionamenti piuttosto che per comparazioni tra un campionamento e un teorico modello di distribuzione. Comunque, sono di utilizzo generale, particolarmente quando le osservazioni non sono tutte modellizzate con la stessa distribuzione.

Comunque, hanno trovato uso nella comparazione di una distribuione campionaria da una nota distribuzione teorica: dati n campionamenti, plottando la cdf teorica continua contro la cdf empirica si produrrebbe un grafico a gradini (un gradino ogni volta che z tocca un campionamento), e toccherebbe l'estremo superiore del quadrato in corrispondenza dell'ultimo punto dei dati.