Test Q
Il test Q o test di Dixon (Q test in inglese) è un semplice test statistico non parametrico utilizzato per valutare se scartare o meno dati ritenuti aberranti.
Per effettuare il test Q al fine di individuare i dati errati, si devono disporre i dati in ordine di valore crescente, e quindi per ognuno calcolare il coefficiente Qn, definito come:
dove R è l'ampiezza dell'intervallo (max(x)-min(x)) in cui abbiamo dei valori
Se il Qn è maggiore del Qtabella allora si può scartare il valore, con affidabilità pari alla percentuale riportata.
Importante: al massimo un valore per serie di dati può essere eliminato con il test Q, se si vuole preservare l'integrità statistica dei dati.
Tabella di valori
Numero di dati: | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Q90%: | 0.941 | 0.765 | 0.642 | 0.560 | 0.507 | 0.468 | 0.437 | 0.412 |
Q95%: | 0.970 | 0.829 | 0.710 | 0.625 | 0.568 | 0.526 | 0.493 | 0.466 |
Q99%: | 0.994 | 0.926 | 0.821 | 0.740 | 0.680 | 0.634 | 0.598 | 0.568 |
Esempio di applicazione
Consideriamo i dati seguenti:
- 0.189, 0.169, 0.187, 0.183, 0.186, 0.182, 0.181, 0.184, 0.181, 0.177
Dopo averli ordinati in ordine crescente, calcoliamo per ognuno la differenza tra i valori successivi:
0.169 | 0.177 | 0.181 | 0.181 | 0.182 | 0.183 | 0.184 | 0.186 | 0.187 | 0.189 |
--- | 0.008 | 0.004 | 0.000 | 0.001 | 0.001 | 0.001 | 0.002 | 0.001 | 0.002 |
Il valore che più si discosta dagli altri è 0.169. Calcoliamone Q:
Con 10 dati, Qn è minore sia del Q90% sia del Q95% riportati in tabella. Possiamo quindi mantenere 0.169 sia se vogliamo il 90% di affidabilità, sia al 95%. Esiste dunque una probabilità superiore al 10%, che quel dato appartenga alla stessa popolazione degli altri nove numeri.
Bibliografia
- R. B. Dean and W. J. Dixon (1951) "Simplified Statistics for Small Numbers of Observations". Anal. Chem., 1951
Voci correlate
- Wilfrid Dixon, coautore del test