Receiver operating characteristic

Nella teoria delle decisioni, le curve ROC (Receiver Operating Characteristic, anche note come Relative Operating Characteristic^[1]) sono degli schemi grafici per un classificatore binario. Lungo i due assi si possono rappresentare la sensibilità e (1-specificità), come True Positive Rate (TPR, frazione di veri positivi) e False Positive Rate (FPR, frazione di falsi positivi). In altre parole, si studiano i rapporti fra allarmi veri (hit rate) e falsi allarmi.

Le curve ROC furono utilizzate per la prima volta durante la seconda guerra mondiale, da alcuni ingegneri elettrotecnici che volevano individuare i nemici utilizzando il radar durante le battaglie aeree. Recentemente le curve ROC sono utilizzate in medicina,^[2]^[3] radiologia,^[4] psicologia, veterinaria^[5], fisica e altri ambiti, come il machine learning ed il data mining.

Concetto basilare

Se si considera un problema di predizione a 2 classi (classificatore binario come da figura: distribuzione rossa e azzurra), scelto un valore di soglia (threshold o cut-off), rispetto a cui decidere il risultato, ovvero se appartenente alla classe positiva (p) o negativa (n), dato che le due curve di distribuzione di probabilità risultano in parte sovrapposte, sono possibili quattro risultati a seconda della posizione del valore di cut-off:

se il risultato della predizione è positivo p e il valore vero è anche positivo p, viene chiamato vero positivo (true positive - TP);
se invece il valore vero è negativo, il risultato viene chiamato falso positivo (false positive - FP);
al contrario, si ha un vero negativo (true negative - TN) quando entrambi, il risultato e il valore vero, sono negativi;
un falso negativo (false negative - FN) invece si ha quando il risultato è negativo e il valore vero è positivo.

È inoltre possibile rappresentare questo tipo di situazione utilizzando una tabella di contingenza di tipo 2×2, dove le colonne rappresentano la distinzione tra soggetti sani e malati; le righe invece rappresentano il risultato del test sui pazienti. Un risultato qualitativo del test potrebbe essere quello di andare a valutare il numero di falsi positivi e negativi; meno ve ne saranno e maggiormente il test sarà valido.

		valore vero
		p	n	totale
predizione risultato	p'	Vero Positivo	Falso Positivo	P'
predizione risultato	n'	Falso Negativo	Vero Negativo	N'
totale		P	N

Una curva ROC è il grafico dell'insieme delle coppie (FP, TP) al variare di un parametro del classificatore. Per esempio, in un classificatore a soglia, si calcola la frazione di veri positivi e quella di falsi positivi per ogni possibile valore della soglia; tutti i punti così ottenuti nello spazio FP-TP descrivono la curva ROC.

Attraverso l'analisi delle curve ROC si valuta la capacità del classificatore di discernere, ad esempio, tra un insieme di popolazione sana e malata, calcolando l'area sottesa alla curva ROC (Area Under Curve, AUC). Il valore di AUC, compreso tra 0 e 1, equivale infatti alla probabilità che il risultato del classificatore applicato ad un individuo estratto a caso dal gruppo dei malati sia superiore a quello ottenuto applicandolo ad un individuo estratto a caso dal gruppo dei sani.^[6]

Le curve ROC passano per i punti (0,0) e (1,1), avendo inoltre due condizioni che rappresentano due curve limite:

una che taglia il grafico a 45°, passando per l'origine. Questa retta rappresenta il caso del classificatore casuale (linea di «nessun beneficio»), e l'area sottesa AUC è pari a 0,5.
la seconda curva è rappresentata dal segmento che dall'origine sale al punto (0,1) e da quello che congiunge il punto (0,1) a (1,1), avendo un'area sottesa di valore pari a 1, ovvero rappresenta il classificatore perfetto.

Alcuni concetti

$TPR=TP/P=TP/(TP+FN)$
$FPR=FP/N=FP/(FP+TN)$
accuratezza $ACC=(TP+TN)/(P+N)$

Note

^ Ezio Bottarelli, Stefano Parodi, Un approccio per la valutazione della validità dei test diagnostici: le curve R.O.C. (Receiver Operating Characteristic) (PDF), su dipveterinaria.unipr.it. URL consultato il 12 luglio 2016 (archiviato dall'url originale il 21 agosto 2016).
^ Lusted, 1971
^ Erdrich 1981, Henderson, 1993
^ Goodenough e coll., 1974; Hanley e McNeil, 1982
^ Greiner, Pfeiffer e Smith, 2000
^ Bamber, 1975; Zweig e Campbell, 1993

Altri progetti

Wikimedia Commons contiene immagini o altri file su Receiver operating characteristic

Collegamenti esterni

(EN) operating-characteristic curve, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.

[1] Ezio Bottarelli, Stefano Parodi, Un approccio per la valutazione della validità dei test diagnostici: le curve R.O.C. (Receiver Operating Characteristic) (PDF), su dipveterinaria.unipr.it. URL consultato il 12 luglio 2016 (archiviato dall'url originale il 21 agosto 2016).

[2] Lusted, 1971

[3] Erdrich 1981, Henderson, 1993

[4] Goodenough e coll., 1974; Hanley e McNeil, 1982

[5] Greiner, Pfeiffer e Smith, 2000

[6] Bamber, 1975; Zweig e Campbell, 1993

[1]

[2]

[3]

[4]

[5]

[6]