Nella teoria delle decisioni, le curve ROC (Receiver Operating Characteristic o anche note come Relative Operating Characteristic[1]) sono un schema grafico per un classificatore binario. Lungo i due assi si possono rappresentare la sensibilità e (1-specificità), come True Positive Rate (vero positivo) e False Positive Rate (falso positivo). In altre parole, si studiano i rapporti fra allarmi veri (hit rate) e falsi allarmi.

Un esempio di curva ROC.

Le curve ROC furono utilizzate per la prima volta da alcuni ingegneri elettrici durante la seconda guerra mondiale, che volevano scovare i nemici utilizzando il radar durante le battaglie. Recentemente invece le curve ROC sono utilizzate anche in medicina,[2][3] radiologia,[4] psicologia, veterinaria[5] e altri ambiti, come il machine learning e data mining.

Concetto basilare

Se si considera un problema di predizione a 2 classi (classificatore binario come da figura: distribuzione rossa e azzurra), scelto un valore di soglia (threshhold o cut-off), in cui è possibile andare a decidere il risultato, ovvero se la classe è positiva (p) o negativa (n), dato che le due curve risultano in parte sovrapposte, sono possibili quattro risultati a seconda della posizione del valore di cut-off:

  • se il risultato della predizione è positivo p e il valore vero è anche positivo p, viene chiamato vero positivo (true positive - TP);
  • se invece il valore vero è negativo, viene chiamato falso positivo (false positive - FP);
  • contrariamente un vero negativo (true negative - TN) occorre quando entrambi, il risultato e il valore vero, sono negativi;
  • un falso negativo (false negative - FN) invece è quando il risultato è negativo e il valore vero è positivo.

É inoltre possibile rappresentare questo tipo di situazione anche andando a utilizzare una tabella di contingenza di tipo 2×2, dove le colonne rappresentano la distinzione tra soggetti sani e malati; le righe invece rappresentano il risultato del test sui pazienti. Un risultato qualitativo del test potrebbe essere quello di andare a valutare il numero di falsi positivi e negativi, meno ve ne saranno e tanto il test sarà maggiormente valido.

  valore vero
  p n totale
predizione
risultato
p' Vero
Positivo
Falso
Positivo
P'
n' Falso
Negativo
Vero
Negativo
N'
totale P N

Il test che si effettua attraverso l'analisi delle curve ROC ha la capacità di scernere, ad esempio, tra un insieme di popolazione sana e malata, andando ad analizzare l'area sottesa dalla curva ROC (Area Under Curve, AUC). Ciò equivale alla probabilità che il risultato del test effettuato su un individuo estratto a caso dal gruppo dei malati sia superiore a quello estratto a caso dal gruppo dei sani.[6]

Solitamente si ha che le curve ROC passano per i punti (0,0) e (1,1), avendo inoltre due condizioni che rappresentano due curve limite:

  • una che taglia il grafico a 45°, passando per l'origine. Questa retta rappresenta il caso del classificatore randomico (linea di «nessun beneficio»), e l'area sottesa è pari a 0,5.
  • la seconda curva è rappresentata dall'insieme di segmenti che dall'origine sale al punto (0,1) e da quello che congiunge il punto (0,1) a (1,1), avendo un'area sottesa di valore pari a 1, ovvero rappresenta il classificatore perfetto.

Alcuni concetti

  •  
  •  
  • accuratezza  

Note

  1. ^ http://www.unipr.it/arpa/facvet/annali/2003/49.pdf
  2. ^ Lusted, 1971
  3. ^ Erdrich 1981, Henderson, 1993
  4. ^ Goodenough e coll., 1974; Hanley e McNeil, 1982
  5. ^ Greiner, Pfeiffer e Smith, 2000
  6. ^ Bamber, 1975; Zweig e Campbell, 1993

Altri progetti