Receiver operating characteristic: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Amirobot (discussione | contributi)
FrescoBot (discussione | contributi)
m Bot: numeri di pagina nei template citazione
 
(40 versioni intermedie di 20 utenti non mostrate)
Riga 1:
[[File:ROCfig.PNG|thumb|250px|Un esempio di curva ROC.]]
Nella [[Ricerca operativa|teoria delle decisioni]], le '''curve ROC''' ('''Receiver Operating Characteristic''' o, anche note come '''Relative Operating Characteristic'''<ref>{{Cita web|url=http://www.dipveterinaria.unipr.it/arpasites/facvetst18/annalifiles/2003allegatiparagrafo/4916-09-2013/annali2003.pdf|titolo=Un approccio per la valutazione della validità dei test diagnostici: le curve R.O.C. (Receiver Operating Characteristic)|autore=Ezio Bottarelli, Stefano Parodi|editore=|data=|accesso=12 luglio 2016|urlmorto=sì|urlarchivio=https://web.archive.org/web/20160821190914/http://www.dipveterinaria.unipr.it/sites/st18/files/allegatiparagrafo/16-09-2013/annali2003.pdf|dataarchivio=21 agosto 2016}}</ref>) sono undegli schemaschemi graficografici per un classificatore binario. Lungo i due assi si possono rappresentare la sensibilità e (1-specificità), comerispettivamente rappresentati da ''True Positive Rate'' (veroTPR, frazione di veri positivopositivi) e ''False Positive Rate'' (falsoFPR, frazione di falsi positivopositivi). In altre parole, si studiano i rapporti fra allarmi veri (''hit rate'') e falsi allarmi.
 
La curva ROC viene creata tracciando il valore del ''True Positive Rate'' (TPR, frazione di veri positivi) rispetto al ''False Positive Rate'' (FPR, frazione di falsi positivi) a varie impostazioni di soglia. Il tasso di veri positivi è anche noto come sensibilità, richiamo o probabilità di rilevazione<ref name=":0">{{Cita web|url=https://www.mathworks.com/help/phased/examples/detector-performance-analysis-using-roc-curves.html|titolo=Detector Performance Analysis Using ROC Curves - MATLAB & Simulink|accesso=2019-11-06}}</ref>. Il tasso di falsi positivi è anche noto come fall-out o probabilità di falsi allarmi<ref name=":0" /> e può essere calcolato come (1 - specificità). Può anche essere pensato come un diagramma della potenza in funzione dell'errore di tipo I :quando la prestazione viene calcolata da un solo campione della popolazione, può essere considerata come una stima di queste quantità. La curva ROC è quindi il tasso dei veri positivi in funzione del tasso dei falsi positivi. In generale, se sono note le distribuzioni di sensibilità e 1-specificità, la curva ROC può essere generata tracciando la funzione di distribuzione cumulativa (area sotto la distribuzione di probabilità da <math>-\infty</math> alla soglia di discriminazione) della probabilità di rilevamento nell'asse y rispetto alla funzione di distribuzione cumulativa della probabilità di falso allarme sull'asse x.
Le curve ROC furono utilizzate per la prima volta da alcuni ingegneri elettrici durante la [[seconda guerra mondiale]], che volevano scovare i nemici utilizzando il [[radar]] durante le battaglie. Recentemente invece le curve ROC sono utilizzate anche in [[medicina]],<ref>Lusted, 1971</ref><ref>Erdrich 1981, Henderson, 1993</ref> [[radiologia]],<ref>Goodenough e coll., 1974; Hanley e McNeil, 1982</ref> [[psicologia]], [[veterinaria]]<ref>Greiner, Pfeiffer e Smith, 2000</ref> e altri ambiti, come il [[machine learning]] e [[data mining]].
 
Il ROC è anche noto come curva Receiver Operating Characteristic, poiché è un confronto tra due caratteristiche operative (TPR e FPR) al cambiare del criterio.<ref>{{Cita web|url=https://www.questia.com/read/91082370/signal-detection-theory-and-roc-analysis-in-psychology|titolo=Signal Detection Theory and ROC Analysis in Psychology and Diagnostics: Collected Papers - 1996, Page iii by John A. Swets. {{!}} Online Research Library: Questia|accesso=2019-11-06|dataarchivio=6 novembre 2019|urlarchivio=https://web.archive.org/web/20191106103308/https://www.questia.com/read/91082370/signal-detection-theory-and-roc-analysis-in-psychology|urlmorto=sì}}</ref>
 
== Applicazioni ==
Le curve ROC furono utilizzate per la prima volta da alcuni ingegneri elettrici durante la [[seconda guerra mondiale]], da alcuni ingegneri elettrotecnici che volevano scovareindividuare i nemici utilizzando il [[radar]] durante le battaglie aeree. Recentemente invece le curve ROC sono utilizzate anche in [[medicina]],<ref>Lusted, 1971</ref><ref>Erdrich 1981, Henderson, 1993</ref> [[radiologia]],<ref>Goodenough e coll., 1974; Hanley e McNeil, 1982</ref> [[psicologia]], [[meteorologia]]<ref>{{Cita pubblicazione|nome=Allan H.|cognome=Murphy|data=1996-03-01|titolo=The Finley Affair: A Signal Event in the History of Forecast Verification|rivista=Weather and Forecasting|volume=11|numero=1|pp=3-20|accesso=2019-11-06|doi=10.1175/1520-0434(1996)0112.0.CO;2|url=https://journals.ametsoc.org/doi/abs/10.1175/1520-0434(1996)011%3C0003:TFAASE%3E2.0.CO;2}}</ref>, [[veterinaria]]<ref>Greiner, Pfeiffer e Smith, 2000</ref>, [[fisica]] e altri ambiti, come il [[machine learning]] eed il [[data mining]].
 
==Concetto basilare==
Se si considera un problema di predizione a 2 classi ([[classificatore binario]] come da figura: distribuzione rossa e azzurra), scelto un valore di soglia (''threshold'' o ''cut-off''), in cui è possibile andarerispetto a cui decidere il risultato, ovvero se laappartenente alla classe è positiva (''p'') o negativa (''n''), dato che le due curve di distribuzione di probabilità risultano in parte sovrapposte, sono possibili quattro risultati a seconda della posizione del valore di cut-off:
*se il risultato della predizione è positivo ''p'' e il valore vero è anche positivo ''p'', viene chiamato ''vero positivo'' (true positive - TP);
*se invece il valore vero è negativo, il risultato viene chiamato ''falso positivo'' (false positive - FP);
*contrariamenteal contrario, si ha un ''vero negativo'' (true negative - TN) occorre quando entrambi, il risultato e il valore vero, sono negativi;
*un ''falso negativo'' (false negative - FN) invece èsi ha quando il risultato è negativo e il valore vero è positivo.
 
È inoltre possibile rappresentare questo tipo di situazione anche andando a utilizzareutilizzando una [[tabella di contingenza]] di tipo 2×2, dove le colonne rappresentano la distinzione tra soggetti sani e malati; le righe invece rappresentano il risultato del test sui pazienti. Un risultato qualitativo del test potrebbe essere quello di andare a valutare il numero di falsi positivi e negativi,; meno ve ne saranno e tantomaggiormente il test sarà maggiormente valido.
{| align=center
|-
Line 32 ⟶ 37:
|}
 
Una curva ROC è il grafico dell'insieme delle coppie (FP, TP) al variare di un parametro del classificatore. Per esempio, in un classificatore a soglia, si calcola la frazione di veri positivi e quella di falsi positivi per ogni possibile valore della soglia; tutti i punti così ottenuti nello spazio FP-TP descrivono la curva ROC.
Il test che si effettua attraverso l'analisi delle curve ROC ha la capacità di discernere, ad esempio, tra un insieme di popolazione ''sana'' e ''malata'', andando ad analizzare l'area sottesa dalla curva ROC (''Area Under Curve'', AUC). Ciò equivale alla probabilità che il risultato del test effettuato su un individuo estratto a caso dal gruppo dei malati sia superiore a quello estratto a caso dal gruppo dei sani.<ref>Bamber, 1975; Zweig e Campbell, 1993</ref>
 
Il test che si effettua attraversoAttraverso l'analisi delle curve ROC hasi valuta la capacità del classificatore di discernere, ad esempio, tra un insieme di popolazione ''sana'' e ''malata'', andando ad analizzarecalcolando l'area sottesa dallaalla curva ROC (''Area Under Curve'', AUC). CiòIl valore di AUC, compreso tra 0 e 1, equivale infatti alla probabilità che il risultato del testclassificatore effettuatoapplicato suad un individuo estratto a caso dal gruppo dei malati sia superiore a quello ottenuto applicandolo ad un individuo estratto a caso dal gruppo dei sani.<ref>Bamber, 1975; Zweig e Campbell, 1993</ref>
Solitamente si ha che le curve ROC passano per i punti (0,0) e (1,1), avendo inoltre due condizioni che rappresentano due curve limite:
 
*una che taglia il grafico a 45°, passando per l'origine. Questa retta rappresenta il caso del classificatore randomico (linea di «nessun beneficio»), e l'area sottesa è pari a 0,5.
Solitamente si ha che leLe curve ROC passano per i punti (0,0) e (1,1), avendo inoltre due condizioni che rappresentano due curve limite:
*la seconda curva è rappresentata dall'insieme di segmenti che dall'origine sale al punto (0,1) e da quello che congiunge il punto (0,1) a (1,1), avendo un'area sottesa di valore pari a 1, ovvero rappresenta il classificatore perfetto.
*una che taglia il grafico a 45°, passando per l'origine. Questa retta rappresenta il caso del classificatore randomicocasuale (linea di «nessun beneficio»), e l'area sottesa AUC è pari a 0,5.
*la seconda curva è rappresentata dall'insiemedal di segmentisegmento che dall'origine sale al punto (0,1) e da quello che congiunge il punto (0,1) a (1,1), avendo un'area sottesa di valore pari a 1, ovvero rappresenta il classificatore perfetto.
 
==Alcuni concetti==
*<math>TPR = TP / P = TP / (TP+FN) </math>
*<math>FPR = FP / N = FP / (FP + TN)</math>
*[[accuratezza]] <math>ACC = (TP + TN) / (P + N)</math>
Line 47 ⟶ 54:
 
==Altri progetti==
{{interprogetto|commons=category:Receiver operating characteristic}}
 
== Collegamenti esterni ==
* {{Collegamenti esterni}}
 
{{Controllo di autorità}}
 
{{Portale|neuroscienze}}
 
[[Categoria:Ricerca operativa]]
[[Categoria:Data mining]]
 
[[de:Receiver Operating Characteristic]]
[[en:Receiver operating characteristic]]
[[es:Curva ROC]]
[[fa:منحنی مشخصه عملکرد سیستم]]
[[fr:Receiver Operating Characteristic]]
[[ja:受信者操作特性]]
[[ko:수용자 조작특성]]
[[lt:ROC kreivė]]
[[nl:ROC-curve]]
[[tr:ROC]]
[[vi:Đường cong ROC]]
[[zh:ROC曲线]]