Object recognition: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
FrescoBot (discussione | contributi)
fix incipit
Riga 1:
[[File:Detected-with-YOLO--Schreibtisch-mit-Objekten.jpg|thumb|Individuazione di oggetti mediante [[apprendimento profondo]], utilizzando un modello di rete basato su [[YOLO (algoritmo)|YOLOv3]] addestrato con il dataset COCO, capace di individuare fino ad 80 differenti tipologie di oggetti.]]
 
L''''ObjectNella recognition'''[[visione (inartificiale]], italiano:il '''riconoscimento di oggetti'')', nellain [[visioneinglese artificiale]]'''''object recognition''''', è la capacità di trovare un determinato oggetto in una sequenza di immagini o video. L'uomoessere umano riconosce una moltitudine di oggetti in immagini con poco sforzo, nonostante il fatto che l'immagine degli oggetti possa variare un po' in diversi punti di vista, in diversi formati/scala o rotazione. Inoltre; gli oggetti possono essere riconosciuti anche quando sono parzialmente esclusi dalla vista. Questo compito è ancora una sfida per la [[visione artificiale (in inglese ''computer vision]]'') in generale. L'informatico [[David G. Lowe|David Lowe]] (computer scientist) ha sperimentato la [[visione artificiale]] per l'estrazione e l'utilizzo della scala invariante [[Scale-invariant feature transform|SIFT]] in modo da rendere il riconoscimento più affidabile.
 
Per ogni oggetto in un'immagine, ci sono molte [[Caratteristica (apprendimento automatico)|caratteristiche]], che sono caratteristiche interessanti dell'oggetto, le quali possono essere estratte in modo da fornire una descrizione "caratteristica" dell'oggetto. Questa descrizione estratta da una immagine campione può poi essere utilizzata per identificare l'oggetto durante il tentativo di individuare l'oggetto in una immagine di test contenente più oggetti. È importante che l'insieme di caratteristiche estratte dall'immagine campione sia insensibile a variazioni di scala delle immagini, i disturbi, l'illuminazione e distorsioni geometriche, in modo da rendere affidabile il riconoscimento. Il metodo brevettato di Lowe<ref>{{US patent|6,711,293}}, "Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image", David Lowe's patent for the SIFT algorithm</ref> può riconoscere gli oggetti in maniera affidabile, anche tra il disordine e con occlusione parziale perché il metodo SIFT è indipendente dalla scala, orientamento, distorsione e parzialmente dai cambiamenti d'illuminazione<ref name="lowe">{{en}} Lowe, D. G., “Object recognition from local scale-invariant features”, International Conference on Computer Vision, Corfu, Greece, September 1999.</ref>. Questo articolo presenta il metodo di Lowe e cita alcuni concorrenti tecniche disponibili per l'object recognition in presenza di disordine e occlusione parziale.
 
== Metodo di David Lowe ==
I punti chiave [[Scale-invariant feature transform|SIFT]] degli oggetti sono prima estratti da una serie di immagini di riferimento<ref name="lowe" /> e memorizzati in un database. Un oggetto è riconosciuto in una nuova immagine confrontando singolarmente ciascun elemento della nuova immagine con quello nel database trovando quello più simile secondo la [[distanza euclidea]] delle loro caratteristiche vettoriali. Da l'intera serie di corrispondenze, insieme di punti chiave che corrispondono all'oggetto e la sua ubicazione, scala, e orientamento, sono identificate nella nuova immagine estraendo le migliori. La determinazione dei gruppi più coerenti viene eseguita rapidamente utilizzando un'efficiente [[hash table]] implementazione della [[trasformata di Hough]] generalizzata. Ogni gruppo di 3 o più caratteristiche che concordano su un oggetto e la sua posizione è poi oggetto di ulteriori verifiche e, successivamente, i peggiori vengono scartati. Infine, viene calcolata la probabilità che un determinato insieme di caratteristiche indica la presenza di un oggetto, dando la precisione di adattamento e il numero di probabili corrispondenze errate. Gli oggetti trovati che passano tutte queste prove possono essere identificati come corretti con elevata affidabilità<ref name="lowe04">Lowe, D. G., “Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer Vision, 60, 2, pp. 91-110, 2004.</ref>.