Object recognition
L'Object recognition nella computer vision è la capacità di trovare un determinato oggetto in una sequenza di immagini o video. L'uomo riconosce una moltitudine di oggetti in immagini con poco sforzo, nonostante il fatto che l'immagine degli oggetti possa variare un pò in diversi punti di vista, in diversi formati/scala o rotazione. Inoltre gli oggetti possono essere riconosciuti anche quando sono parzialmente esclusi dalla vista. Questo compito è ancora una sfida per la computer vision in generale. David Lowe ha sperimentato la computer vision per l'estrazione e l'utilizzo della scala invariante SIFT in modo da rendere il riconoscimento più affidabile.
Per ogni oggetto in un'immagine, ci sono molte 'features', che sono caratteristiche interessanti dell'oggetto, le quali possono essere estratte in modo da fornire una descrizione "caratteristica" dell'oggetto. Questa descrizione estratta da una immagine campione può poi essere utilizzata per identificare l'oggetto durante il tentativo di individuare l'oggetto in una immagine di test contenente più oggetti. È importante che l'insieme di caratteristiche estratte dall'immagine campione sia insensibile a variazioni di scala delle immagini, i disturbi, l'illuminazione e distorsioni geometriche, in modo da rendere affidabile il riconoscimento. Il metodo brevettato di Lowe [1]può riconoscere gli oggetti in maniera affidabile, anche tra il disordine e con occlusione parziale perchè il metodo SIFT è indipendente dalla scala, orientamento, distorsione e parzialmente dai cambiamenti d'illuminazione [2]. Questo articolo presenta il metodo di Lowe e cita alcuni concorrenti tecniche disponibili per l'object recognition in presenza di disordine e occlusione parziale.
Metodo di David Lowe
I punti chiave SIFT degli oggetti sono prima estratti da una serie di immagini di riferimento[2] e memorizzati in un database. Un oggetto è riconosciuto in una nuova immagine confrontando singolarmente ciascun elemento della nuova immagine con quello nel database trovando quello più simile secondo la distanza euclidea delle loro caratteristiche vettoriali. Da l'intera serie di corrispondenze, insieme di punti chiave che corrispondono all'oggetto e la sua ubicazione, scala, e orientamento, sono identificate nella nuova immagine estraendo le migliori. La determinazione dei gruppi più coerenti viene eseguita rapidamente utilizzando un'efficiente hash table implementazione della trasformata di Hough generalizzata. Ogni gruppo di 3 o più caratteristiche che concordano su un oggetto e la sua posizione è poi oggetto di ulteriori verifiche e, successivamente, i peggiori vengono scartati. Infine, viene calcolata la probabilità che un determinato insieme di caratteristiche indica la presenza di un oggetto, dando la precisione di adattamento e il numero di probabili corrispondenze errate. Gli oggetti trovati che passano tutte queste prove possono essere identificati come corretti con elevata affidabilità[3].
Problema | Tecnica | Vantaggio |
---|---|---|
localizzazione / scala / rotazione | Dog / scala - spazio piramidale / assegnazione dell'orientamento | precisione, stabilità, invarianza di scala e di rotazione |
distorsione geometrica | Sfocatura / ricampionamento del piano di orientamento dell'immagine | invarianza affine |
Ricerca e indicizzazione | vicino più simile / Best Bin First search | Efficienza / velocità |
Cluster identification | voto della trasformata di Hough | Modelli affidabili |
Verifica di un modello / indivuduazione di scarto | Linear least squares | Miglior tolleranza con minor corrispondenze |
Ipotesi di accettazione | Analisi della probabilità Bayesiana | Affidabilità |
Fasi principali
Funzione di rilevamento a scala invariante
Il metodo Lowe per la generazione di un immagine caratteristica chiamata Scale Invariant Feature Transform (SIFT) trasforma l'immagine in una grande collezione di caratteristiche vettoriali, ognuna delle quali è invariante rispetto a traslazione, ridimensionamento, rotazione e, in parte rispetto all'illuminazione. Tale metodo è robusto rispetto a distorsioni geometriche. Queste caratteristiche hanno proprietà simili ai neuroni della corteccia temporale inferiore, i quali vengono utilizzati per il riconoscimento di oggetti nei sistema di visione dei primati[4].Le posizioni dei punti chiave sono definite come massimi e minimi del risultato della differencza delle Gaussiane (vedi Difference of Gaussians), di una serie di immagini ottenute col sistema spazio-scala. Vengono scartati i punti a basso contrasto e gli spigoli trovati lungo un bordo. Maggiore credibilità viene assegnata ai punti chiave localizzati. Queste fasi garantiscono che i punti chiave siano più stabili durante il riconoscimento. La solidità del metodo SIFT rispetto alla distorsione è quindi ottenuta considerando i pixel nell'intorno del punto chiave e sfocando e ricampionando l'immagine locale.
Note
- ^ (EN) US6,711,293, United States Patent and Trademark Office, Stati Uniti d'America., "Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image", David Lowe's patent for the SIFT algorithm
- ^ a b Lowe, D. G., “Object recognition from local scale-invariant features”, International Conference on Computer Vision, Corfu, Greece, September 1999.
- ^ Lowe, D. G., “Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer Vision, 60, 2, pp. 91-110, 2004.
- ^ Serre, T., Kouh, M., Cadieu, C., Knoblich, U., Kreiman, G., Poggio, T., “A Theory of Object Recognition: Computations and Circuits in the Feedforward Path of the Ventral Stream in Primate Visual Cortex”, Computer Science and Artificial Intelligence Laboratory Technical Report, December 19, 2005 MIT-CSAIL-TR-2005-082.
External links
- Lowe, D. G., “Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer Vision, 60, 2, pp. 91-110, 2004.
- David Lowe's Publications
- David Lowe's Demo Software : SIFT keypoint detector
- SURF: Speeded up robust features
- Mikolajczyk, K., and Schmid, C., "A performance evaluation of local descriptors", IEEE Transactions on Pattern Analysis and Machine Intelligence, 10, 27, pp 1615--1630, 2005.
- PCA-SIFT: A More Distinctive Representation for Local Image Descriptors
- Lazebnik, S., Schmid, C., and Ponce, J., Semi-Local Affine Parts for Object Recognition, BMVC, 2004.
- libsift: Scale Invariant Feature Transform implementation