[[File:ImageNet_error_rate_history_(just_systems).svg|thumb|Andamento storico del tasso di errore nelle diverse edizioni dell'ILSVRC dal 2011 al 2016: nel grafico sono riportati i migliori risultati ottenuti ogni anno da diverse squadre (fino ad un massimo di 10 per anno)]]
La competizione '''ILSVRC''' è nata seguendo le orme della PASCAL VOC, altra competizione sul riconoscimento di oggetti indetta nel 2005, dove tuttavia veniva preso in considerazione un dataset costituito da appena 20.000 immagini su 20 classi di oggetti.<ref name="ILJVRC-2015" /> A partire dal 2010 la ricercatrice Fei-Fei Li, tra i principali esponenti del progetto ImageNet, propose al team di PASCAL VOC di avviare una collaborazione: i team di ricerca avrebbero valutato le prestazioni dei loro algoritmi su un determinato insieme di dati, gareggiando su chi avesse ottenuto i migliori risultati in diverse gare basate sul riconoscimento di oggetti.<ref name="Gershgorn"/>
Da questa collaborazione è scaturita la competizione annuale nota oggi come ''ImageNet Large Scale Visual Recognition Competition'' (ILSVRC). Nelle diverse edizioni dell'ILSVRC viene impiegato un sottoinsieme di ImageNet, con sole 1000 categorie di immagini, incluse 90 delle 120 [[razze canine]] classificate nel dataset completo.<ref name="ILJVRC-2015" /> A partire dal 2010 si è verificato un significativo progresso nei risultati. Se nel 2011 un buon tasso di errore nella classificazione era intorno al 25%, nell'edizione della competizione del 2012, una [[rete neurale convoluzionale]] chiamata [[AlexNet]] ottenne un tasso di errore del 1615,3%; nei due anni successivi il tasso di errore è sceso a qualche punto percentuale.<ref>{{cita news|cognome=Robbins|nome=Martin|titolo=Does an AI need to make love to Rembrandt's girlfriend to make art?|url=https://www.theguardian.com/science/2016/may/06/does-an-ai-need-to-make-love-to-rembrandts-girlfriend-to-make-art|accesso=22 Giugno 2016|pubblicazione=[[The Guardian]]|date=6 Maggio 2016|lingua=en|urlarchivio=https://web.archive.org/web/20190411053004/https://www.theguardian.com/science/2016/may/06/does-an-ai-need-to-make-love-to-rembrandts-girlfriend-to-make-art}}</ref> Tali miglioramenti hanno contribuito a destare un forte interesse verso l'intellingenza artificale a livello industriale.<ref name="economist" /> Nel 2015 un team di ricercatori della [[Microsoft]] ha proposto una [[Rete neurale convoluzionale|CNN]] capace di ottenere un tasso di errore talmente basso da superare le capacità umane (entro i limiti dei compiti previsti per la ILSVRC).<ref name="microsoft2015" /><ref>{{cita news|cognome=Markoff|nome=John|titolo=A Learning Advance in Artificial Intelligence Rivals Human Abilities|url=https://www.nytimes.com/2015/12/11/science/an-advance-in-artificial-intelligence-rivals-human-vision-abilities.html|accesso=22 Giugno 2016|pubblicazione=[[The New York Times]]|data=10 Dicembre 2015|lingua=en}}</ref> Tuttavia, come ha puntualizzato Olga Russakovsky, tra le organizzatrici della competizione, i software si limitano ad identificare gli oggetti contenuti in un'immagine tra poche migliaia di categorie, mentre un essere umano ha la capacità di riconoscere un oggetto tra un numero notevolmente maggiore di categorie e può, a differenza dei software, contestualizzare un'immagine.<ref>{{cita news|cognome=Aron|nome=Jacob|titolo=Forget the Turing test – there are better ways of judging AI|url=https://www.newscientist.com/article/dn28206-forget-the-turing-test-there-are-better-ways-of-judging-ai/|accesso=22 Giugno 2016|pubblicazione=[[New Scientist]]|data=21 Settembre 2015|lingua=en|urlarchivio=https://web.archive.org/web/20190411052401/https://www.newscientist.com/article/dn28206-forget-the-turing-test-there-are-better-ways-of-judging-ai/}}</ref>