AlexNet: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Recupero di 2 fonte/i e segnalazione di 0 link interrotto/i.) #IABot (v2.0.9.5
 
(2 versioni intermedie di 2 utenti non mostrate)
Riga 1:
'''AlexNet''' è un modello di [[rete neurale convoluzionale]] (CNN) [[apprendimento profondo|profonda]] progettata dai [[dottorato di ricerca|dottorandi]] [[Alex Krizhevsky]] e [[Ilya Sutskever]], sotto la supervisione di [[Geoffrey Hinton]].<ref name =":1">{{Cita web|url=https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/|titolo=The data that transformed AI research—and possibly the world|nome=Dave|cognome=Gershgorn|sito=Quartz|data=26 luglio 2017 }}</ref><ref name=":0">{{Cita pubblicazione|cognome1=Krizhevsky|nome1=Alex|cognome2=Sutskever|nome2=Ilya|cognome3=Hinton|nome3=Geoffrey E.|data=24 maggio 2017|titolo=ImageNet classification with deep convolutional neural networks|url=https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf|rivista=Communications of the ACM|volume=60|numero=6|pp=84–9084-90|doi=10.1145/3065386|issn=0001-0782}}</ref>
 
AlexNet rappresentò un significativo avanzamento nel riconoscimento automatico delle immagini. Nella [[ImageNet|ImageNet Large Scale Visual Recognition Challenge]] del 2012<ref name =":2">{{Cita web|url=https://image-net.org/challenges/LSVRC/2012/results.html|titolo=ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)|sito=image-net.org}}</ref> AlexNet ottenne un errore top-5 del 15.3%, oltre 10.8 punti percentuali in meno del secondo classificato. La profondità del modello risultò essenziale per la qualità dei risultati, e il problema dell'elevato costo computazionale venne aggirato eseguendo l'addestramento del modello su due [[GPU]] in parallelo.<ref name=":0" />
Riga 7:
== Architettura ==
 
AlexNet ha otto livelli: i primi cinque livelli sono convoluzionali, alcuni facendo uso di max-pooling, mentre gli ultimi tre livelli sono completamente connessi. Ad eccezione dell'ultimo livello, il resto della rete era diviso in due copie, eseguite separatamente in due GPU.<ref name=":0" /> La rete usa la funzione di attivazione [[Rettificatore (reti neurali)|ReLU]], che dimostrò migliori risultati rispetto a funzioni tradizionali come la [[funzione sigmoidea]] e la [[tangente iperbolica]].<ref name=":0" />
 
La struttura è la seguente:
Riga 22:
== Precursori ==
 
Un'implementazione di CNN accelerata tramite GPU, pubblicata da K. Chellapilla et al. nel 2006, mostrò tempi di esecuzione circa quattro volte più veloci rispetto ad esecuzione su CPU.<ref>{{Cita libro|autore1=Kumar Chellapilla |titolo=Tenth International Workshop on Frontiers in Handwriting Recognition |autore2=Sidd Puri |autore3=Patrice Simard |data=2006 |editore=Suvisoft |curatore1=Guy Lorette |capitolo=High Performance Convolutional Neural Networks for Document Processing |urlcapitolo=https://hal.inria.fr/inria-00112631/document |dataarchivio=14 marzo 2016}}</ref> Dan Cireșan et al. pubblicarono nel 2011 un articolo con i risultati della loro CNN, la cui velocità su GPU era 60 volte maggiore rispetto a quella su CPU,<ref name="flexible">{{Cita pubblicazione|cognome=Cireșan|nome=Dan|autore2=Ueli Meier |autore3=Jonathan Masci |autore4=Luca M. Gambardella |autore5=Jurgen Schmidhuber |titolo=Flexible, High Performance Convolutional Neural Networks for Image Classification|rivista=Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two|anno=2011|volume=2|pp=1237–12421237-1242|url=http://www.idsia.ch/~juergen/ijcai2011.pdf|accesso=17 novembre 2013}}</ref><ref>{{Cita web|url=http://benchmark.ini.rub.de/?section=gtsrb&subsection=results|titolo=IJCNN 2011 Competition result table|sito=OFFICIAL IJCNN2011 COMPETITION|lingua=en|accesso=14 gennaio 2019|data=2010}}</ref> vinse quattro competizioni nel settore del riconoscimento delle immagini<ref>{{Cita web|url=http://people.idsia.ch/~juergen/computer-vision-contests-won-by-gpu-cnns.html|cognome1=Schmidhuber|nome1=Jürgen|titolo=History of computer vision contests won by deep CNNs on GPU|lingua=en|accesso=14 gennaio 2019|data=17 marzo 2017}}</ref><ref name="schdeepscholar">{{Cita pubblicazione|cognome1=Schmidhuber|nome1=Jürgen|titolo=Deep Learning|rivista=Scholarpedia|url=http://www.scholarpedia.org/article/Deep_Learning|data=2015|volume=10|numero=11|pp=1527–541527-54|pmid=16764513|doi=10.1162/neco.2006.18.7.1527}}</ref> e avanzò lo stato dell'arte nel riconoscimento delle immagini.<ref name="mcdns">{{Cita libro|cognome1=Cireșan |nome1=Dan |nome2=Ueli |cognome2=Meier |nome3=Jürgen |cognome3=Schmidhuber |titolo=Multi-column deep neural networks for image classification |rivista=2012 IEEE Conference on Computer Vision and Pattern Recognition |data=giugno 2012 |pp=3642–36493642-3649 |doi=10.1109/CVPR.2012.6248110 |arxiv=1202.2745 |isbn=978-1-4673-1226-4 |oclc=812295155 |editore=[[Institute of Electrical and Electronics Engineers]] (IEEE) |città=New York, NY}}</ref> Gli autori di AlexNet citarono i risultati di Cireșan e menzionarono le similarità con AlexNet.<ref name=":0" />
 
Di fatto, entrambi i modelli erano varianti dell'architettura introdotta da [[Yann LeCun]] et al. nel 1989,<ref name="LeCun Boser Denker Henderson 1989 pp. 541–551">{{Cita pubblicazione |cognome=LeCun |nome=Y. |cognome2=Boser |nome2=B. |cognome3=Denker |nome3=J. S. |cognome4=Henderson |nome4=D. |cognome5=Howard |nome5=R. E. |cognome6=Hubbard |nome6=W. |cognome7=Jackel |nome7=L. D. |titolo=Backpropagation Applied to Handwritten Zip Code Recognition |rivista=Neural Computation |editore=MIT Press - Journals |volume=1 |numero=4 |anno=1989 |issn=0899-7667 |url=http://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf |doi=10.1162/neco.1989.1.4.541 |pp=541–551541-551 |oclc=364746139 |accesso=22 aprile 2023 |dataarchivio=10 gennaio 2020 |urlarchivio=https://web.archive.org/web/20200110090230/http://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf |urlmorto=sì }}</ref><ref name="lecun98">{{Cita pubblicazione|cognome=LeCun|nome=Yann|autore2=Léon Bottou |autore3=Yoshua Bengio |autore4=Patrick Haffner |titolo=Gradient-based learning applied to document recognition|rivista=Proceedings of the IEEE|anno=1998|volume=86|numero=11|pp=2278–23242278-2324|url=http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf|accesso=7 ottobre 2016|doi=10.1109/5.726791|dataarchivio=30 ottobre 2023|urlarchivio=https://web.archive.org/web/20231030100650/http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf|urlmorto=sì}}</ref> che applicarono la [[retropropagazione dell'errore]] all'addestramento di una variante di rete neurale convoluzionale precedentemente introdotta da [[Kunihiko Fukushima]] e nota come "[[neocognitron]]",<ref name=fukuneoscholar>{{Cita pubblicazione|cognome1= Fukushima |nome1=K. |anno=2007 |titolo=Neocognitron |rivista=Scholarpedia | volume = 2 | numero = 1|p=1717 | doi=10.4249/scholarpedia.1717| bibcode = 2007SchpJ...2.1717F }}</ref><ref name="intro">{{Cita pubblicazione|cognome=Fukushima|nome=Kunihiko|titolo=Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position|rivista=Biological Cybernetics|anno=1980|volume=36|numero=4|pp=193–202193-202|url=http://www.cs.princeton.edu/courses/archive/spr08/cos598B/Readings/Fukushima1980.pdf|accesso=16 novembre 2013|doi=10.1007/BF00344251|pmid=7370364}}</ref> successivamente estesa con l'uso di max-pooling, introdotto da J. Weng.<ref name="schdeepscholar" /><ref name="weng1993">{{Cita pubblicazione|nome1=J |cognome1=Weng |nome2=N |cognome2=Ahuja |nome3=TS |cognome3=Huang |titolo=Learning recognition and segmentation of 3-D objects from 2-D images |rivista=Proc. 4th International Conf. Computer Vision |anno=1993 |pp=121–128121-128 }}</ref>
 
== Note ==