Apprendimento per trasferimento

L'apprendimento per trasferimento (o transfer learning) è una tecnica di apprendimento automatico in cui la conoscenza appresa per lo svolgimento di un compito attività viene riutilizzata per migliorare le prestazioni in uno correlato.[1] Ad esempio, nella classificazione delle immagini, la conoscenza acquisita nell'imparare a riconoscere le auto potrebbe essere applicata quando si cerca di riconoscere i camion. Questo argomento è correlato alla letteratura sul trasferimento dell'apprendimento psicologia, sebbene i legami pratici tra i due campi siano limitati. Il riutilizzo o il trasferimento di informazioni da attività imparate in precedenza a nuove attività ha il potenziale per migliorare significativamente l'efficienza dell'apprendimento.[2]

Illustrazione dell'apprendimento per trasferimento

Poiché l'apprendimento per trasferimento si avvale di un addestramento con più funzioni obiettivo, è correlato all'apprendimento sensibile ai costi e all'ottimizzazione multi-obiettivo.[3]

Nel 1976, Bozinovski e Fulgosi pubblicarono un articolo[4] sull'apprendimento per trasferimento nell'addestramento delle reti neurali. L'articolo fornisce un modello matematico e geometrico sul tema. Nel 1981, un rapporto prese in esame l'applicazione dell'apprendimento per trasferimento a un dataset di immagini che rappresentavano lettere di terminali di computer, dimostrando sperimentalmente l'apprendimento per trasferimento positivo e negativo.[5]

Nel 1992, Lorien Pratt ha formulato l'algoritmo di trasferimento basato sulla discriminabilità (DBT).[6]

Intorno al 1998, la tecnica è maturata giungendo alla formalizzazione dei suoi fondamenti teorici [7], arrivando a ricomprendere anche l'apprendimento multi-task.[8] Sono stati pubblicati lavori significativi sull'apprendimento per trasferimento fra i quali figurano il libro Learning to Learn del 1998,Thrun Pratt, 2012 e due rassegne della letteratura scientifica dedicate al tema datate 2009 [9] e 2019.[10]

Nel suo tutorial tenuto in occasione della NIPS 2016 [11][12] Andrew Ng ha sostenuto che l'apprendimento per trasferimento sarebbe diventato il prossimo motore del successo commerciale dell'apprendimento automatico, dopo l'apprendimento supervisionato.

Nell'articolo del 2020, "Rethinking Pre-Training and self-training",[13] Zoph et al. sostengono che il pre-addestramento può compromettere la precisione e promuovono invece l'auto-addestramento (self-training).

Definizione

modifica

La definizione di apprendimento per trasferimento è data in termini di domini e compiti. Un dominio   consiste in: uno spazio di caratteristiche   e una distribuzione di probabilità marginale  , dove  . Dato un dominio specifico,  , un compito è composto da uno spazio di etichette   e una funzione-obiettivo  . La funzione   viene utilizzata per predire l'etichetta   data una nuova istanza  . Questo compito, indicato da  , viene appreso dai dati di addestramento costituiti da coppie  , dove   e  

Dato un dominio sorgente   e compito di apprendimento  , un dominio di destinazione   e compito di apprendimento  , dove  , O  , l'apprendimento per trasferimento mira a migliorare l'apprendimento della funzione-obiettivo   in   utilizzando la conoscenza in   e  

Applicazioni

modifica

Sono disponibili algoritmi di apprendimento per trasferimento su reti logiche di Markov e reti bayesiane. L'apprendimento per trasferimento è stato applicato alla scoperta di sottotipi di cancro,[14] all'utilizzo degli edifici,[15][16] ai giochi, alla classificazione del testo,[17][18] al riconoscimento delle cifre,[19] all'imaging medico e al contrasto allo spam.[20]

Nel 2020, si è scoperto che, grazie alla loro natura fisica simile, è possibile l'apprendimento per trasferimento tra segnali elettromiografici (EMG) provenienti dai muscoli e la classificazione dei comportamenti delle onde cerebrali elettroencefalografiche (EEG), dal dominio del riconoscimento dei gesti al dominio del riconoscimento degli stati mentali. È stato osservato che questa relazione funzionava in entrambe le direzioni, dimostrando che l'elettroencefalografia può essere utilizzata anche per classificare l'EMG.[21] Gli esperimenti hanno rilevato che l'accuratezza delle reti neurali e, in particolare, delle reti convoluzionali era stata migliorata [22] attraverso l'apprendimento per trasferimento sia prima di qualsiasi attività di apprendimento (rispetto alla distribuzione casuale standard dei pesi) sia alla fine del processo di apprendimento (asintoto). In altre parole, i risultati sono migliorati dopo l'esposizione a un altro dominio. Inoltre, l'utente finale di un modello per-addestrato può modificare la struttura di strati completamente connessi al fine di migliorare le prestazioni.[23]

  1. ^ (EN) J West, D Ventura, S Warnick, Spring Research Presentation: A Theoretical Foundation for Inductive Transfer, su cpms.byu.edu, 2007. URL consultato il 5 agosto 2007 (archiviato dall'url originale il 1º agosto 2007).
  2. ^ (EN) George Karimpanal, Self-organizing maps for storage and transfer of knowledge in reinforcement learning, in Adaptive Behavior, vol. 27, 2019, pp. 111–126, DOI:10.1177/1059712318818568, ISSN 1059-7123 (WC · ACNP), arXiv:1811.08318.
  3. ^ (EN) Balaji Safari, Shipeng Yu e R. Rao, Cost-Sensitive Machine Learning, 1ª ed., CRC Press, 2011, p. 63, ISBN 978-1-4398-3928-7.
  4. ^ (EN) Stevo Bozinovski, Reminder of the First Paper on Transfer Learning in Neural Networks, 1976, in Informatica, vol. 44, n. 3, 15 settembre 2020, DOI:10.31449/inf.v44i3.2828. URL consultato il 2 settembre 2025.
  5. ^ (EN) S. Bozinovski, Teaching space: A representation concept for adaptive pattern classification (PDF), in COINS Technical Report, the University of Massachusetts at Amherst,, n. 81-28.
  6. ^ L. Y. Pratt, Discriminability-Based Transfer between Neural Networks, in Advances in Neural Information Processing Systems, vol. 5, Morgan-Kaufmann, 1992. URL consultato il 3 settembre 2025.
  7. ^ Baxter, J., "Theoretical Models of Learning to Learn", pp. 71-95 Thrun Pratt, 2012
  8. ^ Caruana, R., "Multitask Learning", pp. 95-134 in Thrun Pratt, 2012
  9. ^ (EN) Sinno Jialin Pan e Qiang Yang, A Survey on Transfer Learning, in IEEE Transactions on Knowledge and Data Engineering, vol. 22, n. 10, 2010-10, pp. 1345–1359, DOI:10.1109/TKDE.2009.191.
  10. ^ (EN) Fuzhen Zhuang, Zhiyuan Qi e Keyu Duan, A Comprehensive Survey on Transfer Learning, 23 giugno 2020, DOI:10.48550/arXiv.1911.02685.
  11. ^ (EN) Andrew Ng, NIPS 2016 tutorial: "Nuts and bolts of building AI applications using Deep Learning", su youtube.com.
  12. ^ (EN) Andrew Ng, Nuts and bolts of building AI applications using Deep Learning, slides (PDF), su media.nips.cc.
  13. ^ (EN) Barret Zoph, Golnaz Ghiasi e Tsung-Yi Lin, Rethinking Pre-training and Self-training, 15 novembre 2020, DOI:10.48550/arXiv.2006.06882.
  14. ^ (EN) Ehsan Hajiramezanali, Siamak Zamani Dadaneh e Alireza Karbalayghareh, Bayesian multi-___domain learning for cancer subtype discovery from next-generation sequencing count data, 22 ottobre 2018, DOI:10.48550/arXiv.1810.09433.
  15. ^ (EN) Irvan B. Arief-Ang, Flora D. Salim e Margaret Hamilton, DA-HOC: semi-supervised ___domain adaptation for room occupancy prediction using CO2 sensor data, in Proceedings of the 4th ACM International Conference on Systems for Energy-Efficient Built Environments, Association for Computing Machinery, 8 novembre 2017, pp. 1–10, DOI:10.1145/3137133.3137146.
  16. ^ (EN) Arief-Ang, A Scalable Room Occupancy Prediction with Transferable Time Series Decomposition of CO2 Sensor Data, in ACM Transactions on Sensor Networks, vol. 14, 2018, pp. 21:1–21:28, DOI:10.1145/3217214.
  17. ^ (EN) Chuong B. Do e Andrew Y. Ng, Transfer learning for text classification, in Advances in Neural Information Processing Systems, vol. 18, MIT Press, 2005.
  18. ^ (EN) Rajat Raina, Andrew Y. Ng e Daphne Koller, Constructing informative priors using transfer learning, in Proceedings of the 23rd international conference on Machine learning, Association for Computing Machinery, 25 giugno 2006, pp. 713–720, DOI:10.1145/1143844.1143934. URL consultato il 3 settembre 2025.
  19. ^ (EN) D. S. Maitra, U. Bhattacharya e S. K. Parui, 2015 13th International Conference on Document Analysis and Recognition (ICDAR), agosto 2015, pp. 1021–1025, DOI:10.1109/ICDAR.2015.7333916, ISBN 978-1-4799-1805-8.
  20. ^ (EN) Steffen Bickel, ECML-PKDD Discovery Challenge 2006 Overview (PDF).
  21. ^ (EN) Jordan J. Bird, Jhonatan Kobylarz e Diego R. Faria, Cross-Domain MLP and CNN Transfer Learning for Biological Signal Processing: EEG and EMG, in IEEE Access, vol. 8, 2020, pp. 54789–54801, DOI:10.1109/ACCESS.2020.2979074.
  22. ^ (EN) Durjoy Sen Maitra, Ujjwal Bhattacharya e Swapan K. Parui, 2015 13th International Conference on Document Analysis and Recognition (ICDAR), agosto 2015, pp. 1021–1025, DOI:10.1109/ICDAR.2015.7333916, ISBN 978-1-4799-1805-8.
  23. ^ (EN) H M Dipu Kabir, Moloud Abdar e Abbas Khosravi, SpinalNet: Deep Neural Network With Gradual Input, in IEEE Transactions on Artificial Intelligence, vol. 4, n. 5, 2023-10, pp. 1165–1177, DOI:10.1109/TAI.2022.3185179.

Bibliografia

modifica