Fine-tuning (deep learning): differenze tra le versioni

Naviga nella cronologia in modo interattivo

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 18:20, 16 mar 2025 modifica Michele Chini (discussione \| contributi) 4 modifiche ←Nuova pagina: {{Bozza\|arg=\|arg2=\|ts={{subst:LOCALTIMESTAMP}}\|wikidata=}}<!-- IMPORTANTE: NON CANCELLARE QUESTA RIGA, SCRIVERE SOTTO --> == Fine-tuning degli LLM == Il '''fine-tuning degli LLM''' (''Large Language Models'', modelli linguistici di grandi dimensioni) è un processo che consiste nell'adattare modelli pre-addestrati su grandi quantità di dati a compiti specifici mediante un ulteriore addestramento mirato<ref>Howard, J., & Ruder, S. (2018). Universal Language Model...		Versione attuale delle 01:22, 4 set 2025 modifica annulla Capagira (discussione \| contributi) 658 modifiche m + link Etichetta: Modifica visuale
(14 versioni intermedie di 9 utenti non mostrate)
Riga 1: Il '''fine-tuning''', in [[Apprendimento profondo\|deep learning]], è una pratica di [[transfer learning]] utilizzata per adattare un [[Modello linguistico di grandi dimensioni\|modello pre-addestrato]] (spesso tramite apprendimento autosupervisionato) a un compito specifico. Questo avviene mediante un ulteriore addestramento su un insieme di dati più piccolo e mirato. Nel contesto dell'[[Elaborazione del linguaggio naturale\|NLP]], il fine-tuning è ampiamente utilizzato per specializzare modelli linguistici pre-addestrati, come [[BERT]] o [[Generative pre-trained transformer\|GPT]], su compiti specifici quali la classificazione del testo, la [[traduzione automatica]] o la generazione controllata di testi.<ref name="Howard, J. 2018">Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. ACL.</ref> ~~{{Bozza\|arg=\|arg2=\|ts=20250316171958\|wikidata=}}<!-- IMPORTANTE: NON CANCELLARE QUESTA RIGA, SCRIVERE SOTTO -->~~ ~~== Fine-tuning degli LLM ==~~ Il '''fine-tuning degli LLM''' (''Large Language Models'', modelli linguistici di grandi dimensioni) è un processo che consiste nell'adattare modelli pre-addestrati su grandi quantità di dati a compiti specifici mediante un ulteriore addestramento mirato<ref>Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. ACL.</ref>. Questo procedimento permette al modello di apprendere caratteristiche peculiari del dominio o della lingua desiderata, migliorando significativamente le prestazioni su attività quali classificazione del testo, traduzione automatica e generazione controllata di testi<ref>Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.</ref>. == Esempi di applicazione == Tra gli esempi più rilevanti di fine-tuning figurano modelli come ~~'''~~BERT~~'''~~ (''Bidirectional Encoder Representations from Transformers''), che ~~evidenziano~~mostrano come un addestramento aggiuntivo possa ~~incrementare notevolmente~~migliorare l'accuratezza del modello in determinati compiti.<ref name="Devlin">Devlin et al., 2019.</ref>. Analogamente, modelli generativi quali ~~'''~~GPT~~'''~~ (''[[Generative Pre-trained Transformer]]''), sviluppati da [[OpenAI]], sono frequentemente oggetto di fine-tuning per specifiche applicazioni, come [[Assistente virtuale\|assistenti virtuali]] e strumenti educativi.<ref>Radford, A., Wu, J., Child, R., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.</ref>. Un esempio è il fine-tuning di [[GPT-3]] su dataset specifici, che ha consentito lo sviluppo di chatbot specializzati in domini come il supporto clienti o la consulenza medica. == Tecniche di fine-tuning == LeIl ~~tecniche~~fine-tuning ~~comuni~~può ~~includono~~essere ~~l'integrazione~~applicato diin ~~dati~~diversi ~~specifici~~modi, ~~del~~a ~~compito~~seconda edelle ~~l'aggiustamento~~risorse ~~dei~~disponibili ~~parametri~~e ~~mediante~~del ~~back-propagation~~compito ~~con~~specifico. ~~tassi~~Nel di''full ~~apprendimento inferiori rispetto al pre~~fine-~~addestramento~~tuning'', ~~iniziale<ref~~tutti ~~name="Howard">Howard~~i &parametri ~~Ruder,~~del ~~2018.</ref><ref>Liu,~~modello ~~Y.,~~vengono ~~Ott~~aggiornati, ~~M.,~~mentre ~~Goyal,~~nel ~~N.,~~''partial etfine-tuning'' ~~al.~~solo ~~(2019).~~alcuni ~~RoBERTa:~~strati Avengono ~~Robustly~~addestrati, ~~Optimized~~lasciando ~~BERT~~gli ~~Pretraining~~altri ~~Approach~~congelati.<ref ~~arXiv:1907~~name="Howard, J.~~11692.<~~ 2018"/~~ref~~>. Tecniche più recenti, come ~~'''~~LoRA~~'''~~ (''Low-Rank Adaptation''), permettono ~~una~~di ~~notevole~~aggiornare ~~riduzione~~solo ~~del~~una ~~costo~~piccola ~~computazionale,~~parte ~~rendendo~~dei ~~più~~parametri ~~accessibile~~del ilmodello, ~~fine-tuning~~riducendo dinotevolmente ~~modelli~~il ~~molto~~costo ~~grandi~~computazionale.<ref>Hu~~, E. J., Shen, Y., Wallis, P.,~~ et al., (2022). LoRA: Low-Rank Adaptation of Large Language Models~~. arXiv:2106.09685~~.</ref> Altre tecniche, come il ''prefix-tuning'' e il ''prompt-tuning'', modificano solo piccole parti dell'input o del modello, rendendo il fine-tuning più efficiente.<ref>{{Cita pubblicazione \| autore = Li, X., & Liang, P. \| anno = 2021 \| titolo = Prefix-Tuning: Optimizing Continuous Prompts for Generation \| arXiv = 2101.00190 }} </ref> Durante il fine-tuning, la scelta degli [[iperparametro (apprendimento automatico)\|iperparametri]] è cruciale. Un ''learning rate'' troppo alto può causare instabilità, mentre uno troppo basso può rallentare la convergenza. Tecniche come il ''mixed precision training'' e il ''gradient accumulation'' sono spesso utilizzate per ottimizzare l'uso della memoria e accelerare l'addestramento.<ref>Micikevicius, P., et al. (2018). Mixed Precision Training. ICLR.</ref> Inoltre, il rischio di [[overfitting]] può essere mitigato tramite tecniche di regolarizzazione e [[early stopping]]. == Vantaggi e rischi == Il fine-tuning degli [[Modello linguistico di grandi dimensioni\|LLM]] ha reso disponibili tecnologie linguistiche avanzate anche in contesti aziendali e accademici con risorse limitate, consentendo un uso efficace e mirato dei modelli pre-addestrati~~<ref>Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the Opportunities and Risks of Foundation Models. arXiv:2108.07258~~.</ref>.{{Cita Tuttavia, è necessario prestare attenzione al rischio di overfitting, che potrebbe ridurre la capacità di generalizzazione del modello<ref>Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.</ref>.pubblicazione \| autore = Bommasani, R., Hudson, D. A., Adeli, E., et al. \| anno = 2021 \| titolo = On the Opportunities and Risks of Foundation Models \| arXiv = 2108.07258 }}</ref> Tuttavia, è necessario prestare attenzione al rischio di overfitting, che potrebbe ridurre la capacità di generalizzazione del modello.<ref>Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.</ref> Inoltre, il fine-tuning può portare al cosiddetto "catastrophic forgetting", dove il modello dimentica le conoscenze apprese durante il [[Pre-training (apprendimento automatico)\|pre-training]]. Problemi etici, come il [[Bias induttivo\|bias]] nei dati di fine-tuning, rappresentano un ulteriore rischio da considerare. == Note == <references/> == Altri progetti == {{interprogetto}} == Collegamenti esterni == * {{cita web\|url=https://www.ibm.com/it-it/think/topics/fine-tuning\|titolo=Che cos'è la messa a punto?\|autore=Dave Bergmann\|data=15 marzo 2024}} {{Apprendimento automatico}} {{Controllo di autorità}} {{Portale\|informatica}} [[Categoria:Apprendimento automatico]]