Fine-tuning (deep learning): differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
fix ref con link arXiv
Riga 5:
 
== Tecniche di fine-tuning ==
Il fine-tuning può essere applicato in diversi modi, a seconda delle risorse disponibili e del compito specifico. Nel ''full fine-tuning'', tutti i parametri del modello vengono aggiornati, mentre nel ''partial fine-tuning'' solo alcuni strati vengono addestrati, lasciando gli altri congelati.<ref>Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. ACL.</ref> Tecniche più recenti, come LoRA (''Low-Rank Adaptation''), permettono di aggiornare solo una piccola parte dei parametri del modello, riducendo notevolmente il costo computazionale.<ref>Hu et al., 2022. LoRA: Low-Rank Adaptation of Large Language Models.</ref> Altre tecniche, come il ''prefix-tuning'' e il ''prompt-tuning'', modificano solo piccole parti dell'input o del modello, rendendo il fine-tuning più efficiente.<ref>{{Cita pubblicazione
| autore = Li, X., & Liang, P.
| anno = (2021).
| titolo = Prefix-Tuning: Optimizing Continuous Prompts for Generation.
| arXiv: = 2101.00190.
}}
</ref>
 
Durante il fine-tuning, la scelta degli [[iperparametro (apprendimento automatico)|iperparametri]] è cruciale. Un ''learning rate'' troppo alto può causare instabilità, mentre uno troppo basso può rallentare la convergenza. Tecniche come il ''mixed precision training'' e il ''gradient accumulation'' sono spesso utilizzate per ottimizzare l'uso della memoria e accelerare l'addestramento.<ref>Micikevicius, P., et al. (2018). Mixed Precision Training. ICLR.</ref> Inoltre, il rischio di [[overfitting]] può essere mitigato tramite tecniche di regolarizzazione e [[early stopping]].
 
== Vantaggi e rischi ==
Il fine-tuning degli [[Modello linguistico di grandi dimensioni|LLM]] ha reso disponibili tecnologie linguistiche avanzate anche in contesti aziendali e accademici con risorse limitate, consentendo un uso efficace e mirato dei modelli pre-addestrati.<ref>{{Cita pubblicazione
| autore = Bommasani, R., Hudson, D. A., Adeli, E., et al.
| anno = (2021).
| titolo = On the Opportunities and Risks of Foundation Models.
| arXiv: = 2108.07258.
}}</ref> Tuttavia, è necessario prestare attenzione al rischio di overfitting, che potrebbe ridurre la capacità di generalizzazione del modello.<ref>Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.</ref> Inoltre, il fine-tuning può portare al cosiddetto "catastrophic forgetting", dove il modello dimentica le conoscenze apprese durante il [[Pre-training (apprendimento automatico)|pre-training]]. Problemi etici, come il [[Bias induttivo|bias]] nei dati di fine-tuning, rappresentano un ulteriore rischio da considerare.
 
== Note ==