Fine-tuning (deep learning)

Versione del 16 mar 2025 alle 18:20 di Michele Chini (discussione | contributi) (Nuova pagina: {{Bozza|arg=|arg2=|ts={{subst:LOCALTIMESTAMP}}|wikidata=}}<!-- IMPORTANTE: NON CANCELLARE QUESTA RIGA, SCRIVERE SOTTO --> == Fine-tuning degli LLM == Il '''fine-tuning degli LLM''' (''Large Language Models'', modelli linguistici di grandi dimensioni) è un processo che consiste nell'adattare modelli pre-addestrati su grandi quantità di dati a compiti specifici mediante un ulteriore addestramento mirato<ref>Howard, J., & Ruder, S. (2018). Universal Language Model...)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)

Fine-tuning degli LLM

Il fine-tuning degli LLM (Large Language Models, modelli linguistici di grandi dimensioni) è un processo che consiste nell'adattare modelli pre-addestrati su grandi quantità di dati a compiti specifici mediante un ulteriore addestramento mirato[1]. Questo procedimento permette al modello di apprendere caratteristiche peculiari del dominio o della lingua desiderata, migliorando significativamente le prestazioni su attività quali classificazione del testo, traduzione automatica e generazione controllata di testi[2].

Esempi di applicazione

Tra gli esempi più rilevanti di fine-tuning figurano modelli come BERT (Bidirectional Encoder Representations from Transformers), che evidenziano come un addestramento aggiuntivo possa incrementare notevolmente l'accuratezza del modello[3]. Analogamente, modelli generativi quali GPT (Generative Pre-trained Transformer), sviluppati da OpenAI, sono frequentemente oggetto di fine-tuning per specifiche applicazioni, come assistenti virtuali e strumenti educativi[4].

Tecniche di fine-tuning

Le tecniche comuni includono l'integrazione di dati specifici del compito e l'aggiustamento dei parametri mediante back-propagation con tassi di apprendimento inferiori rispetto al pre-addestramento iniziale[5][6]. Tecniche più recenti, come LoRA (Low-Rank Adaptation), permettono una notevole riduzione del costo computazionale, rendendo più accessibile il fine-tuning di modelli molto grandi[7].

Vantaggi e rischi

Il fine-tuning degli LLM ha reso disponibili tecnologie linguistiche avanzate anche in contesti aziendali e accademici con risorse limitate, consentendo un uso efficace e mirato dei modelli pre-addestrati[8]. Tuttavia, è necessario prestare attenzione al rischio di overfitting, che potrebbe ridurre la capacità di generalizzazione del modello[9].

Note

  1. ^ Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. ACL.
  2. ^ Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
  3. ^ Devlin et al., 2019.
  4. ^ Radford, A., Wu, J., Child, R., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
  5. ^ Howard & Ruder, 2018.
  6. ^ Liu, Y., Ott, M., Goyal, N., et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692.
  7. ^ Hu, E. J., Shen, Y., Wallis, P., et al. (2022). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
  8. ^ Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the Opportunities and Risks of Foundation Models. arXiv:2108.07258.
  9. ^ Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.