Fine-tuning (deep learning): differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
+arg |
Nessun oggetto della modifica Etichetta: Modifica inattesa del template:Bozza |
||
Riga 1:
== Fine-tuning degli LLM ==
In ''deep learning'', il '''fine-tuning''' è una pratica di [https://en.wikipedia.org/wiki/Transfer_learning Transfer learning] utilizzata per adattare un [[Modello linguistico di grandi dimensioni|modello pre-addestrato]] (spesso tramite [https://en.wikipedia.org/wiki/Self-supervised_learning self-supervised learning]) a un compito specifico. Questo avviene mediante un ulteriore addestramento su un insieme di dati più piccolo e mirato. Nel contesto dell'[[Elaborazione del linguaggio naturale|NLP]], il fine-tuning è ampiamente utilizzato per specializzare modelli linguistici pre-addestrati, come [https://it.wikipedia.org/wiki/BERT BERT] o [https://en.wikipedia.org/wiki/Generative_pre-trained_transformer GPT]], su compiti specifici quali la [https://en.wikipedia.org/wiki/Document_classification Classificazione del testo], la [[Traduzione automatica]] o la generazione controllata di testi.<ref>Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. ACL.</ref>
== Esempi di applicazione ==
Tra gli esempi più rilevanti di fine-tuning figurano modelli come '''BERT''' (''Bidirectional Encoder Representations from Transformers''), che
== Tecniche di fine-tuning ==
Durante il fine-tuning, la scelta degli [https://en.wikipedia.org/wiki/Hyperparameter_(machine_learning) iperparametri] è cruciale. Un '''learning rate''' troppo alto può causare instabilità, mentre uno troppo basso può rallentare la convergenza. Tecniche come il '''mixed precision training''' e il '''gradient accumulation''' sono spesso utilizzate per ottimizzare l'uso della memoria e accelerare l'addestramento.<ref>Micikevicius, P., et al. (2018). Mixed Precision Training. ICLR.</ref> Inoltre, il rischio di [[Overfitting]] può essere mitigato tramite tecniche di regolarizzazione e [https://en.wikipedia.org/wiki/Early_stopping early stopping].
== Vantaggi e rischi ==
Il fine-tuning degli [[Modelli linguistici di grandi dimensioni|LLM]] ha reso disponibili tecnologie linguistiche avanzate anche in contesti aziendali e accademici con risorse limitate, consentendo un uso efficace e mirato dei modelli pre-addestrati.<ref>Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the Opportunities and Risks of Foundation Models. arXiv:2108.07258.</ref>
== Note ==
|