In context learning: differenze tra le versioni

Naviga nella cronologia in modo interattivo

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 16:38, 8 apr 2025 modifica Michele Chini (discussione \| contributi) 4 modifiche Creazione pagina wikipedia In-context learning		Versione attuale delle 14:24, 1 mag 2025 modifica annulla Messbot (discussione \| contributi) Bot 1 067 631 modifiche →top: +O Etichetta: AWB
(4 versioni intermedie di 4 utenti non mostrate)
Riga 1: {{O\|linguistica\|maggio 2025}} ~~== In-context learning ==~~ {{W\|linguistica\|aprile 2025}} ~~L’In~~L{{'}}'''In-context learning''' ('''apprendimento contestuale''' in italiano) è una capacità dei modelli linguistici avanzati, come i transformer, di apprendere rapidamente nuovi compiti basandosi esclusivamente sul contesto fornito nel prompt, senza necessità di ulteriori aggiornamenti dei parametri interni del modello ([[Fine-tuning LLM\|fine-tuning]]). Questa forma di apprendimento è emersa chiaramente con l’introduzione di modelli come [[GPT-3]], dove pochi esempi forniti nel testo in ingresso consentono al modello di generalizzare e risolvere compiti specifici in modalità few-shot (pochi esempi) o addirittura zero-shot (nessun esempio)<ref>Brown et al. (2020), “Language Models are Few-Shot Learners” (NeurIPS 2020)</ref>. == Funzionamento == Nel contesto ~~dell’In~~dell’''In-context learning'', il [[Modello linguistico di grandi dimensioni\|modello linguistico]] utilizza gli esempi contenuti nel prompt per inferire implicitamente le regole o i pattern necessari per svolgere il compito richiesto. Ad esempio, fornendo al modello alcune frasi tradotte in lingue diverse, esso può apprendere rapidamente a tradurre nuove frasi senza aver ricevuto un addestramento specifico su quella particolare coppia linguistica<ref>Min et al. (2022), “Rethinking the Role of Demonstrations: What Makes In-context Learning Work?” (EMNLP 2022)</ref>.▼ ▲Nel contesto dell’In-context learning, il [[Modello linguistico di grandi dimensioni\|modello linguistico]] utilizza gli esempi contenuti nel prompt per inferire implicitamente le regole o i pattern necessari per svolgere il compito richiesto. Ad esempio, fornendo al modello alcune frasi tradotte in lingue diverse, esso può apprendere rapidamente a tradurre nuove frasi senza aver ricevuto un addestramento specifico su quella particolare coppia linguistica<ref>Min et al. (2022), “Rethinking the Role of Demonstrations: What Makes In-context Learning Work?” (EMNLP 2022)</ref>. == Rilevanza == ~~L’In~~L’''In-context learning'' è rilevante perché imita la capacità umana di apprendere rapidamente da pochi esempi, permettendo ai modelli di essere flessibili e adattabili<ref>Wei et al. (2022), “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (NeurIPS 2022)</ref>. Ciò consente l’applicazione dei modelli linguistici a una varietà di compiti diversi senza la necessità di dataset estesi e specificamente etichettati, risparmiando risorse e tempo.▼ ▲L’In-context learning è rilevante perché imita la capacità umana di apprendere rapidamente da pochi esempi, permettendo ai modelli di essere flessibili e adattabili<ref>Wei et al. (2022), “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (NeurIPS 2022)</ref>. Ciò consente l’applicazione dei modelli linguistici a una varietà di compiti diversi senza la necessità di dataset estesi e specificamente etichettati, risparmiando risorse e tempo. == Sfide e limiti == Nonostante i benefici, ~~l’In~~l’''In-context learning'' presenta sfide importanti. Una delle principali è la sensibilità al prompt: piccole modifiche nella formulazione degli esempi possono significativamente alterare le risposte generate dal modello<ref>Zhao et al. (2021), “Calibrate Before Use: Improving Few-Shot Performance of Language Models” (ICML 2021)</ref>. Inoltre, la capacità di generalizzazione non è sempre garantita, e i modelli possono fallire in compiti che richiedono ragionamenti complessi o conoscenze approfondite non esplicitamente presenti nel prompt fornito<ref>Lu et al. (2022), “Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity” (ACL 2022)</ref>. Infine, i modelli sono spesso limitati dalla dimensione della finestra di contesto, che definisce quante informazioni possono essere elaborate contemporaneamente<ref>Liu et al. (2023), “Lost in the Middle: How Language Models Use Long Contexts” (ACL 2023)</ref>.▼ ▲Nonostante i benefici, l’In-context learning presenta sfide importanti. Una delle principali è la sensibilità al prompt: piccole modifiche nella formulazione degli esempi possono significativamente alterare le risposte generate dal modello<ref>Zhao et al. (2021), “Calibrate Before Use: Improving Few-Shot Performance of Language Models” (ICML 2021)</ref>. Inoltre, la capacità di generalizzazione non è sempre garantita, e i modelli possono fallire in compiti che richiedono ragionamenti complessi o conoscenze approfondite non esplicitamente presenti nel prompt fornito<ref>Lu et al. (2022), “Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity” (ACL 2022)</ref>. Infine, i modelli sono spesso limitati dalla dimensione della finestra di contesto, che definisce quante informazioni possono essere elaborate contemporaneamente<ref>Liu et al. (2023), “Lost in the Middle: How Language Models Use Long Contexts” (ACL 2023)</ref>. Pertanto, l’In-context learning rappresenta un importante passo avanti verso modelli linguistici più versatili, ma la comprensione completa del suo funzionamento e delle sue limitazioni rimane una sfida aperta nella ricerca contemporanea. == Note == <references/> == Voci correlate == * [[Modello linguistico]] * [[Transformer (modello linguistico)]] * [[Apprendimento automatico]] * [[GPT-3]] {{portale\|linguistica}} [[Categoria:Apprendimento automatico]]