ChatGPT: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
m Annullata la modifica 136626567 di M7 (discussione) perchè no?
Etichetta: Annulla
Nessun oggetto della modifica
Riga 19:
 
== Descrizione ==
ChatGPT è un modello di linguaggio sviluppato daronaldo piu forte di messi chatgptda [[OpenAI]], messo a punto con tecniche di [[apprendimento automatico]] (di tipo [[Apprendimento non supervisionato|non supervisionato]]) e ottimizzato con tecniche di apprendimento [[Apprendimento supervisionato|supervisionato]] e [[Apprendimento per rinforzo|per rinforzo]]<ref>{{Cita pubblicazione|nome=Stiennon,|cognome=Nisan|nome2=Ouyang,|cognome2=Long|nome3=Wu,|cognome3=Jeffrey|data=2020|titolo=Learning to summarize with human feedback|rivista=Advances in Neural Information Processing Systems|volume=33|lingua=en|accesso=23 dicembre 2022|url=https://proceedings.neurips.cc/paper/2020/hash/1f89885d556929e98d3ef9b86448f951-Abstract.html|urlarchivio=https://web.archive.org/web/20221223095638/https://proceedings.neurips.cc/paper/2020/hash/1f89885d556929e98d3ef9b86448f951-Abstract.html|urlmorto=no}}</ref><ref>{{Cita pubblicazione|nome=Leo|cognome=Gao|nome2=John|cognome2=Schulman|nome3=Jacob|cognome3=Hilton|data=19 ottobre 2022|titolo=Scaling Laws for Reward Model Overoptimization|lingua=en|rivista=arXiv:2210.10760 [cs, stat]|accesso=23 dicembre 2022|url=http://arxiv.org/abs/2210.10760|urlarchivio=https://web.archive.org/web/20221220010617/https://arxiv.org/abs/2210.10760|urlmorto=no}}</ref>, elaborato per essere utilizzato come base per la creazione di altri modelli di machine learning. ChatGPT è stato addestrato a partire dai modelli Instruct GPT o GPT-3.5<ref>{{Cita web|url=https://beta.openai.com/|titolo=OpenAI API|sito=beta.openai.com|lingua=en|accesso=23 dicembre 2022|urlarchivio=https://web.archive.org/web/20221223073027/https://beta.openai.com/|urlmorto=no}}</ref> di [[OpenAI]], che sono l'evoluzione dei modelli di [[GPT-3]]. Gli Instruct GPT (come code-davinci-002, text-davinci-002, text-davinci-003<ref>{{Cita web|url=https://smartstrategy.eu/intelligenza-artificiale/esce-text-davinci-3-il-nuovo-modello-di-gpt-3-by-openai/|titolo=Esce "text-davinci-3" il nuovo modello di GPT-3 by OpenAI|autore=Paolo Artoni|sito=SMarT Strategy, Marketing & Technology|data=29 novembre 2022|lingua=it|accesso=23 dicembre 2022|urlarchivio=https://web.archive.org/web/20221223095638/https://smartstrategy.eu/intelligenza-artificiale/esce-text-davinci-3-il-nuovo-modello-di-gpt-3-by-openai/|urlmorto=no}}</ref>) sono modelli in cui il pre-addestramento è stato ottimizzato manualmente da addestratori umani. Nello specifico ChatGPT è stato sviluppato da un [[GPT-3|GPT-3.5]] utilizzando l'[[apprendimento supervisionato]] e l'[[apprendimento per rinforzo]]<ref name="RLHFInfo">{{Cita conferenza|titolo=Augmenting Reinforcement Learning with Human Feedback|conferenza=Proceedings of the ICML Workshop on New Developments in Imitation Learning|lingua=en|autore=W. Bradley Knox e Peter Stone|url=https://www.cs.utexas.edu/~pstone/Papers/bib2html-links/ICML_IL11-knox.pdf|accesso=10 marzo 2023|urlarchivio=https://web.archive.org/web/20221208070948/https://www.cs.utexas.edu/~pstone/Papers/bib2html-links/ICML_IL11-knox.pdf|urlmorto=no}}</ref>. Il 14 marzo 2023 è stata annunciata l'introduzione di [[GPT-4]], un [[modello multimodale]] su larga scala che può accettare input di immagini, video, audio e testo e produrre output di testo<ref>{{Cita web|url=https://openai.com/research/gpt-4|titolo=GPT-4|sito=openai.com|lingua=en}}</ref><ref>{{Cita web|url=https://cdn.openai.com/papers/gpt-4.pdf|titolo=GPT-4 Technical Report|titolotradotto=Report tecnico di GPT-4|lingua=en|formato=PDF|pp=98}}</ref>.
 
ChatGPT è stato lanciato il 30 novembre 2022<ref name="openai.com">{{Cita web|url=https://openai.com/blog/chatgpt/|titolo=ChatGPT: Optimizing Language Models for Dialogue|sito=OpenAI|data=30 novembre 2022|lingua=en|accesso=23 dicembre 2022|urlarchivio=https://web.archive.org/web/20221130180912/https://openai.com/blog/chatgpt/|urlmorto=no}}</ref> e ha attirato l'attenzione per le sue risposte dettagliate e articolate, anche se la sua accuratezza è stata criticata. Sia l'apprendimento supervisionato che quello per rinforzo si sono serviti di istruttori umani per migliorare le prestazioni del modello. Nel primo caso il modello è stato alimentato con conversazioni nelle quali gli istruttori interpretavano entrambe le parti: l'utente e l'assistente basato su [[intelligenza artificiale]]. Nella fase di rinforzo gli istruttori umani hanno prima valutato le risposte che il modello aveva dato nella conversazione precedente. Queste valutazioni sono state usate per creare "modelli di ricompensa" sui quali il modello è stato perfezionato, utilizzando diverse iterazioni di ''[[Proximal Policy Optimization]]'' (PPO)<ref name="OpenAIInfo">{{Cita web|url=https://openai.com/blog/chatgpt/|titolo=ChatGPT: Optimizing Language Models for Dialogue|lingua=en|autore=[[OpenAI]]|accesso=5 dicembre 2022|urlarchivio=https://web.archive.org/web/20221130180912/https://openai.com/blog/chatgpt/|urlmorto=no}}</ref><ref name=":1">{{Cita web|url=https://www.theverge.com/2022/12/8/23499728/ai-capability-accessibility-chatgpt-stable-diffusion-commercialization|titolo=ChatGPT proves AI is finally mainstream — and things are only going to get weirder|lingua=en|sito=[[The Verge (sito web)|The Verge]]|accesso=8 dicembre 2022|urlarchivio=https://web.archive.org/web/20230111214453/https://www.theverge.com/2022/12/8/23499728/ai-capability-accessibility-chatgpt-stable-diffusion-commercialization|urlmorto=no}}</ref>. Gli algoritmi di Proximal Policy Optimization presentano un vantaggio su algoritmi di Trust Region Policy Optimization annullando molte operazioni computazionalmente costose con prestazioni migliori<ref>{{Cita web|url=https://towardsdatascience.com/proximal-policy-optimization-ppo-explained-abed1952457b|titolo=Proximal Policy Optimization (PPO) Explained|lingua=en|accesso=5 dicembre 2022|urlarchivio=https://web.archive.org/web/20221206041724/https://towardsdatascience.com/proximal-policy-optimization-ppo-explained-abed1952457b|urlmorto=no}}</ref>. I modelli sono stati addestrati in collaborazione con [[Microsoft]] sulla sua infrastruttura ''[[Cloud computing|cloud]]'' [[Microsoft Azure|Azure]]<ref>{{Cita web|url=https://learn.microsoft.com/en-us/azure/cognitive-services/openai/concepts/models|titolo=Azure OpenAI Service models - Azure OpenAI|autore=ChrisHMSFT|sito=learn.microsoft.com|lingua=en-us}}</ref>.