Wikipedia:Intelligenza artificiale

Abbreviazioni: WP:IA

Nella presente linea guida, per «strumenti che fanno uso di intelligenza artificiale» si intendono i modelli linguistici di grandi dimensioni (in inglese Large Language Models, d'ora in avanti LLM) e i generatori di contenuti multimediali (ad esempio, immagini, video e musica).

Tra le applicazioni più diffuse dei modelli linguistici di grandi dimensioni figurano, per esempio, i chat bot frutto di intelligenza artificiale generativa (come ChatGPT, Gemini, Deepseek, ecc). Secondo Michael Osborne, professore di apprendimento automatico a Oxford, tali strumenti sono caratterizzati da «affidabilità limitata, abilità di comprensione limitata, autonomia limitata, e necessitano quindi di supervisione umana»^[1]. Gli LLM possono generare ricerche originali, vale a dire affermazioni non presenti su alcuna fonte attendibile, o, nei casi peggiori, "allucinazioni", ovverosia fatti inventati e non corrispondenti al vero, talora corredati da fonti falsificate o inesistenti. Gli LLM potrebbero inoltre generare affermazioni e risposte non neutrali e/o in violazione delle linee guida sulle biografie di persone viventi o di quelle sul diritto d'autore.

Per tutto quanto sopra esposto, l'uso dell'intelligenza artificiale su Wikipedia

è limitato a casistiche specifiche delineate dalla presente linea guida;
non è ammesso per la creazione da zero di nuovi contenuti originali.

Gli utenti non pienamente consapevoli dei rischi e dei limiti di tali strumenti dovrebbero evitarne completamente l'utilizzo.

L'utilizzo di LLM o di altri strumenti che facciano uso di intelligenza artificiale deve sempre essere segnalato in modo trasparente sia nell'oggetto della modifica che nella pagina di discussione della voce. È inoltre da evitare l'uso di LLM nelle interazioni con gli altri utenti, ad esempio per scrivere gli interventi in pagine di discussione, o effettuare test per sperimentare sull'enciclopedia strumenti di intelligenza artificiale.

Le stesse raccomandazioni valgono anche per l'utilizzo di strumenti che creano contenuti multimediali tramite intelligenza artificiale, in quanto le immagini e i video da essi prodotti possono contenere dettagli errati, inesistenti o assurdi.

Principali rischi

Ricerche originali e allucinazioni

Gli LLM sono programmi di pattern completion. In altre parole, generano un testo inserendo le parole che più facilmente vengono inserite dopo le precedenti. Questi schemi vengono "appresi" dai testi che vengono utilizzati per allenare gli LLM. Tra di essi vi sono testi disponibili su internet di ogni tipo, compresi testi di narrativa o di fantasia, o anche fonti poco o scarsamente attendibili, come blog o forum. Per questo motivo gli LLM a volte traggono conclusioni che, anche se possono sembrare in apparenza sensate, non sono in realtà presenti su alcuna fonte attendibile. In altri casi infine possono inventarsi cose dal nulla, creando le cosiddette "allucinazioni". Queste sono statisticamente ineliminabili. Inserire questi testi su wikipedia significa quindi inserire ricerche originali o, nel peggiore dei casi, vere e proprie bufale.

Identificare tali problemi è spesso complicato. I testi generati spesso sembrano a prima vista plausibili, e sono scritti in un tono sicuro. Spesso inoltre informazioni inventate sono inserite in mezzo ad altre informazioni vere, ragione per cui possono sfuggire facilmente a controlli superficiali. La presenza di tali problemi è tuttavia molto probabile e, anche nel caso in cui la gran parte del testo sia corretta e solo poche righe siano errate, per Wikipedia la presenza di tali parti non è accettabile, a maggior ragione se inserite in un testo a prima vista plausibile, e perciò difficili da identificare.

La qualità dei testi generati da LLM peggiora quando vengono poste loro domande su argomenti poco noti o complessi, o che richiedono vaste conoscenze e capacità analitiche. Ad esempio, alla domanda se i pademelon dai grandi denti si possano trovare nelle foreste del Queensland, gli LLM risponderanno che "Questi animali sono più difficili da osservare rispetto ad altre specie più comuni di marsupiali, ma possono essere trovati in alcune riserve naturali del Queensland", continuando poi a fornire molti dettagli al riguardo, nonostante tale specie sia inesistente. Il LLM per rispondere ha infatti preso le informazioni relative al padelemon dal collo rosso.

Uso delle fonti da parte degli LLM

Gli LLM non rispettano le linee guida di wikipedia in materia di citazione delle fonti e di verificabilità del contenuto. Buona parte di essi le esclude in toto producendo testi totalmente senza fonti. Quelli che le includono possono citare fonti non considerate attendibili su wikipedia, come blog, siti personali, o siti liberamente modificabili (come wikipedia stessa), e talvolta possono creare allucinazioni di fonti inesistenti, di cui inventano titoli, autori o indirizzi web.

Punto di vista neutrale

Gli LLM producono testi che di solito appaiono neutrali nel tono, ma che potrebbero non esserlo nei contenuti. Ad esempio potrebbero dare ingiusto rilievo a teorie e opinioni in realtà minoritarie, o potrebbero restituire esiti che non rispettano le linee guida in materia di biografie di viventi.

Violazioni del diritto d'autore

Gli LLM possono generare contenuti in violazione del diritto d'autore. In alcuni casi possono riportare alla lettera materiale coperto da diritto d'autore o generare parafrasi insufficienti. A titolo d'esempio, è probabile che qualora interrogato sul testo di un brano musicale, l'LLM lo riproduca, nonostante ciò sia una violazione di diritto d'autore. Se quello citato è un caso di facile e immediata individuazione, altre violazioni del diritto d'autore possono non essere segnalate e nascondersi in testi più lunghi. Bisogna quindi sempre controllare che il testo prodotto dagli LLM non sia stato copiato e/o sia stato riformulato a un livello sufficiente.

Tolti questi casi, la questione se i testi generati dagli LLM siano coperti o meno da copyright è aperta. Benché esistano in materia relativamente pochi casi per via della sua novità, ciononostante stanno emergendo orientamenti diversi a seconda degli ordinamenti giuridici. Negli Stati Uniti, per esempio, l'ufficio brevetti e marchi nega la possibilità di registrare opere generate da procedimenti totalmente automatici o casuali, laddove altresì nel Regno Unito ad esempio esse sono protette: infatti, in quest'ultimo caso, l'autore è considerato «[…] the person by whom the arrangements necessary for the creation of the work are undertaken» (traducibile come «[…] la persona che intraprende i preparativi necessari per la creazione dell'opera»). Se si risiede in un Paese che protegge il diritto d'autore di opere generate da macchine, è propria responsabilità evitare di pubblicare su Wikipedia tali contenuti.

La questione se l'utilizzo di questi testi sia compatibile o meno con la licenza CC-BY-SA usata da Wikipedia rimane aperta per mancanza di un numero significativo di precedenti legali. Su Wikimedia Commons è ammesso l'utilizzo del template di licenza PD-Algorithm per le immagini generate da intelligenza artificiale.

Usi ammessi e non ammessi

Gli LLM sono strumenti ausiliari che non possono sostituire il ruolo umano. Prima di impiegarli bisogna attentamente valutarne i potenziali rischi e assumersi la responsabilità di garantirne un uso corretto che rispetti le linee guida di Wikipedia. L'onere di controlli e sistemazioni non va mai scaricato sugli altri utenti.

Chi utilizza gli LLM deve innanzitutto conoscere bene il modello che sta utilizzando ed essere pienamente consapevole dei rischi connessi al loro uso e dei limiti dello strumento. Se si è privi di conoscenza approfondita del mezzo, o si ritiene che l'uso che se ne ha in mente non rispetta le linee guida di Wikipedia, è bene evitare di utilizzarlo.

Scrittura di voci

Fare copia-e-incolla di nuovi contenuti originali creati da strumenti che fanno uso di intelligenza artificiale nelle voci di Wikipedia è un comportamento da evitare tassativamente. Questi strumenti possono invece essere utilizzati per alcuni tipi di lavoro sporco, come ad esempio:

la revisione stilistica e la correzione di un testo esistente (già presente su Wikipedia o creato dall'autore);
la riformulazione di un testo;
la creazione in una propria sandbox di una prima stesura di un contenuto non discorsivo e non originale, ad esempio per la creazione di lunghe liste o tabelle in wikitesto.

Possono essere usati inoltre per suggerire idee per la scrittura di nuovi articoli o l'espansione di voci esistenti. Per le traduzioni l'uso di IA è equiparato agli strumenti di traduzione automatica: copia-e-incolla dalla versione tradotta dalla IA a wikipedia sono tassativamente da evitare, mentre è ammesso come ausilio preliminare alla traduzione, previo controllo finale. Nel caso in cui si traduca da un testo coperto da copyright, esso va in ogni caso riformulato in maniera sufficiente.

L'utente deve comunque sempre essere consapevole che gli LLM non danno garanzia di affidabilità:

qualora li si usino per fornire suggerimenti, essi potrebbero essere errati;
qualora li si usino per correggere un testo o per revisioni stilistiche, potrebbero non rilevare errori grammaticali, non comprendere quanto scritto precedentemente, o modificarne il significato;
qualora vengano usati per riformulare un testo, la riformulazione potrebbe essere insufficiente, o potrebbe essere stato alterato il significato originario;
qualora li si usino per generare liste, queste ultime potrebbero essere errate;
qualora li si usino per tradurre, potrebbe cambiare il significato originario.

È possibile chiedere agli LLM di correggere i loro stessi testi, ma anche tali correzioni potrebbero essere errate e non sostituiscono in alcun caso la necessaria revisione umana. L'utente è in ogni caso il solo responsabile del fatto che le proprie modifiche siano corrette e rispettino le linee guida di Wikipedia: l'autore deve quindi sempre valutare attentamente se il nuovo testo riformulato rispetti la verificabilità e la neutralità richieste alle voci dell'enciclopedia e che non sia stato modificato il significato del testo originale.

Nuovi testi generati da zero da tali strumenti non vanno inseriti nemmeno nel namespace bozza. Le bozze nascono come spazio in cui migliorare in modo collaborativo gli articoli per arrivare alla pubblicazione, ma la sistemazione di testi generati da zero da intelligenza artificiale non rientra negli obiettivi del namespace.

L'utilizzo di strumenti che facciano uso di Intelligenza Artificiale va sempre dichiarato nel campo oggetto della modifica e nella pagina di discussione della voce modificata.

Comunicazioni

L'impiego di LLM per comunicare con gli altri utenti va evitato: la capacità di comunicare con gli altri utenti rientra tra le competenze minime richieste per la redazione dell'enciclopedia ed è centrale nel meccanismo della scrittura sulla base del consenso. Per questo motivo commenti che non rispecchiano ciò che un utente realmente pensa costituiscono soltanto un elemento di disturbo nella discussione e sono assimilabili al trolling.

L'uso di LLM è tuttavia ammesso per riformulare propri interventi, ad esempio per sintetizzarli in modo efficace oppure per dare loro un tono più rispettoso della wikiquette.

I risultati ottenuti con strumenti di Intelligenza Artificiale inoltre non si possono usare o portare come dati di fatto o argomentazioni, sia pro che contro, nelle discussioni relative a rilevanza enciclopedica, procedure di cancellazione, valutazioni di qualità, ricerca o attendibilità di fonti o dati, verifica di neutralità e così via.

Test e strumenti semiautomatici

L'utilizzo di strumenti semiautomatici manovrati da modelli di intelligenza artificiale non è mai ammesso. L'utilizzo di LLM per tali strumenti genera infatti molto facilmente falsi positivi ed errori, che, a causa dell'elevato numero di edit in questione, è estremamente difficile e dispendioso correggere.

Wikipedia non è un banco di prova per lo sviluppo di strumenti di intelligenza artificiale: le modifiche effettuate devono essere finalizzate alla sola crescita dell'enciclopedia. Vanno evitate quindi modifiche effettuate in Ns0 allo scopo di testare questi sistemi. Eventuali test che abbiano come obiettivo il miglioramento dell'enciclopedia andranno svolti in sandbox.

Fonti prodotte da intelligenza artificiale

Le fonti che facciano uso di testi prodotti da LLM non sono considerate attendibili e il loro utilizzo su Wikipedia va evitato.

Contenuti multimediali prodotti da intelligenza artificiale

L'impiego di contenuti multimediali prodotti da intelligenza artificiale (ad esempio, immagini, video, animazioni, suoni, musica) va evitato, in quanto, come per i testi, anche questi contenuti presentano il rischio di allucinazioni o di altre alterazioni. È permesso il loro utilizzo in quanto immagini prodotte da intelligenza artificiale negli articoli relativi a tali argomenti. Tali immagini non dovranno in ogni caso raffigurare persone viventi.

Le immagini prodotte da IA vanno sempre caricate su Wikimedia Commons. Il regolamento relativo alle immagini generate da IA si trova in Commons:AI-generated media. L'IA deve figurare come autore dell'opera, indicare anche l'utente che ha fornito all'IA le istruzioni.

Tutte le immagini generate o modificate da intelligenza artificiale vanno segnalate con gli appositi template e la loro origine va segnalata nella didascalia.

Contromisure in caso di violazione

Qualsiasi contenuto generato da strumenti che fanno uso di intelligenza artificiale in violazione di questa o di altre linee guida di Wikipedia va eliminato. Voci interamente costituite da testi scritti da intelligenza artificiale in violazione di questa linea guida vengono cancellati in immediata per C3. La cancellazione può essere richiesta da qualsiasi utente attraverso l'apposizione del Template:cancella subito.

Per avvisare un utente che abbia fatto un uso non consentito di strumenti di intelligenza artificiale si possono usare Template:AvvisoIA e Template:AvvisoIA sospetta (per i casi dubbi). L'uso reiterato degli strumenti di intelligenza artificiale in modo non conforme alle linee guida può portare al blocco in scrittura dell'utente o all'apertura di una procedura di problematicità.

Come identificare testi generati da intelligenza artificiale

Il metodo principale per identificare testi scritti da IA è verificare se vi siano allucinazioni, sia nel testo (es. informazioni non vere), sia nel rapporto tra fonti e testo (con fonti che non riportano le informazioni presenti nel testi che dovrebbero fontare). In aggiunta a questo metodo "analogico", esistono anche tool automatici. Va tenuto conto che questi tool hanno a loro volta vari livelli di affidabilità e potrebbero dare sia falsi positivi che falsi negativi. Ricorda quindi che i tool automatici sono a loro volta solo un ausilio, ma che non possono essere usati da soli per determinare se un testo sia frutto di IA o meno. Per determinarlo andrà quindi sempre fatto un controllo umano, valutando elementi come la presenza di allucinazioni, la concordanza tra testo e fonti e lo stile del testo.

Note

^ (EN) Adam Smith, What is ChatGPT? And will it steal our jobs?, su context.news, Thomson Reuters Foundation, 7 febbraio 2023. URL consultato il 18 aprile 2025.
«Large language models have limited reliability, limited understanding, limited range, and hence need human supervision»

Pagine correlate

[1] (EN) Adam Smith, What is ChatGPT? And will it steal our jobs?, su context.news, Thomson Reuters Foundation, 7 febbraio 2023. URL consultato il 18 aprile 2025.
«Large language models have limited reliability, limited understanding, limited range, and hence need human supervision»

[1]