Linguistica computazionale: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica
Nessun oggetto della modifica
Riga 1:
La '''linguistica computazionale''' si concentra sullo sviluppo di formalismi descrittivi del funzionamento del [[linguaggio naturale]], tali che si possano trasformare in programmi eseguibili dai computer.
I problemi che affronta il linguista computazionale sono dunqueaffronta, implicitamentefacilmente contenutiintuibili nelladalla stessa denominazione della disciplina (che d'ora in poi chiamerò LC):, essaconsistono devenel trovare una mediazione fra un oggetto di studio mutevole e in costante evoluzione (il [[linguaggio umano]]) e le capacità di comprensione della macchina, limitate a quanto può esseressere descritto tramite regole formali.
 
==Storia della disciplina==
Riga 10:
Di fianco alla tradizione razionalista, se ne sviluppò una seconda che dava invece la priorità alla raccolta di ingenti quantità di testi, i [[corpora]]. Questo indirizzo (che prevale in Gran Bretagna e negli Stati Uniti) sfrutta metodi statistici per estrarre dai testi regolarità linguistiche, da cui si dovrà partire per descivere la struttura del linguaggio. Il primo grande successo del "metodo empirista" è datato 1964, anno di comparsa del [[Brown Corpus]] di Francis e Kucera: si tratta del primo esempio di corpus nato per lo studio di una varietà linguistica contemporanea, in tal caso l'inglese americano.
 
La crescita delle dimensioni dei [[corpora]] -sempre più fondamentali per verificare l'efficacia degli strumenti- e quella parallela del [[web]] -dalle infinite risorse testuali- hanno sancito il prevalere del secondo approccio. Infatti, con l'aumento delle dimensioni del materiale da analizzare, occorrevano tecnologie che potessero affrontare l'immensa varietà delle realizzazioni linguistiche: le astrazioni dall'uso della metodologia razionalista, che avevano portato alla creazione dei cosiddetti "modelli giocattolo" (applicazioni inefficaci non appena erano messe alla prova in contesti reali), erano inadeguate a tale scopo.
Inoltre, nacquero linguaggi standard di marcatura come XML che aumentarono l'usabilità e la facilità di scambio reciproco dei corpora e permisero di esplicitare le strutture dei testi.
 
Oggi la Linguistica Computazionale può contare su numerosi gruppi di ricerca nel panorama scientifico internazionale; un buon numero di centri sono presenti anche sul nostro territorio (ricordiamo l'[[Istituto di Linguistica Computazionale]] del [[Consiglio Nazionale delle Ricerche]], fondato da [[Antonio Zampolli]]) e più d'una università italiana ha posto l'[[Informatica delle Scienze Umane]] come materia fondamentale di percorsi di studio a metà fra l'[[Informatica]] e gli [[studi umanistici]].
Dopo la perdurante dicotomia fra approccio razionalista ed empirista, ci si orienta sempre più verso la messa a punto di strumenti che al tempo stesso incorporino la conoscenza rappresentata come regole astratte e come moduli statistici. Siamo tuttavia ancora distanti dal simulare con le tecnologie informatiche una competenza linguistica paragonabile a quella umana; questo per limiti che non sono solo tecnici, ma che concernono anche la nostra comprensione del fenomeno "linguaggio".
 
==Codifica e marcatura XML==
 
Per [[codifica]] intendiamo la rappresentazione digitale di un testo.
Possiamo distinguere due livelli distinti in una simile operazione: a) la rappresentazione di ciascun carattere alfanumerico componente il testo nella forma di un [[codice binario]]; b) la rappresentazione della organizzazione strutturale del testo.
Di conseguenza, parleremo di ""codifica di livello zero"" e di ""codifica di alto livello"".
====Codifica di livello zero====
 
A questo livello di codifica viene assegnato ad ogni carattere del testo un codice numerico binario (composto da sequenze di 0 ed 1) che lo identifica univocamente.
Esistono tabelle di associazioni biunivoche (1 a 1) fra i caratteri di un dato repertorio e dei codici numerici, chiamati punti di codice e rappresentati in forma binaria: esse prendono il nome di ""set di caratteri"". Ovviamente il numero di caratteri rappresentabili è tanto più elevato quanto più lo è quello dei punti di codice disponibili, che a sua volta dipende da quante cifre binarie vengono usate per la codifica dei caratteri.
Il più celebre set di caratteri è senza dubbio l'[[ASCII]] (American Standard Code for Information Interchange), che ha costituito il primo standard per la rappresentazione binaria di caratteri ed il nucleo comune per numerosi set successivi. L'ASCII codificava ogni carattere con un [[byte]], ma ne utilizzava solo le prime sette cifre per rappresentare il codice: considerando che ogni cifra può assumere il valore 0 o il valore 1, avremo 128 punti di codice diversi.
Questi possono essere sufficienti per la codifica di testi che facciano uso esclusivamente dei caratteri dell'alfabeto anglosassone; diventano pochi nel caso di una lingua come l'italiano, che comprende anche caratteri con diacritici.
Per ovviare a questa limitazione, furono create varie estensioni di ASCII che adoperavano tutti e otto i bit per la codifica, per un totale di 256 punti di codice disponibili. Ricordiamo ad esempio la famiglia di codifiche [[ISO-8859]], della quale ogni membro era equivalente ad ASCII per i primi 128 punti di codice; quelli successivi invece codificavano caratteri differenti a seconda del set.