Unicode
Unicode è un sistema di codifica che assegna un numero (o meglio, una combinazione di bit) a ogni carattere in maniera indipendente dal programma, piattaforma e dalla lingua (e dal suo sistema di scrittura).
Unicode si basa sulla codifica ISO/IEC 8859-1 (o ISO Latin-1, nota anche col nomignolo ASCII esteso, che indica però molte altre codifiche a 8 bit basate sul vecchio standard ASCII), che consentiva la rappresentazione di 256 caratteri ed era sufficiente per gli alfabeti dell'Europa Occidentale e del Nord America.
Unicode va molto oltre, codificando i caratteri usati in quasi tutte le lingue vive e in alcune lingue morte, nonché simboli matematici e chimici, cartografici, l'alfabeto Braille, ideogrammi etc. L'ASCII, l'ISO/IEC 8859-1, e tutti gli altre codifiche precedentemente in uso, non possedevano un numero di caratteri sufficienti per tutte le lingue e per le necessità di comunicazione in qualsiasi ambito disciplinare.
Per ciascuna esigenza, era necessario utilizzare una codifica apposita, molto spesso proprietaria.
Attualmente lo standard Unicode non rappresenta ancora tutti i caratteri in uso nel mondo; essendo ancora in evoluzione, però, forse in futuro arriverà a coprire tutti i caratteri rappresentabili.
Unicode era stato originariamente pensato come una codifica a 16 bit che dava la possibilità di codificare al più 65.536 caratteri, e tanto si riteneva essere sufficiente per rappresentare i caratteri impiegati in tutte le lingue scritte del mondo. Ora invece lo standard Unicode (e l'ISO/IEC 10646, che con Unicode condivide il repertorio di caratteri) supporta un repertorio di codici numerici che possono rappresentare circa un milione di caratteri. Ciò appare sufficiente a coprire anche i fabbisogni di codifica di scritti del patrimonio storico dell'umanità, nelle diverse lingue e negli svariati sistemi di segni utilizzati. Concretamente, questo repertorio di codici numerici è serializzato mediante diversi schemi, che prevedono l'uso di unità da 8 bit (byte), 16 bit (word) e 32 bit (double word).
L'Unicode viene supportato dai moderni standard della programmazione e del markup come XML, Java, JavaScript, LDAP, CORBA 3.0, e da vari sistemi operativi.
Sistemi di scrittura rappresentati
Unicode comprende quasi tutti i sistemi di scrittura attualmente utilizzati, fra i quali:
In aggiunta a quelli citati, sono disponibili glifi appartenenti a molte lingue morte:
|
Infine, lo Unicode comprende anche molti simboli, come quelli matematici e musicali.
Versioni Unicode
Negli ultimi anni una nuova versione è stata rilasciata praticamente ad ogni inizio anno a seguito di una media di oltre 1.000 richieste di cambiamenti all'anno.
- DP 10646 1989 (Proposta di bozza della norma ISO 10646, indipendente dall'Unicode)
- DIS-1 10646 1990 (Prima bozza della norma ISO 10646, indipendente dall'Unicode)
- Unicode 1.0.0 Ottobre 1991
- Unicode 1.0.1 Giugno 1992 (Modificato per un eventuale allineamento alla norma ISO 10646)
- Unicode 1.1.0 Giugno 1993 (Unicode e ISO unificate per la prima volta: i due codici sono identici alla norma ISO 10646-1: 1993)
- Unicode 1.1.5 Giugno 1995
- Unicode 2.0.0 Luglio 1996 (Allineata alla norma ISO 10646 estesa)
- Unicode 2.1.2 Maggio 1998 (Fra gli altri, introduzione del carattere euro: €)
- Unicode 2.1.5 Agosto 1998
- Unicode 2.1.8 Dicembre 1998
- Unicode 2.1.9 Aprile 1999
- Unicode 3.0.0 Settembre 1999 (Allineata alla norma ISO 10646-1: 2000)
- Unicode 3.0.1 Agosto2000
- Unicode 3.1.0 Marzo 2001 (Allineata alla norma ISO 10646-2: 2001)
- Unicode 3.1.1 Agosto 2001
- Unicode 3.2.0 Marzo 2002
- Unicode 4.0.0 Aprile 2003 (Allineata alla norma ISO 10646: 2003)
- Unicode 4.0.1 Marzo 2004
- Unicode 4.1.0 Marzo 2005
- Unicode 5.0.0 Luglio 2006 oltre 99.000 glifi [1]
Note
- ^ Unicode Consortium: Unicode Character Database 5.0 Released, 18 luglio 2006
Voci correlate
Collegamenti esterni
- (IT) Cos'è Unicode? Dal sito di Unicode
- (DE, EN) DecodeUnicode - Unicode WIKI 51.000 gifs
- http://www.linkas.it/docs/unicode_e_UTF-8_v1_5Uni.html
- (EN) http://www.unicode.org/
- (EN) http://www.joelonsoftware.com/articles/Unicode.html Joel on software: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets