Unicode: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m via stub |
|||
Riga 1:
{{nota disambigua|informazioni sulla gestione dei caratteri Unicode in [[Wikipedia]]|la [[Aiuto:Unicode|relativa pagina di aiuto]]}}
{{Tabella Unicode}}
'''Unicode''' è un sistema di codifica che assegna un numero (o meglio, una combinazione di [[bit]]) a ogni carattere in maniera indipendente dal [[Programma (informatica)|programma]], piattaforma e dalla [[Lingua_(idioma)|lingua]] (e dal suo [[sistema di scrittura]]).
Unicode si basa sulla codifica [[ISO 8859|ISO/IEC 8859-1]] (o ''ISO Latin-1'', nota anche col nomignolo ''ASCII esteso'', che indica però molte altre codifiche a 8 bit basate sul vecchio standard [[ASCII]]), che consentiva la rappresentazione di 256 caratteri ed era sufficiente per gli alfabeti dell'Europa Occidentale e del Nord America.<br />Unicode va molto oltre, codificando i caratteri usati in quasi tutte le lingue vive e in alcune lingue morte, nonché simboli matematici e chimici, cartografici, l'alfabeto Braille, ideogrammi etc. L'ASCII, l'ISO/IEC 8859-1, e tutti gli altre codifiche precedentemente in uso, non possedevano un numero di caratteri sufficienti per tutte le lingue e per le necessità di comunicazione in qualsiasi ambito disciplinare.<br /> Per ciascuna esigenza, era necessario utilizzare una codifica apposita, molto spesso proprietaria.
Attualmente lo standard Unicode non rappresenta ancora tutti i caratteri in uso nel mondo; essendo ancora in evoluzione, però, forse in futuro arriverà a coprire tutti i caratteri rappresentabili.
__TOC__
Unicode era stato originariamente pensato come una codifica a 16 bit che dava la possibilità di codificare al più 65.536 caratteri, e tanto si riteneva essere sufficiente per rappresentare i caratteri impiegati in tutte le lingue scritte del mondo. Ora invece lo standard Unicode (e l'[[ISO 10646|ISO/IEC 10646]], che con Unicode condivide il repertorio di caratteri) supporta un repertorio di codici numerici che possono rappresentare circa un milione di caratteri. Ciò appare sufficiente a coprire anche i fabbisogni di codifica di scritti del patrimonio storico dell'umanità, nelle diverse lingue e negli svariati sistemi di segni utilizzati. Concretamente, questo repertorio di codici numerici è [[Serializzazione|serializzato]] mediante diversi schemi, che prevedono l'uso di unità da [[UTF-8|8]] bit (''[[byte]]''), [[UTF-16|16]] bit (''[[word]]'') e [[UTF-32|32]] bit (''[[double word]]'').
|