Versione delle 15:21, 6 giu 2007 modifica Ary29 (discussione \| contributi) Utenti autoverificati 394 474 modifiche m typo ← Differenza precedente		Versione delle 13:54, 26 dic 2007 modifica annulla Superfranz83 (discussione \| contributi) Utenti autoverificati 3 085 modifiche m →Vantaggi: -corretto wikilink Differenza successiva →
Riga 92: * Una sequenza di byte che codifica un carattere non può apparire come parte di una sequenza più lunga che codifica un altro carattere, come succedeva per codifiche a lunghezza variabile meno recenti (vedi la sezione precedente). * Il primo byte di una sequenza è sufficiente a determinarne la lunghezza (è sufficiente contare il numero di bit più significativi con valore uno). Questo rende molto semplice estrarre una sotto-stringa da una stringa più lunga, senza bisogno di decodificare la sequenza di byte UTF-8 * La maggioranza del [[software]] esistente (inclusi i [[Sistema_operativo\|sistemi operativi]]) è stata scritta senza tener conto di Unicode, e l'uso di Unicode creerebbe problemi di compatibilità. Per esempio la libreria standard del [[C (linguaggio)\|C]] marca la fine di una stringa con un byte nullo (0x00). Usando UTF-16 il carattere Unicode "A" verrebbe codificato come 0x0041. Il primo byte verrebbe trattato come il marcatore di fine stringa, e il secondo e tutti i successivi verrebbero ignorati. UTF-8 è pensato in modo che nessuno dei byte codificati possa assumere uno dei valori speciali del codice ASCII, evitando questo e problemi simili. * UTF-8 è la codifica predefinita per il formato [[XML]].

UTF-8: differenze tra le versioni