Versione delle 12:56, 26 nov 2004 modifica Snowdog (discussione \| contributi) Utenti autoverificati 95 600 modifiche m tolta cat da tradurre, tabella no html ← Differenza precedente		Versione delle 01:08, 27 nov 2004 modifica annulla Agnul (discussione \| contributi) 304 modifiche →Motivazioni di UTF-8 Differenza successiva →
Riga 69: * I bit più significativi del primo di una sequenza di più byte indicano la lunghezza della sequenza. Questi bit sono 110 per le sequenze di due byte, e 1110 per quelle di tre. * I byte successivi al primo in una sequenza composta da più byte hanno sempre 10 come bit più significativi UTF-8 è stato progettato per soddisfare queste tre proprietà, in modo da garantire che nessuna sequenza di byte corrispondente a uno specifico carattere sia contenuta in una sequenza più lunga, usata per codificare un carattere diverso. Grazie a questa caratteristica la ricerca di parole o frasi all'interno di un testo può essere effettuata tramite confronto byte per byte; qualche precedente sistema di codifica basato su sequenze di lunghezza variabile di byte (per esempio [[Shift-JIS]]) non godeva di questa proprietà, rendendo gli [[Algoritmo\|algoritmi]] di confronto tra stringhe complicati. Nonostante si possa obiettare che questa caratteristica aggiunga ridondanza alla codifica del testo, i vantaggi sono maggiori degli svantaggi; inoltre la compressione dei dati non è uno degli scopi di Unicode, e va considerata separatamente. Infine, ancora grazie a questa proprietà, se uno o più byte andassero persi per errori di trasmissione o per corruzione dei dati, sarebbe possibile risincronizzare la decodifica all'inizio del carattere successivo, limitando i danni. == Vantaggi ==

UTF-8: differenze tra le versioni