Versione delle 11:38, 8 feb 2016 modifica Phantomas (discussione \| contributi) Amministratori 283 317 modifiche m →Cenni storici ← Differenza precedente		Versione delle 14:33, 13 apr 2016 modifica annulla 195.235.246.33 (discussione) parola unicode in utf-8 Etichetta: Modifica visuale Differenza successiva →
Riga 74: * I byte successivi al primo in una sequenza composta da più byte hanno sempre 10 come bit più significativi. UTF-8 è stato progettato per soddisfare queste tre proprietà, in modo da garantire che nessuna sequenza di byte corrispondente a uno specifico carattere sia contenuta in una sequenza più lunga, usata per codificare un carattere diverso. Grazie a questa caratteristica la ricerca di parole o frasi all'interno di un testo può essere effettuata tramite confronto byte per byte; qualche precedente sistema di codifica basato su sequenze di lunghezza variabile di byte (per esempio [[Shift-JIS]]) non godeva di questa proprietà, rendendo gli [[Algoritmo\|algoritmi]] di confronto tra stringhe complicati. Nonostante si possa obiettare che questa caratteristica aggiunga ridondanza alla codifica del testo, i vantaggi sono maggiori degli svantaggi; inoltre la compressione dei dati non è uno degli scopi di ~~Unicode~~UTF-8, e va considerata separatamente. Infine, ancora grazie a questa proprietà, se uno o più byte andassero persi per errori di trasmissione o per corruzione dei dati, sarebbe possibile risincronizzare la decodifica all'inizio del carattere successivo, limitando i danni. == Forme lunghe, ''input'' non valido e considerazioni di sicurezza ==

UTF-8: differenze tra le versioni