Internationalized Resource Identifier: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Inseritore (discussione | contributi)
Ripetizione
Etichette: Modifica visuale Modifica da mobile Modifica da web per mobile
m smistamento lavoro sporco e fix vari
Riga 1:
'''IRI''' è l'acronimo di '''Internationalized Resource Identifier''' ed è attualmente uno standard proposto [[IETF]]<ref>{{Cita web|url=https://www.w3.org/International/O-URL-and-ident.html|titolo=Internationalized Resource Identifiers (IRIs)|sito=www.w3.org|accesso=2021-10-28 ottobre 2021}}</ref>.
 
Un IRI è una forma generale di [[Uniform Resource Identifier]] costituita, a differenza di una [[Uniform Resource Identifier|URI]], da una sequenza di caratteri appartenenti all'''Universal Character Set'' ([[Unicode]]/[[ISO 10646]]), e ciò significa che al suo interno possono occorrere caratteri non appartenenti all'insieme [[ASCII]]<ref>{{Cita web|url=https://www.w3c.it/pr/2005/uri-iri-pressrelease-it.html|titolo=Il W3C sostiene lo standard URI e lo standard proposto IRI|sito=www.w3c.it|accesso=2021-10-28 ottobre 2021}}</ref>.
 
Un IRI può essere convertita in [[Uniform Resource Identifier|URI]] seguendo delle precise regole<ref name="gangemi">{{citeCita journalpubblicazione|last1cognome1=Gangemi|first1nome1=Aldo|last2cognome2=Presutti|first2nome2=Valentina|datedata=2006|titletitolo=The bourne identity of a web resource|url=http://ra.ethz.ch/CDstore/www2006/www.ibiblio.org/hhalpin/irw2006/vpresutti.pdf|journalrivista=Proceedings of Identity Reference and the Web Workshop (IRW)|seriesserie=Laboratory for Applied Ontology|pagep=3|quotecitazione=Notice that IRIs (Internationalized Resource Identifier) [11] are supposed to replace URIs in next future.}}</ref><ref>{{CiteCita web|url=https://tools.ietf.org/html/rfc3987#section-1.3|titletitolo=Internationalized Resource Identifiers (IRIs)|lastcognome=Suignard|firstnome=Michel|websitesito=tools.ietf.org|languagelingua=en|access-dateaccesso=9 giugno 2018-06-09|quotecitazione=This document defines a new protocol element, the Internationalized Resource Identifier (IRI), as a complement to the Uniform Resource Identifier (URI). An IRI is a sequence of characters from the Universal Character Set (Unicode/ISO 10646). A mapping from IRIs to URIs is defined, which means that IRIs can be used instead of URIs, where appropriate, to identify resources. The approach of defining a new protocol element was chosen instead of extending or changing the definition of URIs.}}</ref><ref>{{CiteCita web|url=https://tools.ietf.org/html/rfc3987#page-3|titletitolo=Internationalized Resource Identifiers (IRIs)|lastcognome=Suignard|firstnome=Michel|websitesito=tools.ietf.org|languagelingua=en|access-dateaccesso=9 giugno 2018-06-09|}}</ref>.
 
== Descrizione ==
Sebbene gli URI siano limitati a un sottoinsieme del set di caratteri US-ASCII (i caratteri al di fuori di tale set devono essere mappati a [[Ottetto (matematica)|ottetti]] in base a una codifica di caratteri non specificata, quindi codificata in percentuale), gli IRI possono inoltre contenere la maggior parte dei caratteri dell'Universal Character Set (Unicode/ISO 10646), compresi i caratteri cinesi, giapponesi, coreani e cirillici<ref>{{CiteCita web|url=http://tools.ietf.org/html/rfc3987|titletitolo=Internationalized Resource Identifiers (IRIs)|lastcognome=Suignard|firstnome=Michel|websitesito=tools.ietf.org|languagelingua=en|access-dateaccesso=9 giugno 2018-06-09}}</ref><ref>{{CiteCita web|url=https://tools.ietf.org/html/rfc3987#section-1.3|titletitolo=Internationalized Resource Identifiers (IRIs)|lastcognome=Suignard|firstnome=Michel|websitesito=tools.ietf.org|languagelingua=en|access-dateaccesso=9 giugno 2018-06-09}}</ref>.
 
Gli IRI estendono gli URI usando l'Universal Character Set, dove gli URI erano limitati ad ASCII, con molti meno caratteri. Gli IRI possono essere rappresentati da una sequenza di ottetti ma per definizione sono definiti come una sequenza di caratteri, perché gli IRI possono essere pronunciati o scritti a mano<ref name="rfc3987rfc39873">{{citeCita journalpubblicazione|last1cognome1=Duerst|first1nome1=M.|titletitolo=RFC 3987|journalrivista=Network Working Group|datedata=2005|volume=Standards Track|url=http://tools.ietf.org/html/rfc3987|access-dateaccesso=12 Octoberottobre 2014}}</ref>.
 
== Compatibilità ==
Gli IRI sono mappati agli URI per mantenere la compatibilità con le versioni precedenti con i sistemi che non supportano il nuovo formato<ref name="rfc39872rfc39873">{{cite journal|last1=Duerst|first1=M.|title=RFC 3987|journal=Network Working Group|date=2005|volume=Standards Track|url=http://tools.ietf.org/html/rfc3987|access-date=12 October 2014}}</ref>.
 
=== Mappatura di IRI in URI ===
La mappatura ha due scopi<ref name="rfc39873" />:
[[File:Schema-IRI-URI-URL-URN.png|alt=Schema IRI-URI-URL-URN|miniaturathumb|270x270pxupright=1.2|Schema IRI-URI-URL-[[Uniform Resource Name|URN]]]]
'''Sintassico.''' Molti schemi e componenti URI definiscono particolari restrizioni sintattiche. Le restrizioni specifiche dello schema vengono applicate agli IRI convertendo gli IRI in URI e verificando gli URI rispetto alle restrizioni specifiche dello schema stesso.
 
'''Identificazione delle risorse.''' Quando l'IRI viene utilizzato esclusivamente a fini identificativi, non è necessario mappare l'IRI su un URI. Tuttavia, quando un IRI viene utilizzato per una risorsa rappresentata come una sequenza di caratteri indipendente dai caratteri dell'UCS normalizzata secondo il modulo di normalizzazione C (NFC).
 
Per applicazioni e protocolli che non consentono il consumo diretto di IRI, l'IRI deve essere prima convertito in [[Unicode]] utilizzando la normalizzazione della composizione canonica (NFC), se non già in formato Unicode.
Riga 25:
 
=== '''Esempio:''' ===
L'IRI
 
<code><nowiki>https://en.wiktionary.org/wiki/Ῥόδος</nowiki></code>
 
diventa l'URI
<nowiki>https://en.wiktionary.org/wiki/%E1%BF%AC%CF%8C%CE%B4%CE%BF%CF%82</nowiki>
I punti di codice ASCII che sono caratteri URI non validi possono essere codificati allo stesso modo, a seconda dell'implementazione<ref name="rfc39873">{{cite journal|last1=Duerst|first1=M.|title=RFC 3987|journal=Network Working Group|date=2005|volume=Standards Track|url=http://tools.ietf.org/html/rfc3987|access-date=12 October 2014}}</ref>.
 
Questa conversione è facilmente reversibile; per definizione, convertire un IRI in un URI e viceversa produrrà un IRI che è semanticamente equivalente all'IRI originale, anche se può differire nella rappresentazione esatta<ref>{{citeCita booklibro|last1cognome1=Hendler|first1nome1=Hrsg. Dieter Fensel; Hrsg. John Domingue; Hrsg. James A.|titletitolo=Handbook of Semantic Web Technologies|datedata=2010|publishereditore=Springer-Verlag GmbH|___locationcittà=Berlin|isbn=978-3-540-92912-3|editionedizione=1. Aufl.|url=https://books.google.com/books?id=sdEFvSb9WNsC|access-dateaccesso=12 Octoberottobre 2014}}</ref>.
 
Alcuni protocolli possono imporre ulteriori trasformazioni, ad esempio [[Punycode]] per le etichette DNS<ref>{{Cita web|url=https://www.ionos.it/digitalguide/domini/gestione-dei-domini/punycode/|titolo=Punycode|sito=IONOS Digitalguide|lingua=it|accesso=2021-10-28 ottobre 2021}}</ref>.
 
== Vantaggi ==
Ci sono motivi per vedere gli URI visualizzati in lingue diverse; per lo più, lo rende più facile per gli utenti che non hanno familiarità con l'alfabeto latino (A–Z). Supponendo che non sia troppo difficile per chiunque replicare Unicode arbitrario sulle proprie tastiere, questo può rendere il sistema URI più accessibile<ref>{{citecita web|last1cognome1=Clark|first1nome1=Kendall|titletitolo=Internationalizing the URI|url=http://www.xml.com/pub/a/2003/05/07/deviant.html|publishereditore=O’Reilly Media, Inc.|access-dateaccesso=12 Octoberottobre 2014|datedata=7 maggio 2003-05-07}}</ref>.
 
== Svantaggi ==
[[File:IDN homograph attack 1.svg|alt=Un esempio di un omografo IDN che attacca la "e" e la "a" vengono scambiate con lettere ciriliche invece dell'amato latino.|miniatura|Un esempio di un omografo IDN che attacca la "e" e la "a" vengono scambiate con lettere ciriliche invece dell'amato latino.]]
La combinazione degli IRI e gli URI ASCII può rendere molto più semplice eseguire attacchi di [[phishing]] che inducono qualcuno a credere di trovarsi su un sito diverso da quello che realmente sono. Ad esempio, si può sostituire un ASCII "a" <code>www.myfictionalbank.com</code>con il sosia Unicode "α" per ottenere <code>www.myfictionαlbank.com</code>e puntare quell'IRI a un sito dannoso. Questo è noto come attacco [[Omografia (linguistica)|omografo]] IDN<ref name="rfc39873" />.
 
Sebbene un URI non fornisca alle persone un modo per specificare le risorse Web utilizzando i propri alfabeti, un IRI non chiarisce come è possibile accedere alle risorse Web con tastiere che non sono in grado di generare i caratteri internazionalizzati richiesti. Ciò significa che gli IRI sono ora gestiti in un modo molto simile a molti altri software che potrebbero richiedere l'uso di un metodo di input non tramite tastiera quando si tratta di testi in varie lingue<ref name="rfc39873" />.
Riga 54:
 
{{Web semantico}}
{{portale|informatica|Internetinternet}}
 
[[Categoria:Standard Internet]]