Internet Archive: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica
FrescoBot (discussione | contributi)
Riga 88:
Internet Archive utilizza il protocollo [[Robots Exclusion Standard]] (attraverso il file [[robots.txt]]) per l'esclusione volontaria dei siti dal proprio database. Internet Archive rispetta le direttive del file robots.txt facendo in modo che i suoi bot non indicizzino le pagine. Per questo motivo, Internet Archive ha reso indisponibili un certo numero di siti web che sono del tutto inaccessibili attraverso la Wayback Machine. In caso di siti bloccati, viene archiviato il solo file [[robots.txt]].
 
L'Internet Archive applica le regole robots.txt con effetto retroattivo: se un sito blocca lo ''spider'' di Internet Archive attraverso il file robots.txt, allora diventano non disponibili tutte le pagine già archiviate dal dominio. Inoltre, lo stesso comportamento è riservato a tutti i siti web che ne fanno esplicita richiesta: per questo, ogni volta che il proprietario di un sito ne chiede l'esclusione dall'indice, si acconsente alla richiesta<ref>{{en}}[https://web.archive.org/collections/web/faqs.html#exclusions ''Some sites are not available because of Robots.txt or other exclusions''].</ref>, non essendo "Internet Archive [...] interessato a preservare o offrire l'accesso a siti Web o ad altri documenti su Internet di proprietà di persone che non vogliono i loro materiali nella nostra collezione".<ref>{{en}}[https://www.archive.org/about/faqs.php#2 ''How can I remove my site's pages from the Wayback Machine?''].</ref>
 
Ad esempio, l'indirizzo ''<nowiki>https://web.archive.org/*/https://www.ubuntu-it.org</nowiki>'', mostra le copie consultabili della pagina
Riga 180:
 
== Altri progetti ==
{{interprogetto|commons=Category:Internet Archive}}
 
== Collegamenti esterni ==