Protocollo di esclusione robot: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Annullata la modifica 132965199 di 151.95.236.204 (discussione) Etichetta: Annulla |
Funzionalità collegamenti suggeriti: 3 collegamenti inseriti. Etichette: Modifica visuale Modifica da mobile Modifica da web per mobile Attività per i nuovi utenti Suggerito: aggiungi collegamenti |
||
Riga 1:
Il '''protocollo di esclusione robot''' (in [[lingua inglese|inglese]] ''Robots Exclusion Standard'') indica, nel gergo di [[internet]] e più in generale del [[web]], le regole indicate dai gestori di un [[sito web]] ai [[crawler]] che lo visitano, chiedendo di applicare restrizioni di analisi sulle pagine del sito. Esse sono contenute nel file '''robots.txt''', ideato nel giugno [[1994]] con il consenso dei membri della robots [[mailing list]] (robots-request{{@}}nexor.co.uk). In questo momento non esiste un vero e proprio standard per il protocollo robots.
== Il ruolo dei ''crawler'' ==
Riga 15:
Il gruppo di volontari Archive Team ignora esplicitamente il file robots.txt per la maggior parte, considerandolo uno standard obsoleto che ostacola gli sforzi di archiviazione web. Secondo il responsabile del progetto Jason Scott, "deselezionato e lasciato da solo, il file robots.txt non garantisce il mirroring o il riferimento per elementi che potrebbero avere un uso generale e un significato al di fuori del contesto del sito web"<ref>{{cita web|url=http://www.archiveteam.org/index.php?title=Robots.txt|editore=Archive Team|titolo=Robots.txt is a suicide note|autore=Jason Scott|accesso=18 febbraio 2017|urlarchivio=https://web.archive.org/web/20170218044527/http://www.archiveteam.org/index.php?title=Robots.txt|dataarchivio=18 febbraio 2017|urlmorto=no|linkautore=Jason Scott}}</ref>.
Per alcuni anni [[Internet Archive]] non ha eseguito la scansione dei siti con robots.txt, ma nell'aprile 2017 ha annunciato che non avrebbe più rispettato le direttive nei file robots.txt<ref>{{Cita web|url=https://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/|titolo=Robots.txt meant for search engines don't work well for web archives {{!}} Internet Archive Blogs|sito=blog.archive.org|lingua=en|accesso=1º dicembre 2018|urlarchivio=https://web.archive.org/web/20181204130028/http://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/|dataarchivio=4 dicembre 2018|urlmorto=n}}</ref>. "Nel tempo abbiamo osservato che i file robots.txt destinati ai crawler dei motori di ricerca non servono necessariamente ai nostri scopi di archiviazione". Ciò era in risposta a interi domini che venivano taggati con robots.txt quando il contenuto è diventato obsoleto<ref name="Internet Archive">{{cita news|url=https://www.digitaltrends.com/computing/internet-archive-robots-txt/#ixzz4gQYOqpUi|titolo=The Internet Archive Will Ignore Robots.txt Files to Maintain Accuracy|pubblicazione=[[Digital Trends]]|nome=Brad|cognome=Jones|data=24 aprile 2017|accesso=8 maggio 2017|urlarchivio=https://web.archive.org/web/20170516130029/https://www.digitaltrends.com/computing/internet-archive-robots-txt/#ixzz4gQYOqpUi|dataarchivio=16 maggio 2017|urlmorto=no}}</ref>.
== Sicurezza ==
Riga 21:
== Alternative ==
Molti robot trasmettono anche uno speciale user-agent al [[server web]] durante il recupero del contenuto<ref>{{cita web|url=http://www.user-agents.org/|titolo=List of User-Agents (Spiders, Robots, Browser)|editore=User-agents.org|accesso=29 dicembre 2013|urlarchivio=https://web.archive.org/web/20140107154205/http://user-agents.org/|dataarchivio=7 gennaio 2014|urlmorto=no}}</ref>. Un amministratore web potrebbe anche configurare il server in modo che restituisca automaticamente un errore (o trasmetta contenuto alternativo) quando rileva una connessione utilizzando uno dei robot<ref>{{cita web|url=https://httpd.apache.org/docs/2.2/howto/access.html|titolo=Access Control - Apache HTTP Server|editore=Httpd.apache.org|accesso=29 dicembre 2013|urlarchivio=https://web.archive.org/web/20131229110831/http://httpd.apache.org/docs/2.2/howto/access.html|dataarchivio=29 dicembre 2013|urlmorto=no}}</ref><ref>{{cita web|url=http://www.iis.net/configreference/system.webserver/security/requestfiltering/filteringrules/filteringrule/denystrings|titolo=Deny Strings for Filtering Rules : The Official Microsoft IIS Site|editore=Iis.net|data=6 novembre 2013|accesso=29 dicembre 2013|urlarchivio=https://web.archive.org/web/20140101112730/http://www.iis.net/configreference/system.webserver/security/requestfiltering/filteringrules/filteringrule/denystrings|dataarchivio=1º gennaio 2014|urlmorto=no}}</ref>.
Alcuni siti, come Google, ospitano un <code>humans.txt</code>file che mostra informazioni destinate alla lettura da parte degli esseri umani<ref>{{Cita web|url=https://www.google.com/humans.txt|titolo=Google humans.txt|accesso=3 ottobre 2019}}</ref>. Alcuni siti come GitHub reindirizzano human.txt a una pagina di informazioni<ref>{{Cita web|url=https://github.com/humans.txt|titolo=Github humans.txt|accesso=3 ottobre 2019}}</ref>.
|