Protocollo di esclusione robot: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m Bot: Aggiungo template {{interprogetto}} (FAQ) |
Funzionalità collegamenti suggeriti: 3 collegamenti inseriti. |
||
Riga 7:
Quando il proprietario di un sito desidera fornire istruzioni ai robot Web, inserisce un file di testo denominato robots.txt nella radice della gerarchia del sito Web (ad es. <nowiki>https://www.example.com/robots.txt</nowiki>). Questo file di testo contiene le istruzioni in un formato specifico (vedere gli esempi di seguito). I robot che ''scelgono'' di seguire le istruzioni provano a recuperare questo file e leggono le istruzioni prima di recuperare qualsiasi altro file dal sito web. Se questo file non esiste, i robot web presumono che il proprietario del sito web non desideri porre alcuna limitazione alla scansione dell'intero sito.
Un file robots.txt su un sito web funzionerà come una richiesta che i robot indicati ignorino i file o le [[directory]] specificati durante la scansione di un sito. Ciò potrebbe derivare, ad esempio, da una preferenza per la privacy dai risultati dei motori di ricerca o dalla convinzione che il contenuto delle directory selezionate potrebbe essere fuorviante o irrilevante per la categorizzazione del sito nel suo insieme, o dal desiderio che un'applicazione funzioni solo su determinati dati. I collegamenti alle pagine elencate in robots.txt possono ancora essere visualizzati nei risultati di ricerca se sono collegati a una pagina sottoposta a scansione<ref>{{cita web|url=https://www.youtube.com/watch?v=KBdEwpRQRD0#t=196s|titolo=Uncrawled URLs in search results|editore=YouTube|data=Oct 5, 2009|accesso=29 dicembre 2013|urlarchivio=https://web.archive.org/web/20140106222500/http://www.youtube.com/watch?v=KBdEwpRQRD0#t=196s|dataarchivio=6 gennaio 2014|urlmorto=no}}</ref>.
Un file robots.txt copre un'origine. Per i siti web con più sottodomini, ogni sottodominio deve avere il proprio file robots.txt. Se example.com avesse un file robots.txt ma a.example.com no, le regole che si applicherebbero per example.com non si applicherebbero a a.example.com. Inoltre, ogni protocollo e porta necessita del proprio file robots.txt; <nowiki>http://example.com/robots.txt</nowiki> non si applica alle pagine in <nowiki>http://example.com:8080/</nowiki> o <nowiki>https://example.com/</nowiki>.
Riga 23:
Molti robot trasmettono anche uno speciale user-agent al [[server web]] durante il recupero del contenuto<ref>{{cita web|url=http://www.user-agents.org/|titolo=List of User-Agents (Spiders, Robots, Browser)|editore=User-agents.org|accesso=29 dicembre 2013|urlarchivio=https://web.archive.org/web/20140107154205/http://user-agents.org/|dataarchivio=7 gennaio 2014|urlmorto=no}}</ref>. Un amministratore web potrebbe anche configurare il server in modo che restituisca automaticamente un errore (o trasmetta contenuto alternativo) quando rileva una connessione utilizzando uno dei robot<ref>{{cita web|url=https://httpd.apache.org/docs/2.2/howto/access.html|titolo=Access Control - Apache HTTP Server|editore=Httpd.apache.org|accesso=29 dicembre 2013|urlarchivio=https://web.archive.org/web/20131229110831/http://httpd.apache.org/docs/2.2/howto/access.html|dataarchivio=29 dicembre 2013|urlmorto=no}}</ref><ref>{{cita web|url=http://www.iis.net/configreference/system.webserver/security/requestfiltering/filteringrules/filteringrule/denystrings|titolo=Deny Strings for Filtering Rules : The Official Microsoft IIS Site|editore=Iis.net|data=6 novembre 2013|accesso=29 dicembre 2013|urlarchivio=https://web.archive.org/web/20140101112730/http://www.iis.net/configreference/system.webserver/security/requestfiltering/filteringrules/filteringrule/denystrings|dataarchivio=1º gennaio 2014|urlmorto=no}}</ref>.
Alcuni siti, come Google, ospitano un <code>humans.txt</code>file che mostra informazioni destinate alla lettura da parte degli esseri umani<ref>{{Cita web|url=https://www.google.com/humans.txt|titolo=Google humans.txt|accesso=3 ottobre 2019}}</ref>. Alcuni siti come [[GitHub]] reindirizzano human.txt a una pagina di informazioni<ref>{{Cita web|url=https://github.com/humans.txt|titolo=Github humans.txt|accesso=3 ottobre 2019}}</ref>.
In precedenza Google aveva un file di scherzo ospitato per <code>/killer-robots.txt</code>istruire il Terminator a non uccidere i fondatori dell'azienda [[Larry Page]] e Sergey Brin<ref>{{Cita web|url=https://slate.com/technology/2014/07/a-killer-robots-txt-google-easter-egg.html|titolo=Is This a Google Easter Egg or Proof That Skynet Is Actually Plotting World Domination?|cognome=Newman|nome=Lily Hay|data=3 luglio 2014|sito=Slate Magazine|lingua=en|accesso=3 ottobre 2019}}</ref><ref>{{Cita web|url=https://www.google.com/killer-robots.txt|titolo=/killer-robots.txt|data=10 gennaio 2018|urlmorto=no|urlarchivio=https://web.archive.org/web/20180110160916/https://www.google.com/killer-robots.txt|dataarchivio=10 gennaio 2018|accesso=25 maggio 2018}}</ref>.
Riga 107:
== Meta tag e intestazioni ==
Oltre ai file robots.txt a livello di root, le direttive di esclusione dei robot possono essere applicate a un livello più granulare tramite l'uso di [[meta tag]] Robots e intestazioni HTTP X-Robots-Tag. Il meta tag robots non può essere utilizzato per file non HTML come immagini, file di testo o documenti PDF. D'altra parte, l'X-Robots-Tag può essere aggiunto a file non HTML utilizzando file.htaccess e httpd.conf<ref name="google-meta2">{{cita web|url=https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag|titolo=Robots meta tag and X-Robots-Tag HTTP header specifications - Webmasters — Google Developers|accesso=17 agosto 2013|urlarchivio=https://web.archive.org/web/20130808020946/https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag|dataarchivio=8 agosto 2013|urlmorto=no}}</ref>.
; Un meta tag "noindex"
|