Protocollo di esclusione robot: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Recupero di 1 fonte/i e segnalazione di 0 link interrotto/i.) #IABot (v2.0.9.5
Funzionalità collegamenti suggeriti: 3 collegamenti inseriti.
Riga 5:
 
== Standard ==
Quando il proprietario di un sito desidera fornire istruzioni ai robot Web, inserisce un [[file di testo]] denominato robots.txt nella radice della gerarchia del sito Web (ad es. <nowiki>https://www.example.com/robots.txt</nowiki>). Questo file di testo contiene le istruzioni in un formato specifico (vedere gli esempi di seguito). I robot che ''scelgono'' di seguire le istruzioni provano a recuperare questo file e leggono le istruzioni prima di recuperare qualsiasi altro file dal sito web. Se questo file non esiste, i robot web presumono che il proprietario del sito web non desideri porre alcuna limitazione alla scansione dell'intero sito.
 
Un file robots.txt su un sito web funzionerà come una richiesta che i robot indicati ignorino i file o le [[directory]] specificati durante la scansione di un sito. Ciò potrebbe derivare, ad esempio, da una preferenza per la privacy dai risultati dei motori di ricerca o dalla convinzione che il contenuto delle directory selezionate potrebbe essere fuorviante o irrilevante per la categorizzazione del sito nel suo insieme, o dal desiderio che un'applicazione funzioni solo su determinati dati. I collegamenti alle pagine elencate in robots.txt possono ancora essere visualizzati nei risultati di ricerca se sono collegati a una pagina sottoposta a scansione<ref>{{cita web|url=https://www.youtube.com/watch?v=KBdEwpRQRD0#t=196s|titolo=Uncrawled URLs in search results|editore=YouTube|data=Oct 5, 2009|accesso=29 dicembre 2013|urlarchivio=https://web.archive.org/web/20140106222500/http://www.youtube.com/watch?v=KBdEwpRQRD0#t=196s|dataarchivio=6 gennaio 2014|urlmorto=no}}</ref>.
Riga 13:
Alcuni dei principali motori di ricerca che seguono questo standard includono [[Ask.com|Ask]]<ref name="ask-webmasters">{{cita web|titolo=About Ask.com: Webmasters|url=http://about.ask.com/docs/about/webmasters.shtml|sito=About.ask.com|accesso=16 febbraio 2013}}</ref>, [[AOL Search|AOL]]<ref name="about-aol-search">{{cita web|titolo=About AOL Search|url=http://search.aol.com/aol/about|sito=Search.aol.com|accesso=16 febbraio 2013|dataarchivio=13 dicembre 2012|urlarchivio=https://web.archive.org/web/20121213134546/http://search.aol.com/aol/about|urlmorto=sì}}</ref>, [[Baidu]]<ref name="baidu-spider">{{cita web|titolo=Baiduspider|url=http://www.baidu.com/search/spider_english.html|sito=Baidu.com|accesso=16 febbraio 2013|dataarchivio=6 agosto 2013|urlarchivio=https://web.archive.org/web/20130806131031/http://www.baidu.com/search/spider_english.html|urlmorto=sì}}</ref>, [[DuckDuckGo]]<ref name="duckduckgo-bot">{{cita web|url=https://duckduckgo.com/duckduckbot|sito=DuckDuckGo.com|titolo=DuckDuckGo Bot|accesso=25 aprile 2017}}</ref>, [[Google]]<ref name="google-webmasters-spec2">{{cita web|url=https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt|titolo=Webmasters: Robots.txt Specifications|opera=Google Developers|accesso=16 febbraio 2013|urlarchivio=https://web.archive.org/web/20130115214137/https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt|dataarchivio=15 gennaio 2013|urlmorto=no}}</ref>, [[Yahoo!]]<ref name="yahoo-search-is-bing">{{cita web|url=http://help.yahoo.com/kb/index?page=content&y=PROD_SRCH&locale=en_US&id=SLN2217&impressions=true|titolo=Submitting your website to Yahoo! Search|accesso=16 febbraio 2013|urlarchivio=https://web.archive.org/web/20130121035801/http://help.yahoo.com/kb/index?page=content&y=PROD_SRCH&locale=en_US&id=SLN2217&impressions=true|dataarchivio=21 gennaio 2013|urlmorto=no}}</ref>, e [[Yandex.Browser|Yandex]]<ref name="yandex-robots2">{{cita web|url=http://help.yandex.com/webmaster/?id=1113851|titolo=Using robots.txt|sito=Help.yandex.com|accesso=16 febbraio 2013|urlarchivio=https://web.archive.org/web/20130125040017/http://help.yandex.com/webmaster/?id=1113851|dataarchivio=25 gennaio 2013|urlmorto=no}}</ref>. [[Bing]] non è completamente compatibile con lo standard in quanto non può ereditare le impostazioni dal carattere jolly (<code>*</code>)<ref name="bing-blog-robots2">{{cita web|url=https://blogs.bing.com/webmaster/2008/06/03/robots-exclusion-protocol-joining-together-to-provide-better-documentation/|titolo=Robots Exclusion Protocol: joining together to provide better documentation|sito=Blogs.bing.com|urlarchivio=https://web.archive.org/web/20140818025412/http://blogs.bing.com/webmaster/2008/06/03/robots-exclusion-protocol-joining-together-to-provide-better-documentation/|dataarchivio=18 agosto 2014|urlmorto=no|accesso=16 febbraio 2013}}</ref>.
 
Il gruppo di volontari Archive Team ignora esplicitamente e abitualmente il file robots.txt, considerandolo uno standard obsoleto che ostacola gli sforzi di [[archiviazione web]]. Secondo il responsabile del progetto Jason Scott, "deselezionato e lasciato da solo, il file robots.txt non garantisce il mirroring o il riferimento per elementi che potrebbero avere un uso generale e un significato al di fuori del contesto del sito web"<ref>{{cita web|url=http://www.archiveteam.org/index.php?title=Robots.txt|editore=Archive Team|titolo=Robots.txt is a suicide note|autore=Jason Scott|accesso=18 febbraio 2017|urlarchivio=https://web.archive.org/web/20170218044527/http://www.archiveteam.org/index.php?title=Robots.txt|dataarchivio=18 febbraio 2017|urlmorto=no|linkautore=Jason Scott}}</ref>.
 
Per alcuni anni [[Internet Archive]] non ha eseguito la scansione dei siti con robots.txt, ma nell'aprile 2017 ha annunciato che non avrebbe più rispettato le direttive nei file robots.txt<ref>{{Cita web|url=https://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/|titolo=Robots.txt meant for search engines don't work well for web archives {{!}} Internet Archive Blogs|sito=blog.archive.org|lingua=en|accesso=1º dicembre 2018|urlarchivio=https://web.archive.org/web/20181204130028/http://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/|dataarchivio=4 dicembre 2018|urlmorto=n}}</ref>. "Nel tempo abbiamo osservato che i file robots.txt destinati ai crawler dei motori di ricerca non servono necessariamente ai nostri scopi di archiviazione". Ciò era in risposta agli interi domini che venivano taggati con robots.txt quando il loro contenuto è diventato obsoleto<ref name="Internet Archive">{{cita news|lingua=en|nome=Brad|cognome=Jones|url=https://www.digitaltrends.com/computing/internet-archive-robots-txt/#ixzz4gQYOqpUi|titolo=The Internet Archive Will Ignore Robots.txt Files to Maintain Accuracy|pubblicazione=[[Digital Trends]]|data=24 aprile 2017|accesso=8 maggio 2017|urlarchivio=https://web.archive.org/web/20170516130029/https://www.digitaltrends.com/computing/internet-archive-robots-txt/#ixzz4gQYOqpUi|dataarchivio=16 maggio 2017|urlmorto=no}}</ref>.
Riga 96:
 
=== Direttiva Allow ===
Alcuni dei principali crawler supportano una direttiva <code>Allow</code>, che può contrastare una direttiva <code>Disallow</code><ref>{{cita web|url=https://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156449&from=40364|titolo=Webmaster Help Center - How do I block Googlebot?|accesso=20 novembre 2007|urlarchivio=https://web.archive.org/web/20100801082008/http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156449&from=40364|dataarchivio=1º agosto 2010|urlmorto=no}}</ref><ref>{{cita web|url=http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-02.html|titolo=How do I prevent my site or certain subdirectories from being crawled? - Yahoo Search Help|accesso=20 novembre 2007|urlarchivio=https://web.archive.org/web/20071013014215/http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-02.html|dataarchivio=13 ottobre 2007|urlmorto=no}}</ref> successiva. Ciò è utile quando si dice ai robot di evitare un'intera directory ma si desidera comunque che alcuni documenti [[HTML]] in quella directory vengano sottoposti a scansione e indicizzati. Mentre per l'implementazione standard vince sempre il primo pattern robots.txt corrispondente, l'implementazione di Google differisce in quanto <code>Allow</code>, ai pattern con caratteri uguali o superiori nel percorso della direttiva, vince su un pattern Disallow corrispondente<ref>{{cita web|url=http://blog.semetrical.com/googles-secret-approach-to-robots-txt/|titolo=Google's Hidden Interpretation of Robots.txt|accesso=15 novembre 2010|urlarchivio=https://web.archive.org/web/20101120023619/http://blog.semetrical.com/googles-secret-approach-to-robots-txt/|dataarchivio=20 novembre 2010|urlmorto=no}}</ref>. Bing utilizza la direttiva <code>Allow</code> o <code>Disallow</code>, a seconda di quale sia più specifica, in base alla lunghezza, come Google<ref name="bing-blog-robots2"/>.
 
Per essere compatibile con tutti i robot, se si desidera consentire singoli file all'interno di una directory altrimenti non consentita, è necessario inserire prima le direttive <code>Allow</code>, seguite da <code>Disallow</code>, ad esempio: