Protocollo di esclusione robot: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m Bot: numeri di pagina nei template citazione |
Recupero di 1 fonte/i e segnalazione di 0 link interrotto/i.) #IABot (v2.0.9.5 |
||
Riga 11:
Un file robots.txt copre un'origine. Per i siti web con più sottodomini, ogni sottodominio deve avere il proprio file robots.txt. Se example.com avesse un file robots.txt ma a.example.com no, le regole che si applicherebbero per example.com non si applicherebbero a a.example.com. Inoltre, ogni protocollo e porta necessita del proprio file robots.txt; <nowiki>http://example.com/robots.txt</nowiki> non si applica alle pagine in <nowiki>http://example.com:8080/</nowiki> o <nowiki>https://example.com/</nowiki>.
Alcuni dei principali motori di ricerca che seguono questo standard includono [[Ask.com|Ask]]<ref name="ask-webmasters">{{cita web|titolo=About Ask.com: Webmasters|url=http://about.ask.com/docs/about/webmasters.shtml|sito=About.ask.com|accesso=16 febbraio 2013}}</ref>, [[AOL Search|AOL]]<ref name="about-aol-search">{{cita web|titolo=About AOL Search|url=http://search.aol.com/aol/about|sito=Search.aol.com|accesso=16 febbraio 2013|dataarchivio=13 dicembre 2012|urlarchivio=https://web.archive.org/web/20121213134546/http://search.aol.com/aol/about|urlmorto=sì}}</ref>, [[Baidu]]<ref name="baidu-spider">{{cita web|titolo=Baiduspider|url=http://www.baidu.com/search/spider_english.html|sito=Baidu.com|accesso=16 febbraio 2013|dataarchivio=6 agosto 2013|urlarchivio=https://web.archive.org/web/20130806131031/http://www.baidu.com/search/spider_english.html|urlmorto=sì}}</ref>, [[DuckDuckGo]]<ref name="duckduckgo-bot">{{cita web|url=https://duckduckgo.com/duckduckbot|sito=DuckDuckGo.com|titolo=DuckDuckGo Bot|accesso=25 aprile 2017}}</ref>, [[Google]]<ref name="google-webmasters-spec2">{{cita web|url=https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt|titolo=Webmasters: Robots.txt Specifications|opera=Google Developers|accesso=16 febbraio 2013|urlarchivio=https://web.archive.org/web/20130115214137/https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt|dataarchivio=15 gennaio 2013|urlmorto=no}}</ref>, [[Yahoo!]]<ref name="yahoo-search-is-bing">{{cita web|url=http://help.yahoo.com/kb/index?page=content&y=PROD_SRCH&locale=en_US&id=SLN2217&impressions=true|titolo=Submitting your website to Yahoo! Search|accesso=16 febbraio 2013|urlarchivio=https://web.archive.org/web/20130121035801/http://help.yahoo.com/kb/index?page=content&y=PROD_SRCH&locale=en_US&id=SLN2217&impressions=true|dataarchivio=21 gennaio 2013|urlmorto=no}}</ref>, e [[Yandex.Browser|Yandex]]<ref name="yandex-robots2">{{cita web|url=http://help.yandex.com/webmaster/?id=1113851|titolo=Using robots.txt|sito=Help.yandex.com|accesso=16 febbraio 2013|urlarchivio=https://web.archive.org/web/20130125040017/http://help.yandex.com/webmaster/?id=1113851|dataarchivio=25 gennaio 2013|urlmorto=no}}</ref>. [[Bing]] non è completamente compatibile con lo standard in quanto non può ereditare le impostazioni dal carattere jolly (<code>*</code>)<ref name="bing-blog-robots2">{{cita web|url=https://blogs.bing.com/webmaster/2008/06/03/robots-exclusion-protocol-joining-together-to-provide-better-documentation/|titolo=Robots Exclusion Protocol: joining together to provide better documentation|sito=Blogs.bing.com|urlarchivio=https://web.archive.org/web/20140818025412/http://blogs.bing.com/webmaster/2008/06/03/robots-exclusion-protocol-joining-together-to-provide-better-documentation/|dataarchivio=18 agosto 2014|urlmorto=no|accesso=16 febbraio 2013}}</ref>.
Il gruppo di volontari Archive Team ignora esplicitamente e abitualmente il file robots.txt, considerandolo uno standard obsoleto che ostacola gli sforzi di archiviazione web. Secondo il responsabile del progetto Jason Scott, "deselezionato e lasciato da solo, il file robots.txt non garantisce il mirroring o il riferimento per elementi che potrebbero avere un uso generale e un significato al di fuori del contesto del sito web"<ref>{{cita web|url=http://www.archiveteam.org/index.php?title=Robots.txt|editore=Archive Team|titolo=Robots.txt is a suicide note|autore=Jason Scott|accesso=18 febbraio 2017|urlarchivio=https://web.archive.org/web/20170218044527/http://www.archiveteam.org/index.php?title=Robots.txt|dataarchivio=18 febbraio 2017|urlmorto=no|linkautore=Jason Scott}}</ref>.
|