Protocollo di esclusione robot: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Etichette: Annullato Modifica visuale |
Annullata la modifica 132965199 di 151.95.236.204 (discussione) Etichetta: Annulla |
||
Riga 88:
=== Consenti direttiva ===
Alcuni dei principali crawler supportano una direttiva <code>Allow</code>, che può contrastare una direttiva <code>Disallow</code><ref>{{cita web|url=https://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156449&from=40364|titolo=Webmaster Help Center - How do I block Googlebot?|accesso=20 novembre 2007|urlarchivio=https://web.archive.org/web/20100801082008/http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156449&from=40364|dataarchivio=1º agosto 2010|urlmorto=no}}</ref><ref>{{cita web|url=http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-02.html|titolo=How do I prevent my site or certain subdirectories from being crawled? - Yahoo Search Help|accesso=20 novembre 2007|urlarchivio=https://web.archive.org/web/20071013014215/http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-02.html|dataarchivio=13 ottobre 2007|urlmorto=no}}</ref> successiva. Ciò è utile quando si dice ai robot di evitare un'intera directory ma si desidera comunque che alcuni documenti HTML in quella directory vengano sottoposti a scansione e indicizzati. Mentre per l'implementazione standard vince sempre il primo pattern robots.txt corrispondente, l'implementazione di Google differisce in quanto Consenti ai pattern con caratteri uguali o superiori nel percorso della direttiva di vincere su un pattern Disallow corrispondente<ref>{{cita web|url=http://blog.semetrical.com/googles-secret-approach-to-robots-txt/|titolo=Google's Hidden Interpretation of Robots.txt|accesso=15 novembre 2010|urlarchivio=https://web.archive.org/web/20101120023619/http://blog.semetrical.com/googles-secret-approach-to-robots-txt/|dataarchivio=20 novembre 2010|urlmorto=no}}</ref>. Bing utilizza la direttiva <code>Allow</code>o <code>Disallow</code>, a seconda di quale sia più specifica, in base alla lunghezza, come Google<ref name="bing-blog-robots2"/>.
Per essere compatibile con tutti i robot, se si desidera consentire singoli file all'interno di una directory altrimenti non consentita, è necessario inserire prima le direttive Allow, seguite da Disallow, ad esempio:
|