Web sommerso

quasi tutta la porzione del World Wide Web non indicizzata dai normali motori di ricerca
Versione del 6 apr 2014 alle 23:36 di Randomrandomrandom (discussione | contributi) (aggiunti riferimenti a Tor)

Il Web invisibile (conosciuto anche come Web sommerso) è l'insieme delle risorse informative del World Wide Web non segnalate dai normali motori di ricerca.

Secondo una ricerca sulle dimensioni della rete condotta nel 2000 da Bright Planet[1], un'organizzazione degli Stati Uniti d'America, il Web è costituito da oltre 550 miliardi di documenti mentre Google ne indicizza solo 2 miliardi, ossia meno dell'uno per cento.

Composizione

I documenti che fanno parte del Web invisibile possono essere suddivisi nelle seguenti categorie:

  • contenuti dinamici: pagine web dinamiche, ovvero pagine Web il cui contenuto viene generato sul momento dal server, che possono essere richiamati solo compilando un form o a risposta di una particolare richiesta;
  • pagine non collegate: pagine Web che non sono collegate a nessun'altra pagina Web. Se l'accesso non è impedito da adeguate impostazioni di sicurezza, il motore indicizza la parent directory del sito, che contiene non solo le pagini visibili, ma tutto ciò che è caricato nel server ospitante;
  • pagine ad accesso ristretto: siti che richiedono una registrazione o comunque limitano l'accesso alle loro pagine impedendo che i motori di ricerca possano accedervi;
  • script: pagine che possono essere raggiunte solo attraverso link realizzati in javascript o in Flash e che quindi richiedono procedure particolari;
  • contenuti non di testo: file multimediali, archivi Usenet, documenti scritti in linguaggio non HTML, in particolare non collegati a tag testuali (tuttavia alcuni motori di ricerca come Google sono in grado di ricercare anche documenti di questo tipo).

Accesso al Web invisibile

I normali motori di ricerca per trovare i contenuti del Web usano dei software, chiamati "crawler", che seguono gli hyperlink. Questa tecnica si rivela inefficace per ritrovare le risorse del Web nascosto. Per esempio i Web-crawler non sono in grado di interrogare un database di una pagina dinamica dato il numero infinito di termini che si potrebbero ricercare.

Per scavare nel Web invisibile si utilizzano Web-crawler che interrogano questi database con alcuni termini forniti dall'utente o facente parti di un proprio database interno oppure procedendo con una ricerca per soggetto come fanno i motori di ricerca focalizzati su un dato argomento. In questo modo, avendo un campo più ristretto, è possibile andare più in fondo interrogando database di pagine dinamiche o ad accesso ristretto altrimenti non raggiungibili.

I motori di ricerca non indicizzano siti a pagamento, alcuni formati come i siti interamente realizzati in Flash, i fogli di calcolo, i video non collegati a tag e i database.

I Tor Hidden Services possono essere acceduti tramite il software Tor Tor o attraverso l'uso di proxy server Tor2web.

Note

Voci correlate

Collegamenti esterni

  Portale Web: accedi alle voci di Wikipedia che trattano di Web