Web scraping: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Elimino doppie spaziature
Funzionalità collegamenti suggeriti: 1 collegamento inserito.
 
(6 versioni intermedie di 6 utenti non mostrate)
Riga 3:
Strettamente correlato all'[[indicizzazione (motori di ricerca)|indicizzazione]] dei siti [[Internet]], tale tecnica è attuata mediante l'uso di [[Bot (informatica)|bot]] dalla maggior parte dei [[Motore di ricerca|motori di ricerca]]. D'altro canto, il web scraping si concentra di più sulla trasformazione di [[Dato|dati]] non strutturati presenti in Rete, di solito in formato [[HTML]], in [[Metadato|metadati]] che possono essere memorizzati e analizzati in locale in un [[database]]. Il web harvesting è altresì affine alla [[web automation]], che consiste nella simulazione della navigazione umana in Rete attraverso l'uso di software per [[computer]].
 
Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping ''',''' come ad esempio rilevare e impedire ai [[Bot (informatica)|bot]] la visualizzazione delle loro pagine. Per aggirare il problema esistono sistemi di web scraping che si affidano a tecniche come [[Document Object Model|DOM]] parsing, [[Visione artificiale|Computer Vision]] e [[Elaborazione del linguaggio naturale|natural language processing]] per simulare la navigazione web umana. Grazie a queste tecniche è possibile raccogliere i contenuti delle pagine web per l'analisi offline.<ref name="webopedia">{{cita web|url=http://www.webopedia.com/TERM/W/Web_Scraping.html|titolo=Web Scraping (su webopedia.com)|lingua=en|accesso=17 dicembre 2012|urlarchivio=https://www.webcitation.org/6CzH9u4z8?url=http://www.webopedia.com/TERM/W/Web_Scraping.html|dataarchivio=17 dicembre 2012|urlmorto=no}}</ref> Può essere usato per confrontare prezzi online, monitorare dati meteorologici, rilevare modifiche in un sito internet, nella [[ricerca scientifica]], per il [[mash-up (informatica)|web mashup]] e il [[data integration (informatica)|web data integration]].
 
==Tecniche==
Riga 32:
 
===Text pattern matching===
Approccio semplice ma efficace per estrarre informazioni dalle pagine web. Può essere usato tramite il comando "grep" da riga di comando nei sistemi [[Unix|UNIX]] o attraverso le funzioni di expression-matching comuni dei [[Linguaggio di programmazione|linguaggi di programmazione]] (per esempio [[Perl]] o [[Python]]).
 
== L'economia del web scraping ==
Riga 78:
*[[OpenSocial]]
*[[Spamdexing]]
 
==Altri progetti==
{{interprogetto}}
 
==Collegamenti esterni==