Web scraping: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Elimino doppie spaziature |
Funzionalità collegamenti suggeriti: 1 collegamento inserito. |
||
(6 versioni intermedie di 6 utenti non mostrate) | |||
Riga 3:
Strettamente correlato all'[[indicizzazione (motori di ricerca)|indicizzazione]] dei siti [[Internet]], tale tecnica è attuata mediante l'uso di [[Bot (informatica)|bot]] dalla maggior parte dei [[Motore di ricerca|motori di ricerca]]. D'altro canto, il web scraping si concentra di più sulla trasformazione di [[Dato|dati]] non strutturati presenti in Rete, di solito in formato [[HTML]], in [[Metadato|metadati]] che possono essere memorizzati e analizzati in locale in un [[database]]. Il web harvesting è altresì affine alla [[web automation]], che consiste nella simulazione della navigazione umana in Rete attraverso l'uso di software per [[computer]].
Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping
==Tecniche==
Riga 32:
===Text pattern matching===
Approccio semplice ma efficace per estrarre informazioni dalle pagine web. Può essere usato tramite il comando "grep" da riga di comando nei sistemi [[Unix|UNIX]] o attraverso le funzioni di expression-matching comuni dei [[Linguaggio di programmazione|linguaggi di programmazione]] (per esempio [[Perl]] o [[Python]]).
== L'economia del web scraping ==
Riga 78:
*[[OpenSocial]]
*[[Spamdexing]]
==Altri progetti==
{{interprogetto}}
==Collegamenti esterni==
|