Web scraping: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m clean up |
Funzionalità collegamenti suggeriti: 1 collegamento inserito. |
||
(7 versioni intermedie di 7 utenti non mostrate) | |||
Riga 3:
Strettamente correlato all'[[indicizzazione (motori di ricerca)|indicizzazione]] dei siti [[Internet]], tale tecnica è attuata mediante l'uso di [[Bot (informatica)|bot]] dalla maggior parte dei [[Motore di ricerca|motori di ricerca]]. D'altro canto, il web scraping si concentra di più sulla trasformazione di [[Dato|dati]] non strutturati presenti in Rete, di solito in formato [[HTML]], in [[Metadato|metadati]] che possono essere memorizzati e analizzati in locale in un [[database]]. Il web harvesting è altresì affine alla [[web automation]], che consiste nella simulazione della navigazione umana in Rete attraverso l'uso di software per [[computer]].
Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping
==Tecniche==
Riga 32:
===Text pattern matching===
Approccio semplice ma efficace per estrarre informazioni dalle pagine web. Può essere usato tramite il comando "grep" da riga di comando nei sistemi [[Unix|UNIX]] o attraverso le funzioni di expression-matching comuni dei [[Linguaggio di programmazione|linguaggi di programmazione]] (per esempio [[Perl]] o [[Python]]).
== L'economia del web scraping ==
Riga 41:
''"Se i tuoi contenuti possono essere visualizzati sul Web, possono essere 'raschiati'"'' (originale: ''"If your content can be viewed on the web, it can be scraped"'')<ref>{{Cita web|url=https://www.helpnetsecurity.com/2016/08/31/web-scraping-economy/|titolo=Ubiquity and danger: The web scraping economy|nome=Rami Essaid, CEO di Distil Networks}}</ref>
Il 38% delle aziende che si dedicano al web scraping lo fa per ottenere contenuti. Poiché grazie alla mole di dati facilmente acquisibile è possibile effettuare una vasta gamma di operazioni come, il confronto prezzi, il monitoraggio dei dati meteorologici e svariate ricerche. I servizi di Web scraping costano solo 3,33 $
== Metodi per prevenire il web scraping ==
Riga 78:
*[[OpenSocial]]
*[[Spamdexing]]
==Altri progetti==
{{interprogetto}}
==Collegamenti esterni==
|