Web scraping: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 14:32, 25 giu 2024 modifica Egidio24 (discussione \| contributi) Utenti autoverificati 297 706 modifiche m clean up Etichetta: AWB ← Differenza precedente		Versione attuale delle 12:27, 30 gen 2025 modifica annulla Master CarlRoy (discussione \| contributi) 527 modifiche Funzionalità collegamenti suggeriti: 1 collegamento inserito. Etichette: Modifica visuale Attività per i nuovi utenti Suggerito: aggiungi collegamenti
(7 versioni intermedie di 7 utenti non mostrate)
Riga 3: Strettamente correlato all'[[indicizzazione (motori di ricerca)\|indicizzazione]] dei siti [[Internet]], tale tecnica è attuata mediante l'uso di [[Bot (informatica)\|bot]] dalla maggior parte dei [[Motore di ricerca\|motori di ricerca]]. D'altro canto, il web scraping si concentra di più sulla trasformazione di [[Dato\|dati]] non strutturati presenti in Rete, di solito in formato [[HTML]], in [[Metadato\|metadati]] che possono essere memorizzati e analizzati in locale in un [[database]]. Il web harvesting è altresì affine alla [[web automation]], che consiste nella simulazione della navigazione umana in Rete attraverso l'uso di software per [[computer]]. Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping ~~'''~~,~~'''~~ come ad esempio rilevare e impedire ai [[Bot (informatica)\|bot]] la visualizzazione delle loro pagine. Per aggirare il problema esistono sistemi di web scraping che si affidano a tecniche come [[Document Object Model\|DOM]] parsing, [[Visione artificiale\|Computer Vision]] e [[Elaborazione del linguaggio naturale\|natural language processing]] per simulare la navigazione web umana. Grazie a queste tecniche è possibile raccogliere i contenuti delle pagine web per l'analisi offline.<ref name="webopedia">{{cita web\|url=http://www.webopedia.com/TERM/W/Web_Scraping.html\|titolo=Web Scraping (su webopedia.com)\|lingua=en\|accesso=17 dicembre 2012\|urlarchivio=https://www.webcitation.org/6CzH9u4z8?url=http://www.webopedia.com/TERM/W/Web_Scraping.html\|dataarchivio=17 dicembre 2012\|urlmorto=no}}</ref> Può essere usato per confrontare prezzi online, monitorare dati meteorologici, rilevare modifiche in un sito internet, nella [[ricerca scientifica]], per il [[mash-up (informatica)\|web mashup]] e il [[data integration (informatica)\|web data integration]]. ==Tecniche== Riga 32: ===Text pattern matching=== Approccio semplice ma efficace per estrarre informazioni dalle pagine web. Può essere usato tramite il comando "grep" da riga di comando nei sistemi [[Unix\|UNIX]] o attraverso le funzioni di expression-matching comuni dei [[Linguaggio di programmazione\|linguaggi di programmazione]] (per esempio [[Perl]] o [[Python]]). == L'economia del web scraping == Riga 41: ''"Se i tuoi contenuti possono essere visualizzati sul Web, possono essere 'raschiati'"'' (originale: ''"If your content can be viewed on the web, it can be scraped"'')<ref>{{Cita web\|url=https://www.helpnetsecurity.com/2016/08/31/web-scraping-economy/\|titolo=Ubiquity and danger: The web scraping economy\|nome=Rami Essaid, CEO di Distil Networks}}</ref> Il 38% delle aziende che si dedicano al web scraping lo fa per ottenere contenuti. Poiché grazie alla mole di dati facilmente acquisibile è possibile effettuare una vasta gamma di operazioni come, il confronto prezzi, il monitoraggio dei dati meteorologici e svariate ricerche. I servizi di Web scraping costano solo 3,33 $ all'ora. In media un progetto di web scraping costa all'incirca 135 $. Il web scraper medio guadagna {{m\|58000\|u=$}} all'anno, mentre lavorando in un'azienda medio-grande specializzata nel web scraping si può arrivare fino a {{m\|128000\|u=$}} all'anno.<ref>{{Cita news\|lingua=en\|url=https://www.helpnetsecurity.com/2016/08/31/web-scraping-economy/\|titolo=Ubiquity and danger: The web scraping economy - Help Net Security\|pubblicazione=Help Net Security\|data=31 agosto 2016\|accesso=28 dicembre 2017}}</ref> == Metodi per prevenire il web scraping == Riga 78: [[OpenSocial]] [[Spamdexing]] ==Altri progetti== {{interprogetto}} ==Collegamenti esterni==