Web scraping: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 15:29, 26 gen 2024 modifica 82.53.101.111 (discussione) Nessun oggetto della modifica Etichetta: Modifica visuale ← Differenza precedente		Versione attuale delle 12:27, 30 gen 2025 modifica annulla Master CarlRoy (discussione \| contributi) 527 modifiche Funzionalità collegamenti suggeriti: 1 collegamento inserito. Etichette: Modifica visuale Attività per i nuovi utenti Suggerito: aggiungi collegamenti
(9 versioni intermedie di 8 utenti non mostrate)
Riga 3: Strettamente correlato all'[[indicizzazione (motori di ricerca)\|indicizzazione]] dei siti [[Internet]], tale tecnica è attuata mediante l'uso di [[Bot (informatica)\|bot]] dalla maggior parte dei [[Motore di ricerca\|motori di ricerca]]. D'altro canto, il web scraping si concentra di più sulla trasformazione di [[Dato\|dati]] non strutturati presenti in Rete, di solito in formato [[HTML]], in [[Metadato\|metadati]] che possono essere memorizzati e analizzati in locale in un [[database]]. Il web harvesting è altresì affine alla [[web automation]], che consiste nella simulazione della navigazione umana in Rete attraverso l'uso di software per [[computer]]. Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping ~~'''~~,~~'''~~ come ad esempio rilevare e impedire ai [[Bot (informatica)\|bot]] la visualizzazione delle loro pagine. Per aggirare il problema esistono sistemi di web scraping che si affidano a tecniche come [[Document Object Model\|DOM]] parsing, [[Visione artificiale\|Computer Vision]] e [[Elaborazione del linguaggio naturale\|natural language processing]] per simulare la navigazione web umana. Grazie a queste tecniche è possibile raccogliere i contenuti delle pagine web per l'analisi offline.<ref name="webopedia">{{cita web\|url=http://www.webopedia.com/TERM/W/Web_Scraping.html\|titolo=Web Scraping (su webopedia.com)\|lingua=en\|accesso=17 dicembre 2012\|urlarchivio=https://www.webcitation.org/6CzH9u4z8?url=http://www.webopedia.com/TERM/W/Web_Scraping.html\|dataarchivio=17 dicembre 2012\|urlmorto=no}}</ref> Può essere usato per confrontare prezzi online, monitorare dati meteorologici, rilevare modifiche in un sito internet, nella [[ricerca scientifica]], per il [[mash-up (informatica)\|web mashup]] e il [[data integration (informatica)\|web data integration]]. ==Tecniche== Riga 32: ===Text pattern matching=== Approccio semplice ma efficace per estrarre informazioni dalle pagine web. Può essere usato tramite il comando "grep" da riga di comando nei sistemi [[Unix\|UNIX]] o attraverso le funzioni di expression-matching comuni dei [[Linguaggio di programmazione\|linguaggi di programmazione]] (per esempio [[Perl]] o [[Python]]). == L'economia del web scraping == Riga 41: ''"Se i tuoi contenuti possono essere visualizzati sul Web, possono essere 'raschiati'"'' (originale: ''"If your content can be viewed on the web, it can be scraped"'')<ref>{{Cita web\|url=https://www.helpnetsecurity.com/2016/08/31/web-scraping-economy/\|titolo=Ubiquity and danger: The web scraping economy\|nome=Rami Essaid, CEO di Distil Networks}}</ref> Il 38% delle aziende che si dedicano al web scraping lo fa per ottenere contenuti. Poiché grazie alla mole di dati facilmente acquisibile è possibile effettuare una vasta gamma di operazioni come, il confronto prezzi, il monitoraggio dei dati meteorologici e svariate ricerche. I servizi di Web scraping costano solo 3,33 $ all'ora. In media un progetto di web scraping costa all'incirca 135 $. Il web scraper medio guadagna {{m\|58000\|u=$}} all'anno, mentre lavorando in un'azienda medio-grande specializzata nel web scraping si può arrivare fino a {{m\|128000\|u=$}} all'anno.<ref>{{Cita news\|lingua=en~~-US~~\|url=https://www.helpnetsecurity.com/2016/08/31/web-scraping-economy/\|titolo=Ubiquity and danger: The web scraping economy - Help Net Security\|pubblicazione=Help Net Security\|data=31 agosto 2016~~-08-31~~\|accesso=28 dicembre 2017~~-12-28~~}}</ref> == Metodi per prevenire il web scraping == Riga 50: * Monitorare l'eccesso di traffico può aiutare a bloccare alcuni bot. * Utilizzare tool come [[CAPTCHA]] che permettono di verificare se è stata una persona reale ad accedere ad un sito web. Se questo non fosse vero si tratterebbe quindi di un bot e CAPTCHA lo bloccherebbe. A volte però i bot sono codificati in modo tale da bloccare CAPTCHA o utilizzare servizi di terze parti che sfruttano il lavoro umano per leggere e rispondere in tempo reale alle sfide di CAPTCHA. * Utilizzare servizi anti-bot commerciali: le aziende offrono ai siti web servizi anti-bot e anti-scraping.<ref>{{Cita libro\|titolo=Come si forma e funziona una mente\|url=https://www.impossible.sg/our-services/social-media-marketing/\|accesso=~~2024-01-~~26 gennaio 2024\|editore=impossible\|pp=\|ISBN=}}</ref> * Individuare i bot tramite gli [[honeypot]] o attraverso un altro metodo di identificazione di indirizzi IP dei [[crawler]] automatici. * Aggiungere piccole variazioni di HTML/CSS per circondare dati importanti ed elementi di navigazione. Facendo ciò sarà necessario richiedere maggior coinvolgimento umano per la configurazione iniziale di un bot, questo perché essi si affidano alla consistenza del codice front-end del sito di destinazione. Se eseguito in maniera corretta si potrebbe rendere il sito web di destinazione troppo difficile da "raschiare" a causa della ridotta capacità di automatizzazione del processo di web scraping. Riga 78: [[OpenSocial]] [[Spamdexing]] ==Altri progetti== {{interprogetto}} ==Collegamenti esterni==