Web scraping: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m →L'economia del web scraping: clean up, replaced: lingua=en-US → lingua=en |
m clean up |
||
Riga 41:
''"Se i tuoi contenuti possono essere visualizzati sul Web, possono essere 'raschiati'"'' (originale: ''"If your content can be viewed on the web, it can be scraped"'')<ref>{{Cita web|url=https://www.helpnetsecurity.com/2016/08/31/web-scraping-economy/|titolo=Ubiquity and danger: The web scraping economy|nome=Rami Essaid, CEO di Distil Networks}}</ref>
Il 38% delle aziende che si dedicano al web scraping lo fa per ottenere contenuti. Poiché grazie alla mole di dati facilmente acquisibile è possibile effettuare una vasta gamma di operazioni come, il confronto prezzi, il monitoraggio dei dati meteorologici e svariate ricerche. I servizi di Web scraping costano solo 3,33 $ all'ora. In media un progetto di web scraping costa all'incirca 135 $. Il web scraper medio guadagna {{m|58000|u=$}} all'anno, mentre lavorando in un'azienda medio-grande specializzata nel web scraping si può arrivare fino a {{m|128000|u=$}} all'anno.<ref>{{Cita news|lingua=en|url=https://www.helpnetsecurity.com/2016/08/31/web-scraping-economy/|titolo=Ubiquity and danger: The web scraping economy - Help Net Security|pubblicazione=Help Net Security|data=
== Metodi per prevenire il web scraping ==
Riga 50:
* Monitorare l'eccesso di traffico può aiutare a bloccare alcuni bot.
* Utilizzare tool come [[CAPTCHA]] che permettono di verificare se è stata una persona reale ad accedere ad un sito web. Se questo non fosse vero si tratterebbe quindi di un bot e CAPTCHA lo bloccherebbe. A volte però i bot sono codificati in modo tale da bloccare CAPTCHA o utilizzare servizi di terze parti che sfruttano il lavoro umano per leggere e rispondere in tempo reale alle sfide di CAPTCHA.
* Utilizzare servizi anti-bot commerciali: le aziende offrono ai siti web servizi anti-bot e anti-scraping.<ref>{{Cita libro|titolo=Come si forma e funziona una mente|url=https://www.impossible.sg/our-services/social-media-marketing/|accesso=
* Individuare i bot tramite gli [[honeypot]] o attraverso un altro metodo di identificazione di indirizzi IP dei [[crawler]] automatici.
* Aggiungere piccole variazioni di HTML/CSS per circondare dati importanti ed elementi di navigazione. Facendo ciò sarà necessario richiedere maggior coinvolgimento umano per la configurazione iniziale di un bot, questo perché essi si affidano alla consistenza del codice front-end del sito di destinazione. Se eseguito in maniera corretta si potrebbe rendere il sito web di destinazione troppo difficile da "raschiare" a causa della ridotta capacità di automatizzazione del processo di web scraping.
|