Web scraping: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 18:34, 12 lug 2024 modifica Michi81 (discussione \| contributi) Utenti autoverificati 242 300 modifiche Elimino doppie spaziature ← Differenza precedente		Versione attuale delle 12:27, 30 gen 2025 modifica annulla Master CarlRoy (discussione \| contributi) 527 modifiche Funzionalità collegamenti suggeriti: 1 collegamento inserito. Etichette: Modifica visuale Attività per i nuovi utenti Suggerito: aggiungi collegamenti
(6 versioni intermedie di 6 utenti non mostrate)
Riga 3: Strettamente correlato all'[[indicizzazione (motori di ricerca)\|indicizzazione]] dei siti [[Internet]], tale tecnica è attuata mediante l'uso di [[Bot (informatica)\|bot]] dalla maggior parte dei [[Motore di ricerca\|motori di ricerca]]. D'altro canto, il web scraping si concentra di più sulla trasformazione di [[Dato\|dati]] non strutturati presenti in Rete, di solito in formato [[HTML]], in [[Metadato\|metadati]] che possono essere memorizzati e analizzati in locale in un [[database]]. Il web harvesting è altresì affine alla [[web automation]], che consiste nella simulazione della navigazione umana in Rete attraverso l'uso di software per [[computer]]. Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping ~~'''~~,~~'''~~ come ad esempio rilevare e impedire ai [[Bot (informatica)\|bot]] la visualizzazione delle loro pagine. Per aggirare il problema esistono sistemi di web scraping che si affidano a tecniche come [[Document Object Model\|DOM]] parsing, [[Visione artificiale\|Computer Vision]] e [[Elaborazione del linguaggio naturale\|natural language processing]] per simulare la navigazione web umana. Grazie a queste tecniche è possibile raccogliere i contenuti delle pagine web per l'analisi offline.<ref name="webopedia">{{cita web\|url=http://www.webopedia.com/TERM/W/Web_Scraping.html\|titolo=Web Scraping (su webopedia.com)\|lingua=en\|accesso=17 dicembre 2012\|urlarchivio=https://www.webcitation.org/6CzH9u4z8?url=http://www.webopedia.com/TERM/W/Web_Scraping.html\|dataarchivio=17 dicembre 2012\|urlmorto=no}}</ref> Può essere usato per confrontare prezzi online, monitorare dati meteorologici, rilevare modifiche in un sito internet, nella [[ricerca scientifica]], per il [[mash-up (informatica)\|web mashup]] e il [[data integration (informatica)\|web data integration]]. ==Tecniche== Riga 32: ===Text pattern matching=== Approccio semplice ma efficace per estrarre informazioni dalle pagine web. Può essere usato tramite il comando "grep" da riga di comando nei sistemi [[Unix\|UNIX]] o attraverso le funzioni di expression-matching comuni dei [[Linguaggio di programmazione\|linguaggi di programmazione]] (per esempio [[Perl]] o [[Python]]). == L'economia del web scraping == Riga 78: [[OpenSocial]] [[Spamdexing]] ==Altri progetti== {{interprogetto}} ==Collegamenti esterni==