Data integration: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica |
fix |
||
Riga 1:
La [[locuzione]] '''data integration''' si riferisce ai processi da attuare su [[dati]] provenienti da diverse sorgenti [[informazione|informative]] per fornire all'utente una visione unificata di quei dati.<ref name="
{{Cita conferenza|autore=[[Maurizio Lenzerini]] |articolo=Data Integration: A Theoretical Perspective |titolo=PODS 2002 |anno=2002 |pp=233–246 |url=http://www.dis.uniroma1.it/~lenzerin/homepagine/talks/TutorialPODS02.pdf}}</ref>▼
== Storia ==
[[File:DataWarehouse.png|thumb|right|Figura 1: Semplice diagramma di un data warehouse. Il processo [[Extract, transform, load|ETL]] estrae informazioni dai database sorgenti, le trasforma e le carica nel data warehouse.]]
Riga 50 ⟶ 49:
I database rimaneggiati supportano vincoli di omogeneità in cui l'integrità referenziale può essere forzata tra database. Inoltre questi database rimodellati forniscono vie di accesso ai dati progettati con omogeneità di valori tra database.
== Teoria dell'integrazione dei dati ==
La teoria dell'integrazione dei dati costituisce un sottoinsieme della teoria delle basi di dati e formalizza i concetti di fondo del problema attraverso la [[logica del primo ordine]].
Applicando le teorie dà indicazione circa la fattibilità e la difficoltà di integrazione. Nonostante le sue teorie possano apparire astratte, esse godono di sufficiente generalità per adattarsi a tutti i sistemi di integrazione,<ref>{{Cita web|url=https://link.springer.com/chapter/10.1007/3-540-46093-4_14 |titolo=A Model Theory for Generic Schema Management}}</ref> compresi quelli che includono relazionale nidificato o [[Database XML|basi di dati XML]]<ref>{{Cita web|url=http://www.vldb.org/conf/2006/p67-fuxman.pdf |titolo=Nested Mappings: Schema Mapping Reloaded }}</ref> e quelli che trattano i database come programmi<ref>{{Cita web|url=http://homepages.inf.ed.ac.uk/dts/pub/psi.pdf |titolo=The Common Framework Initiative for algebraic specification and development of software}}</ref>.
Le connessioni a particolari [[DBMS]] quali [[Oracle Database|Oracle]] o [[IBM DB2|DB2]] sono fornite dalle tecnologie a livello di implementazione, come [[JDBC]], e non sono studiate a livello teorico.
=== Definizioni ===
I sistemi di ''data integration'' sono formalmente definiti da una [[tripla]] <math>\left \langle G,S,M\right \rangle</math> dove <math>G</math> è lo schema globale, <math>S</math> è l'insieme eterogeneo degli schemi sorgente, e <math>M</math> è la mappatura che associa ''query'' tra le sorgenti e lo schema globale. Entrambi <math>G</math> e <math>S</math> sono espresse in [[Linguaggio formale|linguaggio]] su alfabeti composti da simboli per ognuna delle rispettive [[Database relazionale|relazioni]]. La [[Predicato funzionale|mappatura]] <math>M</math> consiste di asserzioni tra ''query'' su <math>G</math> e ''query'' su <math>S</math>. Quando gli utenti pongono un'interrogazione sul sistema di ''data integration'', essi pongono interrogazioni su <math>G</math> e la mappatura sostiene le connessioni tra gli elementi nello schema globale e negli schemi sorgenti.
Riga 70 ⟶ 69:
Consideriamo ancora che una delle fonti serva un sito web meteorologico: il progettista dovrebbe aggiungere allo schema globale elementi corrispondenti al meteo solo se non esistessero già. Poi i programmatori scriverebbero un [[Adapter pattern|adapter]] o un [[wrapper]] per il sito e aggiungerebbero una descrizione dello schema dei risultati del sito agli schemi sorgenti. La complessità di aggiungere nuove sorgenti si sposta dal progettista all'elaboratore di ''query''.
=== Elaborazione di ''query'' ===
La teoria dell'elaborazione di ''query'' in un sistema di ''data integration'' systems è comunemente espressa utilizzando interrogazioni congiuntive [[Linguaggio di interrogazione|interrogazioni]] e [[Datalog]], un linguaggio di [[programmazione logica]] puramente dichiarativo.<ref name="reffive">{{Cita conferenza|autore=[[Jeffrey D. Ullman]] |articolo=Information Integration Using Logical Views |titolo=ICDT 1997 |anno=1997 |pp=19–40 |url=http://www-db.stanford.edu/pub/papers/integration-using-views.ps}}</ref> Si può liberamente pensare ad una query come una funzione logica applicata alle relazioni del database come "<math>f(A,B)</math> dove <math>A < B</math>". Se una tupla o insieme di tuple è sostituito nella regole e la soddisfa (cioè la rende vera), allora consideriamo quella tupla parte dell'insieme di risposte alla ''query''. Mentre il linguaggi formali in stile [[Datalog]] esprimono queste ''query'' sinteticamente e senza ambiguità, anche le ''query'' [[SQL]] comuni contano come ''query'' congiuntive.
Riga 104 ⟶ 103:
* WinPure<ref>{{cita web|https://www.winpure.com|WinPure|lingua=en}}</ref>
== ''Data integration'' nella vita scientifica ==
Interrogativi scientifici su larga scala, come il riscaldamento globale, la diffusione di specie infestanti e l'esaurimento delle risorse richiedono sempre più la raccolta di dati eterogenei per la meta-analisi. Questo tipo di integrazione è particolarmente impegnativa per i dati ambientali ed ecologici, perché gli standard sui metadati non concordati e ci sono molti tipi diversi di dati prodotti in questi campi. Le iniziative della [[National Science Foundation]] come Datanet hanno lo scopo di facilitare agli scienziati l'integrazione dei dati, fornendo infrastrutture informatiche e impostazioni standard.
Le cinque iniziative Datanet finanziate sono:
Riga 115 ⟶ 114:
Il progetto OpenPHACTS, finanziato attraverso l'Iniziativa su Medicinali Innovativi dell'[[Unione europea]], ha costruito una piattaforma di scoperta di nuovi farmaci collegando dataset da parte di fornitori come l'[[Istituto europeo di bioinformatica]], la [[Royal Society of Chemistry]], la [[UniProt]], WikiPathways e la [[DrugBank]].
== Note ==
<references/>
==
▲* {{Cita conferenza|autore=[[Maurizio Lenzerini]]
== Voci correlate ==
* [[Base di dati]]
* [[Dato]]
|