Versione delle 02:35, 10 mar 2019 modifica Vitalij zad (discussione \| contributi) 1 030 modifiche Altri strumenti e formati più usati per files su HDFS ← Differenza precedente		Versione delle 00:41, 11 mar 2019 modifica annulla Vitalij zad (discussione \| contributi) 1 030 modifiche Elaborazione e gestione dei dati Differenza successiva →
Riga 34: '''Elaborazione dati''' * [[Apache Spark]], il motore di elaborazione che, nella maggior parte dei casi, è nettamente più veloce di MapReduce; Quando nacque Hadoop, l'unico modo di realizzare applicativi di elaborazione dati era MapReduce, che richiede di scrivere molto codice Java anche per le attività più semplici. Col passare degli anni, vennero inventate librerie come [https://www.cascading.org/ Cascading] e [http://crunch.apache.org/ Apache Crunch] per rendere più agevole la realizzazione di questi programmi. A questi si è affiancato [[Pig (programma)\|Pig]], uno strumento che permetteva di usare un linguaggio ispirato ad SQL. * [https://flink.apache.org/ Apache Flink], un motore di elaborazione molto efficace per elaborazioni di tipo streaming; * [https://akka.io/ Akka], una libreria che implementa l'Actor Model; Un cambiamento consistente è avvenuto con l'introduzione di [[Apache Spark]] che usa in modo aggressivo la memoria RAM dei nodi del cluster per eseguire le elaborazioni con una velocità nettamente superiore a quella di MapReduce. * [https://www.cascading.org/ Cascading], un insieme di librerie per sviluppare programmi MapReduce; * [http://crunch.apache.org/ Apache Crunch], una libreria per sviluppare programmi MapReduce; Successivamente è stato introdotto [https://flink.apache.org/ Apache Flink] per l'elaborazione di dati in modalità streaming con bassa latenza. * [[Pig (programma)]], una piattaforma di alto livello per creare programmi MapReduce; '''Strumenti per l'immagazzinamento dei dati'''▼ Una libreria degna di nota è [https://akka.io/ Akka]. Questa permette di elaborare dati con delle prestazioni molto elevate sfruttando l'Actor Model. Le prime versioni di Apache Spark, precedenti alla 1.6, erano costruite proprio su Akka. Sono strati creati anche degli strumenti che permettono di definire i flussi di elaborazione dati attraverso dei diagrammi. Tra questi troviamo [https://nifi.apache.org/ Apache NiFi] e [https://streamsets.com/opensource StreamSets Data Collector]. ▲'''Strumenti per ~~l'immagazzinamento~~la gestione dei dati''' * [[Apache Hive]], che viene usato per interrogare il contenuto di HDFS usando un linguaggio molto simile all'SQL che si chiama Hive Query Language; * [https://impala.apache.org/ Apache Impala], ~~molto~~ simile a Hive, ma avente una latenza inferiore a fronte di un throughput inferiore. A questo software mancano le funzionalità più avanzate di Hive, ad esempio la gestione degli indici e dei dati di dato più complessi. Usa Impala Query Language; * [https://drill.apache.org/ Apache Drill], uno strumento simile ad Hive ed Impala; * [http://prestodb.github.io/ Presto] uno strumento per interrogare dati su HDFS simile ad Hive ed Impala, sviluppato da Facebook; * [[Apache Kafka]] che viene usato per trasmettere dei messaggi e per custodire nel tempo i messaggi che sono stati trasmessi; * [[Sqoop]], strumento da linea di comando che permette di importare dati da basi dati relazionali verso HDFS e vice versa; * [[Apache Flume]], un servizio distribuito affidabile e disponibile per la raccolta, l'aggregazione e il trasporto un grande quantitativo di dati di log in maniera efficiente.▼ '''Console web''' * [https://ambari.apache.org/ Apache Ambari], che aiuta ad amministrare un cluster Hadoop con maggiore semplicità; Riga 55 ⟶ 62: '''Altri strumenti''' * [[Apache ZooKeeper]], un servizio di configurazione e sincronizzazione distribuito, ▲* [[Apache Flume]], un servizio distribuito affidabile e disponibile per la raccolta, l'aggregazione e il trasporto un grande quantitativo di dati di log in maniera efficiente. == Distribuzioni di Hadoop == Riga 64 ⟶ 70: * [https://it.hortonworks.com/products/data-platforms/hdp/ Hortonworks Data Platform] un'altra distribuzione open source, che include anche Ambari per l'amministrazione del cluster; * [https://mapr.com/products/mapr-converged-data-platform/ The MapR Converged Data Platform] una distribuzione commerciale. == Bibliografia == * {{cita libro \| nome=Tom \| cognome=White \| titolo=Hadoop: The Definitive Guide, 4th Edition \| anno=2015 \| editore=O'Reilly \| città= \| url=http://shop.oreilly.com/product/0636920033448.do \| lingua=en}} * {{cita libro \| nome=Butch \| cognome=Quinto \| titolo=Next-Generation Big Data \| anno=2018 \| editore=Apress \| città= \| url=https://www.apress.com/it/book/9781484231463 \| lingua=en}} == Voci correlate ==

Apache Hadoop: differenze tra le versioni