Versione delle 01:48, 9 apr 2019 modifica Vitalij zad (discussione \| contributi) 1 030 modifiche m Evoluzioni di Apache Spark ← Differenza precedente		Versione delle 17:06, 29 apr 2019 modifica annulla LauBot (discussione \| contributi) Bot 870 120 modifiche m Bot: passaggio degli url da HTTP a HTTPS Differenza successiva →
Riga 22: L<nowiki>'</nowiki>'''Hadoop Distributed File System''' (in sigla '''HDFS''') è un file system distribuito, [[Portabilità\|portabile]] e [[Scalabilità\|scalabile]] scritto in Java per il framework Hadoop. Un cluster in Hadoop tipicamente possiede uno o più name node (su cui risiedono i metadati dei file) e un insieme di data node (su cui risiedono, in blocchi di dimensione fissa, i file dell'HDFS). I formati più usati per i file su HDFS sono [[Comma-separated values]], [https://avro.apache.org/ Apache Avro], [https://orc.apache.org/ Apache ORC] e [~~http~~https://parquet.apache.org/ Apache Parquet]. Hadoop supporta anche: Riga 35: '''Elaborazione dati in modalità batch''' Quando nacque Hadoop, l'unico modo di realizzare applicativi di elaborazione dati era MapReduce, che richiede di scrivere molto codice Java anche per le attività più semplici. Col passare degli anni, vennero inventate librerie come [https://www.cascading.org/ Cascading] e [~~http~~https://crunch.apache.org/ Apache Crunch] per rendere più agevole la realizzazione di questi programmi. A questi si è affiancato [[Pig (programma)\|Pig]], uno strumento che permetteva di usare un linguaggio ispirato ad SQL. Un cambiamento consistente è avvenuto con l'introduzione di [[Apache Spark]] che usa in modo aggressivo la memoria RAM dei nodi del cluster per eseguire le elaborazioni con una velocità nettamente superiore a quella di MapReduce. Col tempo, Apache Spark si è evoluto, aggiungendo il supporto ad un linguaggio simile ad SQL e la possibilità di eseguire elaborazioni streaming sia di tipo microbatch che a bassa latenza. Riga 58: * [https://impala.apache.org/ Apache Impala], simile a Hive, ma avente una latenza inferiore a fronte di un throughput inferiore. A questo software mancano le funzionalità più avanzate di Hive, ad esempio la gestione degli indici e dei dati di dato più complessi. Usa Impala Query Language; * [https://drill.apache.org/ Apache Drill], uno strumento simile ad Hive ed Impala; * [~~http~~https://prestodb.github.io/ Presto] uno strumento per interrogare dati su HDFS simile ad Hive ed Impala, sviluppato da Facebook; * [[Apache Kafka]] che viene usato per trasmettere dei messaggi e per custodire nel tempo i messaggi che sono stati trasmessi; * [[Sqoop]], strumento da linea di comando che permette di importare dati da basi dati relazionali verso HDFS e vice versa; Riga 100: == Collegamenti esterni == * {{cita web\|~~http~~https://hadoop.apache.org/\|Sito di Hadoop\|lingua=en}} {{Apache}}

Apache Hadoop: differenze tra le versioni