Apache Hadoop: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
FrescoBot (discussione | contributi)
m Bot: accenti
Vitalij zad (discussione | contributi)
Aggiungo altre applicazioni spesso usate nel mondo Hadoop
Riga 21:
=== File System ===
L<nowiki>'</nowiki>'''Hadoop Distributed File System''' (in sigla '''HDFS''') è un file system distribuito, [[Portabilità|portabile]] e [[Scalabilità|scalabile]] scritto in Java per il framework Hadoop.
Un cluster in Hadoop tipicamente possiede ununo singoloo NameNodepiù name node (su cui risiedono i metadati dei file) e un insieme di DataNodedata node (su cui risiedono, in blocchi di dimensione fissa, i file dell'HDFS).
 
Hadoop supporta anche:
* [[Amazon S3]] file system;
* Azure data lake store;
* [[File Transfer Protocol|FTP]] file system;
* [[Hypertext Transfer Protocol|HTTP]] e [[HTTPS]] file system in sola lettura.
 
Hadoop può lavorare direttamente con qualsiasi file system distribuito che possa essere montato da un [[sistema operativo]] sottostante semplicemente usando un URL del tipo 'file://'.
Line 35 ⟶ 34:
'''Motori di esecuzione'''
* [[Apache Spark]], il motore di elaborazione che, nella maggior parte dei casi, è nettamente più veloce di MapReduce;
* [https://flink.apache.org/ Apache Flink], un motore di elaborazione molto efficace per elaborazioni di tipo streaming;
* [[Pig (programma)]], una piattaforma di alto livello per creare programmi MapReduce
* [https://akka.io/ Akka], una libreria che implementa l'Actor Model;
* [[Pig (programma)]], una piattaforma di alto livello per creare programmi MapReduce;
'''Strumenti per l'immagazzinamento dei dati'''
* [[Apache Hive]], che viene usato per interrogare il contenuto di HDFS usando un linguaggio molto simile all'SQL che si chiama Hive Query Language;
* [https://impala.apache.org/ Apache Impala], molto simile a Hive, ma più veloce. Usa Impala Query Language;
* [[Apache Kafka]] che viene usato per trasmettere dei messaggi e per custodire nel tempo i messaggi che sono stati trasmessi;
* [[HBase]], una base dati distribuita,
 
* [[Sqoop]], strumento da linea di comando che permette di importare dati da basi dati relazionali verso HDFS e vice versa;
'''Console web'''
* [https://ambari.apache.org/ Apache Ambari], che aiuta ad amministrare un cluster Hadoop con maggiore semplicità;
* [http://gethue.com/ Hue], una interfaccia grafica che permette di avere un punto di ingresso unico a tutti gli strumenti web per Hadoop;
'''Basi dati non relazionali'''
* [[HBase]], una base dati distribuita, che usa HDFS per gestire i dati
* [[Apache Cassandra]]
* [https://kudu.apache.org/ Apache Kudu]
'''Altri strumenti'''
* [[Apache ZooKeeper]], un servizio di configurazione e sincronizzazione distribuito,