Apache Hadoop: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
correzione refuso ortografico (l'archittettura -> architettura)
Vitalij zad (discussione | contributi)
Aggiungo le applicazioni più usate e le distribuzioni più diffuse
Riga 9:
[[Yahoo!]] è il più grande contributore a questo progetto, e ne fa fortemente uso. Hadoop è usato anche da: [[AOL]], [[Ebay]], [[Facebook]], [[IBM]], [[ImageShack]], [[Joost]], [[Linkedin]], [[Spotify]], [[The New York Times]] e [[Twitter]].
 
Hadoop offre una grande quantitá di librerie di semplice utilizzo. Hadoop ha per il momento duetre versioni, la prima versione di Hadoop utilizza l'algoritmo [[Map Reduce]] e Hadoop Distributed File System ([[HDFS]]). Dalla prima versione di Hadoop sono cambiate le necessità di prestazione, per questo motivo la seconda versione è stata quindi integrata con l'architettura [[YARN]].
 
Il nome del progetto è stato scelto dal suo creatore Doug Cutting, il quale ha scelto Hadoop, il nome dell'elefante di pezza di suo figlio.
Riga 18:
Il package fornisce inoltre il codice sorgente, la documentazione e una sezione contributi che include i progetti della comunità Hadoop.
 
=== File System ===
L<nowiki>'</nowiki>'''Hadoop Distributed File System''' (in sigla '''HDFS''') è un file system distribuito, [[Portabilità|portabile]] e [[Scalabilità|scalabile]] scritto in Java per il framework Hadoop.
Un cluster in Hadoop tipicamente possiede un singolo NameNode (su cui risiedono i metadati dei file) e un insieme di DataNode (su cui risiedono, in blocchi di dimensione fissa, i file dell'HDFS).
Riga 29:
 
Hadoop può lavorare direttamente con qualsiasi file system distribuito che possa essere montato da un [[sistema operativo]] sottostante semplicemente usando un URL del tipo 'file://'.
 
=== Applicazioni usate nei cluster Hadoop ===
Tra le applicazioni usate più spesso in un cluster Hadoop, troviamo:
* [[Apache Spark]], il motore di elaborazione che, nella maggior parte dei casi, è nettamente più veloce di MapReduce;
* [https://sqoop.apache.org/ Apache Sqoop], strumento da linea di comando che permette di importare dati da basi dati relazionali verso HDFS e vice versa;
* [https://hive.apache.org/ Apache Hive], che viene usato per interrogare il contenuto di HDFS usando un linguaggio molto simile all'SQL che si chiama Hive Query Language;
* [https://impala.apache.org/ Apache Impala], molto simile a Hive, ma più veloce. Usa Impala Query Language;
* [https://ambari.apache.org/ Apache Ambari], che aiuta ad amministrare un cluster Hadoop con maggiore semplicità;
* [http://gethue.com/ Hue], una interfaccia grafica che permette di avere un punto di ingresso unico a tutti gli strumenti web per Hadoop
 
== Distribuzioni di Hadoop ==
Sebbene sia possibile scaricare ed installare autonomamente tutti i software necessari per far funzionare un cluster Hadoop, in molti casi è preferibile usare una distribuzione nella quale sono già presenti ed installati tutti questi software.
 
Tra le distribuzioni più note troviamo:
* [https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html Cloudera distribution, including Hadoop] una distribuzione open source che include i principali pacchetti usati per Hadoop, ad esclusione di Ambari;
* [https://it.hortonworks.com/products/data-platforms/hdp/ Hortonworks Data Platform] un'altra distribuzione open source, che include anche Ambari per l'amministrazione del cluster;
* [https://mapr.com/products/mapr-converged-data-platform/ The MapR Converged Data Platform] una distribuzione commerciale.
 
== Voci correlate ==
*[[Nutch]]
*[[Cloudera]]
*[[Hypertable]]
*[[HBase]]
*[[Apache Mahout]]