Versione delle 15:09, 12 ott 2017 modifica 91.240.167.82 (discussione) correzione refuso ortografico (l'archittettura -> architettura) Etichetta: Modifica visuale ← Differenza precedente		Versione delle 19:02, 25 feb 2018 modifica annulla Vitalij zad (discussione \| contributi) 1 030 modifiche Aggiungo le applicazioni più usate e le distribuzioni più diffuse Differenza successiva →
Riga 9: [[Yahoo!]] è il più grande contributore a questo progetto, e ne fa fortemente uso. Hadoop è usato anche da: [[AOL]], [[Ebay]], [[Facebook]], [[IBM]], [[ImageShack]], [[Joost]], [[Linkedin]], [[Spotify]], [[The New York Times]] e [[Twitter]]. Hadoop offre una grande quantitá di librerie di semplice utilizzo. Hadoop ha per il momento ~~due~~tre versioni, la prima versione di Hadoop utilizza l'algoritmo [[Map Reduce]] e Hadoop Distributed File System ([[HDFS]]). Dalla prima versione di Hadoop sono cambiate le necessità di prestazione, per questo motivo la seconda versione è stata quindi integrata con l'architettura [[YARN]]. Il nome del progetto è stato scelto dal suo creatore Doug Cutting, il quale ha scelto Hadoop, il nome dell'elefante di pezza di suo figlio. Riga 18: Il package fornisce inoltre il codice sorgente, la documentazione e una sezione contributi che include i progetti della comunità Hadoop. === File System === L<nowiki>'</nowiki>'''Hadoop Distributed File System''' (in sigla '''HDFS''') è un file system distribuito, [[Portabilità\|portabile]] e [[Scalabilità\|scalabile]] scritto in Java per il framework Hadoop. Un cluster in Hadoop tipicamente possiede un singolo NameNode (su cui risiedono i metadati dei file) e un insieme di DataNode (su cui risiedono, in blocchi di dimensione fissa, i file dell'HDFS). Riga 29: Hadoop può lavorare direttamente con qualsiasi file system distribuito che possa essere montato da un [[sistema operativo]] sottostante semplicemente usando un URL del tipo 'file://'. === Applicazioni usate nei cluster Hadoop === Tra le applicazioni usate più spesso in un cluster Hadoop, troviamo: * [[Apache Spark]], il motore di elaborazione che, nella maggior parte dei casi, è nettamente più veloce di MapReduce; * [https://sqoop.apache.org/ Apache Sqoop], strumento da linea di comando che permette di importare dati da basi dati relazionali verso HDFS e vice versa; * [https://hive.apache.org/ Apache Hive], che viene usato per interrogare il contenuto di HDFS usando un linguaggio molto simile all'SQL che si chiama Hive Query Language; * [https://impala.apache.org/ Apache Impala], molto simile a Hive, ma più veloce. Usa Impala Query Language; * [https://ambari.apache.org/ Apache Ambari], che aiuta ad amministrare un cluster Hadoop con maggiore semplicità; * [http://gethue.com/ Hue], una interfaccia grafica che permette di avere un punto di ingresso unico a tutti gli strumenti web per Hadoop == Distribuzioni di Hadoop == Sebbene sia possibile scaricare ed installare autonomamente tutti i software necessari per far funzionare un cluster Hadoop, in molti casi è preferibile usare una distribuzione nella quale sono già presenti ed installati tutti questi software. Tra le distribuzioni più note troviamo: * [https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html Cloudera distribution, including Hadoop] una distribuzione open source che include i principali pacchetti usati per Hadoop, ad esclusione di Ambari; * [https://it.hortonworks.com/products/data-platforms/hdp/ Hortonworks Data Platform] un'altra distribuzione open source, che include anche Ambari per l'amministrazione del cluster; * [https://mapr.com/products/mapr-converged-data-platform/ The MapR Converged Data Platform] una distribuzione commerciale. == Voci correlate == [[Nutch]] [[Cloudera]] [[Hypertable]] [[HBase]] *[[Apache Mahout]]

Apache Hadoop: differenze tra le versioni