Apache Hadoop

Apache Hadoop; software
	Logo
Genere	Calcolo distribuito
Sviluppatore	Apache Software Foundation
Data prima versione	1º aprile 2006
Ultima versione	3.4.1 (18 ottobre 2024)
Sistema operativo	Multipiattaforma
Linguaggio	Java
Licenza	Apache License 2.0; (licenza libera)
Sito web	hadoop.apache.org

Apache Hadoop è un framework che supporta applicazioni distribuite con elevato accesso ai dati sotto una licenza libera; permette alle applicazioni di lavorare con migliaia di nodi e petabyte di dati. Hadoop è stato ispirato dalla MapReduce di Google e dal Google File System. Hadoop è un progetto Apache di alto livello costruito e usato da una comunità globale di contributori, che usano il linguaggio di programmazione Java.

Yahoo! è il più grande contributore a questo progetto, e ne fa fortemente uso. Hadoop è usato anche da: AOL, Ebay, Facebook, IBM, ImageShack, Joost, Linkedin, Spotify, The New York Times e Twitter.

Hadoop offre una grande quantitá di biblioteche di semplice utilizzo. Hadoop ha per il momento due versioni, la prima versione di Hadoop utilizza l'algoritmo Map Reduce e Hadoop Distributed File System (HDFS). Dalla prima versione di Hadoop sono cambiate le necessità di prestazione, per questo motivo la seconda versione é stata quindi integrata con l'archittettura YARN.

Il nome del progetto è stato scelto dal suo creatore Doug Cutting, il quale ha scelto Hadoop, il nome dell'elefante di pezza di suo figlio. In origine fu sviluppato per supportare la distribuzione per il progetto del motore di ricerca Nutch.

Architettura

Il principale componente è Hadoop Common, che fornisce accesso al file system supportato da Hadoop. L'Hadoop Common package contiene i file jar e gli script necessari per avviare Hadoop. Il package fornisce inoltre il codice sorgente, la documentazione e una sezione contributi che include i progetti della comunità Hadoop.

File System

L'Hadoop Distributed File System (in sigla HDFS) è un file system distribuito, portabile e scalabile scritto in Java per il framework Hadoop. Un cluster in Hadoop tipicamente possiede un singolo NameNode (su cui risiedono i metadati dei file) e un insieme di DataNode (su cui risiedono, in blocchi di dimensione fissa, i file dell'HDFS).

Hadoop supporta anche:

Amazon S3 file system;
CloudStore file system;
FTP file system;
HTTP e HTTPS file system in sola lettura.

Hadoop può lavorare direttamente con qualsiasi file system distribuito che possa essere montato da un sistema operativo sottostante semplicemente usando un URL del tipo 'file://'.

Voci correlate

Collegamenti esterni

(EN) Sito di Hadoop, su hadoop.apache.org.

Controllo di autorità	GND (DE) 1022420135

Portale Software libero: accedi alle voci di Wikipedia che trattano di software libero