Apache Hadoop: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Aggiorno la sezione dedicata alle distribuzioni esistenti |
Contributi di Yahoo e piccole correzioni |
||
Riga 1:
{{Software
|Sviluppatore =
Line 8 ⟶ 7:
'''Apache Hadoop''' è un [[framework]] sotto una [[licenza libera]] che supporta applicazioni distribuite con elevato accesso ai dati, permettendo alle applicazioni di lavorare con migliaia di nodi e [[petabyte]] di dati. Ispirato dalla [[MapReduce]] di [[Google]] e dal [[Google File System]], è un progetto [[Apache]] di alto livello costruito e usato da una comunità globale di contributori, che usano i linguaggi di programmazione [[Java (linguaggio di programmazione)|Java]] e, per gli strumenti più recenti, [[Scala (linguaggio di programmazione)|Scala]].
[[Yahoo!]] è stato il più grande contributore a questo progetto<ref>[https://www.wired.com/2011/10/how-yahoo-spawned-hadoop/ How Yahoo Spawned Hadoop, the Future of Big Data]</ref>, e ne fa fortemente uso<ref>[https://www.datanami.com/2017/06/16/yahoos-massive-hadoop-scale-display-dataworks-summit/ Yahoo’s Massive Hadoop Scale on Display at Dataworks Summit]</ref>. È usato anche da: [[AOL]]<ref>[https://www.datanami.com/2016/11/15/data-science-team-sport-aol/ Why Data Science is a Team Sport at AOL]</ref>, [[Ebay]]<ref>[https://tech.ebayinc.com/engineering/hadoop-the-power-of-the-elephant/ Hadoop - The Power of the Elephant]</ref>, [[Facebook]]<ref>[https://www.facebook.com/notes/facebook-engineering/hadoop/16121578919/ Hadoop]</ref>, [[IBM]]<ref>[https://www.ibm.com/analytics/hadoop Apache Hadoop]</ref>, [[Linkedin]]<ref>[https://engineering.linkedin.com/hadoop/recap-improving-hadoop-performance-1000x Recap: Improving Hadoop Performance by (up to) 1000x]</ref>, [[Spotify]]<ref>[https://labs.spotify.com/2017/10/16/big-data-processing-at-spotify-the-road-to-scio-part-1/ Big Data Processing at Spotify: The Road to Scio (Part 1)]</ref>, [[The New York Times]]<ref>[https://open.nytimes.com/announcing-the-map-reduce-toolkit-502b6100eeeb Announcing the Map/Reduce Toolkit]</ref> e [[Twitter]]<ref>[https://www.datacenterknowledge.com/twitter/how-twitter-shrunk-its-hadoop-clusters-and-their-energy-consumption How Twitter Shrunk Its Hadoop Clusters and Their Energy Consumption]</ref>.
Offre una grande quantità di librerie di semplice utilizzo ad ha per il momento tre versioni, la prima versione di Hadoop
Il nome del progetto è stato scelto dal suo creatore Doug Cutting, il quale ha scelto Hadoop, il nome dell'elefante di pezza di suo figlio.
Line 31 ⟶ 30:
=== Applicazioni e librerie usate nei cluster Hadoop ===
'''Elaborazione dati in modalità batch'''
Line 37 ⟶ 35:
Quando nacque Hadoop, l'unico modo di realizzare applicativi di elaborazione dati era MapReduce, che richiede di scrivere molto codice Java anche per le attività più semplici. Col passare degli anni, vennero inventate librerie come [https://www.cascading.org/ Cascading] e [https://crunch.apache.org/ Apache Crunch] per rendere più agevole la realizzazione di questi programmi. A questi si è affiancato [[Pig (programma)|Pig]], uno strumento che permetteva di usare un linguaggio ispirato ad SQL.
Un cambiamento consistente è avvenuto con l'introduzione di [[Apache Spark]] che usa in modo aggressivo la memoria RAM dei nodi del cluster per eseguire le elaborazioni con una velocità nettamente superiore a quella di MapReduce. Col tempo, Apache Spark si è evoluto, aggiungendo il supporto ad un linguaggio simile ad SQL e la possibilità di eseguire elaborazioni streaming
'''Elaborazione dati in modalità Streaming'''
Line 47 ⟶ 45:
* [https://apache.github.io/incubator-heron/ Apache Heron]
* [https://samza.apache.org/ Apache Samza]
* [https://gearpump.github.io/gearpump/ Gearpump]
|