Apache Hadoop ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem MapReduce-Algorithmus von Google Inc. sowie auf Vorschlägen des Google-Dateisystems und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen (Big Data, Petabyte-Bereich) auf Computerclustern durchzuführen.
HDFS ist ein hochverfügbares Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten). Dateien werden in Datenblöcke mit fester Länge zerlegt und redundant auf die teilnehmenden Knoten verteilt.
YARN ermöglicht es, die Ressourcen eines Clusters für verschiedene Jobs dynamisch zu verwalten. So ermöglicht es YARN, durch Queues die Zuteilung der Kapazitäten des Clusters an einzelne Jobs festzulegen.
Hadoop implementiert den MapReduce-Algorithmus mit konfigurierbaren Klassen für Map, Reduce und Kombinationsphasen. MapReduce gilt zunehmend als veraltet innerhalb des Hadoop-Ökosystems und wird zunehmend durch Ausführungsverfahren basierend auf einem Directed-Acyclic-Graph (DAG) ersetzt.
Ausführungsverfahren basierend auf einem gerichteten azyklischen Graphen werden zum Beispiel durch Apache TEZ, Apache Flink oder Apache Spark für das Hadoop-Ökosystem zur Verfügung gestellt.
Apache Hadoop hat verschiedene Auszeichnungen erhalten, darunter den InfoWorld 2012 Technology of the Year Award.
Es gibt verschiedene kommerzielle Forks von Apache Hadoop, darunter Cloudera, Hortonworks und MapR.
Es gibt verschiedene Bücher und Artikel über Apache Hadoop, darunter "Hadoop: The Definitive Guide" von Tom White.
Apache Hadoop ist ein mächtiges Framework für die Verarbeitung großer Datenmengen. Es bietet eine Vielzahl von Funktionen und Erweiterungen, die es zu einem beliebten Werkzeug für Unternehmen und Entwickler machen.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.