Hadoop ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem MapReduce-Algorithmus von Google Inc. sowie auf Vorschlägen des Google-Dateisystems und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen (Big Data, Petabyte-Bereich) auf Computerclustern durchzuführen.
Hadoop besteht aus mehreren Komponenten:
HDFS ist ein hochverfügbares Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten). Dateien werden in Datenblöcke mit fester Länge zerlegt und redundant auf die teilnehmenden Knoten verteilt.
YARN ermöglicht es, die Ressourcen eines Clusters für verschiedene Jobs dynamisch zu verwalten. So ermöglicht es YARN, durch Queues die Zuteilung der Kapazitäten des Clusters an einzelne Jobs festzulegen.
Hadoop implementiert den MapReduce-Algorithmus mit konfigurierbaren Klassen für Map, Reduce und Kombinationsphasen. MapReduce gilt zunehmend als veraltet innerhalb des Hadoop-Ökosystems und wird zunehmend durch Ausführungsverfahren basierend auf einem Directed-Acyclic-Graph (DAG) ersetzt.
Ausführungsverfahren basierend auf einem gerichteten azyklischen Graphen werden zum Beispiel durch Apache Spark und Apache Flink implementiert.
Hadoop hat eine Vielzahl von Erweiterungen, darunter:
Ein NoSQL-Datenbank-System, das auf HDFS aufbaut.
Ein Datenwarehousing-Tool, das es ermöglicht, SQL-Abfragen auf Hadoop-Daten auszuführen.
Ein Scripting-Tool, das es ermöglicht, Datenverarbeitungsaufgaben auf Hadoop auszuführen.
Ein Überwachungstool, das es ermöglicht, Hadoop-Cluster zu überwachen.
Ein Koordinations-Tool, das es ermöglicht, Hadoop-Cluster zu koordinieren.
Ein Framework für verteilte Datenverarbeitung, das auf Hadoop aufbaut.
Ein Framework für verteilte Datenverarbeitung, das auf Hadoop aufbaut.
Ein In-Memory-Computing-System, das auf Hadoop aufbaut.
Hadoop basiert auf einer Lambda-Architektur, die aus drei Schichten besteht:
Die Datenquelle ist die Quelle der Daten, die verarbeitet werden sollen.
Die Datenverarbeitung ist die Schicht, in der die Daten verarbeitet werden.
Das Datenziel ist die Schicht, in der die verarbeiteten Daten gespeichert werden.
Hadoop hat eine Vielzahl von Auszeichnungen erhalten, darunter den InfoWorld Award 2006 und den JavaOne Award 2007.
Hadoop hat einen kommerziellen Support durch Unternehmen wie Cloudera, Hortonworks und MapR. Es gibt auch kommerzielle Forks von Hadoop, wie zum Beispiel MapR-FS.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.