Apache Hadoop

Zusammenfassung mit KI ⊛

Apache Hadoop ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem MapReduce-Algorithmus von Google Inc. sowie auf Vorschlägen des Google-Dateisystems und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen (Big Data, Petabyte-Bereich) auf Computerclustern durchzuführen.

Bestandteile

Hadoop Distributed File System (HDFS)

HDFS ist ein hochverfügbares Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten). Dateien werden in Datenblöcke mit fester Länge zerlegt und redundant auf die teilnehmenden Knoten verteilt.

Yet Another Resource Negotiator (YARN)

YARN ermöglicht es, die Ressourcen eines Clusters für verschiedene Jobs dynamisch zu verwalten. So ermöglicht es YARN, durch Queues die Zuteilung der Kapazitäten des Clusters an einzelne Jobs festzulegen.

MapReduce

Hadoop implementiert den MapReduce-Algorithmus mit konfigurierbaren Klassen für Map, Reduce und Kombinationsphasen. MapReduce gilt zunehmend als veraltet innerhalb des Hadoop-Ökosystems und wird zunehmend durch Ausführungsverfahren basierend auf einem Directed-Acyclic-Graph (DAG) ersetzt.

Directed-Acyclic-Graph (DAG)

Ausführungsverfahren basierend auf einem gerichteten azyklischen Graphen werden zum Beispiel durch Apache TEZ, Apache Flink oder Apache Spark für das Hadoop-Ökosystem zur Verfügung gestellt.

Erweiterungen

HBase

Hive

Pig

Chukwa

ZooKeeper

Spark

Flink

Ignite

Architektur

Lambda-Architektur

Kappa-Architektur

Auszeichnungen

Apache Hadoop hat verschiedene Auszeichnungen erhalten, darunter den InfoWorld 2012 Technology of the Year Award.

Kommerzieller Support und kommerzielle Forks

Es gibt verschiedene kommerzielle Forks von Apache Hadoop, darunter Cloudera, Hortonworks und MapR.

Literatur

Es gibt verschiedene Bücher und Artikel über Apache Hadoop, darunter "Hadoop: The Definitive Guide" von Tom White.

Weblinks

Apache Hadoop ist ein mächtiges Framework für die Verarbeitung großer Datenmengen. Es bietet eine Vielzahl von Funktionen und Erweiterungen, die es zu einem beliebten Werkzeug für Unternehmen und Entwickler machen.