KI Apps

Hadoop

Website
Screenshot der Startseite von Hadoop
Zusammenfassung mit KI ⊛

Hadoop ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem MapReduce-Algorithmus von Google Inc. sowie auf Vorschlägen des Google-Dateisystems und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen (Big Data, Petabyte-Bereich) auf Computerclustern durchzuführen.

Bestandteile


Hadoop besteht aus mehreren Komponenten:

Hadoop Distributed File System (HDFS)

HDFS ist ein hochverfügbares Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten). Dateien werden in Datenblöcke mit fester Länge zerlegt und redundant auf die teilnehmenden Knoten verteilt.

Yet Another Resource Negotiator (YARN)

YARN ermöglicht es, die Ressourcen eines Clusters für verschiedene Jobs dynamisch zu verwalten. So ermöglicht es YARN, durch Queues die Zuteilung der Kapazitäten des Clusters an einzelne Jobs festzulegen.

MapReduce

Hadoop implementiert den MapReduce-Algorithmus mit konfigurierbaren Klassen für Map, Reduce und Kombinationsphasen. MapReduce gilt zunehmend als veraltet innerhalb des Hadoop-Ökosystems und wird zunehmend durch Ausführungsverfahren basierend auf einem Directed-Acyclic-Graph (DAG) ersetzt.

Directed-Acyclic-Graph (DAG)

Ausführungsverfahren basierend auf einem gerichteten azyklischen Graphen werden zum Beispiel durch Apache Spark und Apache Flink implementiert.

Erweiterungen


Hadoop hat eine Vielzahl von Erweiterungen, darunter:

HBase

Ein NoSQL-Datenbank-System, das auf HDFS aufbaut.

Hive

Ein Datenwarehousing-Tool, das es ermöglicht, SQL-Abfragen auf Hadoop-Daten auszuführen.

Pig

Ein Scripting-Tool, das es ermöglicht, Datenverarbeitungsaufgaben auf Hadoop auszuführen.

Chukwa

Ein Überwachungstool, das es ermöglicht, Hadoop-Cluster zu überwachen.

ZooKeeper

Ein Koordinations-Tool, das es ermöglicht, Hadoop-Cluster zu koordinieren.

Spark

Ein Framework für verteilte Datenverarbeitung, das auf Hadoop aufbaut.

Flink

Ein Framework für verteilte Datenverarbeitung, das auf Hadoop aufbaut.

Ignite

Ein In-Memory-Computing-System, das auf Hadoop aufbaut.

Architektur


Hadoop basiert auf einer Lambda-Architektur, die aus drei Schichten besteht:

Datenquelle

Die Datenquelle ist die Quelle der Daten, die verarbeitet werden sollen.

Datenverarbeitung

Die Datenverarbeitung ist die Schicht, in der die Daten verarbeitet werden.

Datenziel

Das Datenziel ist die Schicht, in der die verarbeiteten Daten gespeichert werden.

Auszeichnungen


Hadoop hat eine Vielzahl von Auszeichnungen erhalten, darunter den InfoWorld Award 2006 und den JavaOne Award 2007.

Kommerzieller Support und kommerzielle Forks


Hadoop hat einen kommerziellen Support durch Unternehmen wie Cloudera, Hortonworks und MapR. Es gibt auch kommerzielle Forks von Hadoop, wie zum Beispiel MapR-FS.

Literatur


  • "Hadoop: The Definitive Guide" von Tom White
  • "Hadoop in Action" von Chuck Lam
  • "Hadoop Application Architectures" von Mark Grover, Ted Malaska und Jonathan Seidman

Weblinks


Ähnliche KI-Apps

* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.