Der K-Means-Algorithmus ist ein Verfahren zur Vektorquantisierung und Clusteranalyse, das verwendet wird, um eine Menge von ähnlichen Objekten in eine vorher bekannte Anzahl von Gruppen zu teilen. Der Algorithmus ist eine der am häufigsten verwendeten Techniken zur Gruppierung von Objekten, da er schnell die Zentren der Cluster findet.
Der Begriff "k-means" wurde zuerst von MacQueen 1967 verwendet, die Idee geht jedoch auf Hugo Steinhaus 1957 zurück. Der heutzutage meist als "k-means-Algorithmus" bezeichnete Standard-Algorithmus wurde 1957 von Lloyd zur Puls-Code-Modulation vorgeschlagen.
Ziel von k-Means ist es, den Datensatz so in k Partitionen zu teilen, dass die Summe der quadrierten Abweichungen von den Cluster-Schwerpunkten minimal ist. Mathematisch entspricht dies der Optimierung der Funktion J, die die Summe der Varianzen der Cluster minimiert.
Da die Suche nach der optimalen Lösung schwer ist (NP-schwer), wird im Normalfall ein approximativer Algorithmus verwendet wie die Heuristiken von Lloyd oder MacQueen. Der Lloyd-Algorithmus besteht aus drei Schritten: Initialisierung, Zuordnung und Aktualisieren.
K-Means ist ein centroid-basiertes Clustering-Verfahren, bei dem die Distanz zwischen jedem Datenpunkt und einem Zentroid berechnet wird, um ihn einem Cluster zuzuordnen. Das Ziel ist, die k Anzahl von Gruppen im Datensatz zu identifizieren.
Der Algorithmus kann in 4-5 Schritte unterteilt werden:
Ein Beispiel für die Anwendung von K-Means ist die Kundensegmentierung in einem Walmart-Laden. Durch die Gruppierung von Kunden nach Alter und Kaufhistorie können unterschiedliche Marketingstrategien für jede Gruppe entwickelt werden.
K-Means ist ein skalierbares Verfahren, das für große Datensätze geeignet ist. Es ist auch ein einfaches und schnelles Verfahren, das leicht zu implementieren ist.
K-Means hat einige Nachteile, wie z.B. die Notwendigkeit, die Anzahl der Cluster (k) vorher zu bestimmen, und die Empfindlichkeit gegenüber Ausreißern und nicht-linearen Beziehungen zwischen den Variablen.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.