Eine Cloud TPU (Tensor Processing Unit) ist ein speziell entwickelter KI-Beschleuniger, der für das Training und die Inferenz großer AI-Modelle optimiert ist. Cloud TPUs sind darauf ausgelegt, eine kosteneffiziente Skalierung für eine Vielzahl von KI-Arbeitslasten zu ermöglichen – von Training über Feinabstimmung bis hin zu Inferenz.
Cloud TPUs sind für das Trainieren großer und komplexer Deep-Learning-Modelle mit vielen Matrixberechnungen optimiert, z. B. für das Erstellen von Large Language Models (LLMs). Cloud TPUs haben auch SparseCores, bei denen es sich um Dataflow-Prozessoren handelt, die Modelle beschleunigen, welche auf Einbettungen in Empfehlungsmodellen basieren.
Eine GPU ist ein spezieller Prozessor, der ursprünglich für die Manipulation von Computergrafiken entwickelt wurde. Eine TPU ist ein anwendungsspezifischer integrierter Schaltkreis (ASIC), der von Google für neuronale Netzwerke entwickelt wurde. TPUs haben spezielle Features wie die Matrixmultiplikationseinheit (MXU) und die proprietäre Interconnect-Topologie, die sich ideal für ein schnelleres KI-Training und für die Inferenz eignen.
TPUs trainieren Ihre Modelle effizienter mit Hardware, die für die Ausführung großer Matrixvorgänge entwickelt wurde, die oft in Algorithmen für maschinelles Lernen verwendet werden. TPUs haben einen On-Chip High-Bandbreite Memory (HBM), mit dem Sie größere Modelle und Batchgrößen verwenden können. TPUs können in Gruppen verbunden werden, die als Pods bezeichnet werden und Ihre Arbeitslasten ohne oder mit nur wenigen Codeänderungen skalieren.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.