KI Apps

DeepMind RETRO

Website
Screenshot der Startseite von DeepMind RETRO
Zusammenfassung mit KI ⊛

In den letzten Jahren haben Language Models enorme Fortschritte gemacht, indem sie die Anzahl ihrer Parameter erhöht haben. Dies hat jedoch zu einem enormen Anstieg der Energiekosten für das Training und zu einer Generation von großen Language Models mit über 100 Milliarden Parametern geführt. Gleichzeitig wurden große Datensätze mit Billionen von Wörtern gesammelt, um diese Modelle zu trainieren.

DeepMind hat einen neuen Ansatz entwickelt, um die Leistung von Language Models zu verbessern, ohne die Anzahl ihrer Parameter zu erhöhen. Der Retrieval-Enhanced Transformer (RETRO) ist ein Language Model, das die nächste Wortvorhersage durch Bedingungen auf Dokument-Teile aus einer großen Textdatenbank berechnet.

Funktionsweise von RETRO

Stellen Sie sich ein Beispiel-Query "The 2021 Women's US Open was won" vor. Ein standardmäßiges Language Model würde eine plausible Fortsetzung mit dem Wissen in den Netzwerkparametern vorhersagen. RETRO sucht stattdessen ähnliche Sequenzen in der Retrieval-Datenbank, holt ihre Fortsetzungen ab und bedingt auf ihnen, um eine neue plausible Fortsetzung vorherzusagen.

Die Suche nach ähnlichen Sätzen wird mit Nearest Neighbors auf BERT-Einbettungen durchgeführt, die vorher auf allen Sätzen in der Retrieval-Datenbank berechnet wurden.

Leistung von RETRO

RETRO erreicht vergleichbare Leistungen wie GPT-3 und Jurassic-1 auf dem Pile-Datensatz, einem Standard-Benchmark für Language Modeling, trotz der Verwendung von 25-mal weniger Parametern.

Ein 7,5-Milliarden-Parameter-RETRO-Modell übertrifft ein 175-Milliarden-Parameter-Jurassic-1-Modell auf 10 von 16 Datensätzen und ein 280-Milliarden-Parameter-Gopher-Modell auf 9 von 16 Datensätzen, obwohl es über eine Größenordnung kleiner ist.

Vorteile von RETRO

RETRO bietet mehrere Vorteile gegenüber standardmäßigen Language Models:

  • Erhöhte Interpretierbarkeit von Modellvorhersagen
  • Direkte Interventionen auf die Retrieval-Datenbank, um die Sicherheit von Textfortsetzungen zu verbessern
  • Kontinuierliche Leistungssteigerungen durch Erhöhung der Größe der Retrieval-Datenbank

Insgesamt bietet RETRO einen neuen Ansatz für die Verbesserung von Language Models, indem es die Vorteile von Retrieval und Transformer-Modellen kombiniert.

Ähnliche KI-Apps

* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.