Das Megatron-Turing Natural Language Generation Model (MT-NLG) ist ein von Microsoft und Nvidia entwickeltes und trainiertes generatives Sprachmodell. Mit circa 530 Milliarden Parametern ist es dreimal größer als das GPT-3-Sprachmodell und gehört zu den weltweit größten und leistungsstärksten generativen Sprachmodellen.
Das MT-NLG basiert auf DeepSpeed und Megatron und ist Nachfolger des Turing NLG 17B Sprachmodells von Microsoft und des Megatron-LM 8.3B Sprachmodells von Nvidia. Die enge Kooperation zwischen Nvidia und Microsoft in der Entwicklung des Sprachmodells verfolgt laut eigenen Aussagen vorrangig zunächst keine kommerziellen Absichten, sondern ist als Forschungsprojekt zu sehen. Ziel des Projekts ist es, das Training von sehr großen Modellen der Künstlichen Intelligenz zu optimieren und zu parallelisieren.
Das MT-NLG ist in der Lage, zahlreiche Aufgaben des Natural Language Processings (NLP) und der NLP-Unterkategorien Natural Language Understanding (NLU) und Natural Language Generation (NLG) mit hoher Qualität zu erledigen. Dazu gehören zum Beispiel das Vervollständigen von Texten, das Lesen und Verstehen von Texten, das Antworten auf Fragen, das Argumentieren, das Schlussfolgern oder die Klärung des Sinns von Wörtern in einem bestimmten Kontext.
Die wichtigsten Merkmale des MT-NLG sind:
Das Training des MT-NLG wurde auf Nvidia Selene Supercomputer bestehend aus 560 DGX-A100-Servern ausgeführt. Die verwendeten A100 GPUs mit jeweils 80 Gigabyte VRAM waren über NVLink und NVSwitch verbunden. Pro GPU erreicht das System eine Rechenleistung von etwa 120 Teraflops. Ein spezieller Software-Stack für verteiltes maschinelles Lernen kam zum Einsatz.
Die Architektur des MT-NLG besteht aus 105 Layern, die aufeinander gestapelt sind und wiederholte Berechnungen durchführen, um das Verständnis und die Generierung von Text zu verfeinern. Jedes Layer verarbeitet 20.480 Dimensionen von Informationen und verwendet 128 Aufmerksamkeitsköpfe, um unterschiedliche Aspekte der Eingabedaten zu analysieren.
Das MT-NLG hat in verschiedenen Benchmarks wie SQuAD 2.0 (Frage-Antwort-System) und ROUGE-L (Zusammenfassung) neue Standards für die Leistung von Sprachmodellen gesetzt. Es eignet sich für eine Vielzahl von Anwendungen, wie zum Beispiel die Generierung von Texten, die Zusammenfassung von Dokumenten, die Beantwortung von Fragen und die Erzeugung von Code.
Insgesamt ist das Megatron-Turing Natural Language Generation Model ein beeindruckendes Beispiel für die Leistungsfähigkeit von Künstlicher Intelligenz und Machine Learning. Es öffnet neue Möglichkeiten für die Verwendung von Sprachmodellen in verschiedenen Anwendungen und Branchen.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.