nanoGPT ist ein Open-Source-Projekt, das es ermöglicht, mittelgroße Generative Pre-trained Transformer (GPT)-Modelle zu trainieren und zu feintunen. Das Repository bietet eine einfache und leistungsfähige Implementierung von GPT-Modellen in PyTorch.
model.py
, einschließlich Selbst-Aufmerksamkeit, MLP-Schichten, Einbettungen und Sampling-Logik.train.py
, mit Optimierungstechniken wie gemischter Genauigkeit und Gradienten-Akkumulation.sample.py
.data
für Datensätze wie OpenWebText und Shakespeare.config
für die Einstellung von Hyperparametern und die Steuerung von Training, Evaluierung und Inferenz.Um schnell loszulegen, können Sie ein character-basiertes GPT auf den Werken Shakespeares trainieren. Zunächst laden Sie die Daten herunter und konvertieren sie in eine große Stream von ganzen Zahlen. Dann können Sie das Modell trainieren und Sampling durchführen.
nanoGPT wird unter der MIT-Lizenz veröffentlicht.
Weitere Informationen zu nanoGPT finden Sie in den Dokumenten und im Repository selbst.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.