GPT-Code-Clippy (GPT-CC) ist ein offener Quellcode für GitHub Copilot, ein Sprachmodell basierend auf GPT-3, genannt GPT-Codex, das auf öffentlich verfügbarem Code von GitHub feinjustiert wurde.
Die Datenquelle, die für das Training von GPT-CC verwendet wird, stammt aus SEART GitHub Search und enthält Repositories mit mehr als 10 GitHub-Sternen, mehr als 2 Commits und einer Lizenz. Die Repositories werden dann mit allen GitHub-Repositories kombiniert, die in The Pile enthalten sind. Die Duplikate werden dann durch Regex-Filterung entfernt.
Die GPT-CC-Modelle sind feinjustierte Versionen von GPT-2 und GPT-Neo. Die verfügbaren Modelle können hier gefunden werden.
Das Training wird mit den Trainings-Skripten durchgeführt, die hier verfügbar sind. Für das Feinjustieren von GPTNeo-125M auf dem CodeClippy-Datensatz wurde der AdamW-Optimizer mit einem GPT3-ähnlichen Lernrate-Scheduler verwendet.
Eine Demo der VSCode-Erweiterung in Aktion kann hier gefunden werden.
Das ultimative Ziel ist es, eine offene Quellcode-Version von GitHub Copilot zu entwickeln, die vergleichbar in Leistung und Benutzerfreundlichkeit ist. Zu diesem Zweck werden wir kontinuierlich unser Datensatz erweitern und bessere Modelle entwickeln.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.