GPT-Code-Clippy (GPT-CC)

Zusammenfassung mit KI ⊛

GPT-Code-Clippy (GPT-CC) ist ein offener Quellcode für GitHub Copilot, ein Sprachmodell basierend auf GPT-3, genannt GPT-Codex, das auf öffentlich verfügbarem Code von GitHub feinjustiert wurde.

Datenquellen

Die Datenquelle, die für das Training von GPT-CC verwendet wird, stammt aus SEART GitHub Search und enthält Repositories mit mehr als 10 GitHub-Sternen, mehr als 2 Commits und einer Lizenz. Die Repositories werden dann mit allen GitHub-Repositories kombiniert, die in The Pile enthalten sind. Die Duplikate werden dann durch Regex-Filterung entfernt.

Modelle

Die GPT-CC-Modelle sind feinjustierte Versionen von GPT-2 und GPT-Neo. Die verfügbaren Modelle können hier gefunden werden.

Training

Das Training wird mit den Trainings-Skripten durchgeführt, die hier verfügbar sind. Für das Feinjustieren von GPTNeo-125M auf dem CodeClippy-Datensatz wurde der AdamW-Optimizer mit einem GPT3-ähnlichen Lernrate-Scheduler verwendet.

Demo

Eine Demo der VSCode-Erweiterung in Aktion kann hier gefunden werden.

Zukunft

Das ultimative Ziel ist es, eine offene Quellcode-Version von GitHub Copilot zu entwickeln, die vergleichbar in Leistung und Benutzerfreundlichkeit ist. Zu diesem Zweck werden wir kontinuierlich unser Datensatz erweitern und bessere Modelle entwickeln.

Zitate

Thomas Wolf et al. "Transformers: State-of-the-Art Natural Language Processing." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Association for Computational Linguistics.
Mark Chen et al. "Evaluating Large Language Models Trained on Code." (2021).
Gao, Leo et al. "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv prep

GPT-Code-Clippy (GPT-CC)

Datenquellen

Modelle

Training

Demo

Zukunft

Zitate

Ähnliche KI-Apps

Code-GPT

GPT95

Code GPT

Clippy AI