KI Apps

GPT-Code-Clippy (GPT-CC)

Website
Screenshot der Startseite von GPT-Code-Clippy (GPT-CC)
Zusammenfassung mit KI ⊛

GPT-Code-Clippy (GPT-CC) ist ein offener Quellcode für GitHub Copilot, ein Sprachmodell basierend auf GPT-3, genannt GPT-Codex, das auf öffentlich verfügbarem Code von GitHub feinjustiert wurde.

Datenquellen

Die Datenquelle, die für das Training von GPT-CC verwendet wird, stammt aus SEART GitHub Search und enthält Repositories mit mehr als 10 GitHub-Sternen, mehr als 2 Commits und einer Lizenz. Die Repositories werden dann mit allen GitHub-Repositories kombiniert, die in The Pile enthalten sind. Die Duplikate werden dann durch Regex-Filterung entfernt.

Modelle

Die GPT-CC-Modelle sind feinjustierte Versionen von GPT-2 und GPT-Neo. Die verfügbaren Modelle können hier gefunden werden.

Training

Das Training wird mit den Trainings-Skripten durchgeführt, die hier verfügbar sind. Für das Feinjustieren von GPTNeo-125M auf dem CodeClippy-Datensatz wurde der AdamW-Optimizer mit einem GPT3-ähnlichen Lernrate-Scheduler verwendet.

Demo

Eine Demo der VSCode-Erweiterung in Aktion kann hier gefunden werden.

Zukunft

Das ultimative Ziel ist es, eine offene Quellcode-Version von GitHub Copilot zu entwickeln, die vergleichbar in Leistung und Benutzerfreundlichkeit ist. Zu diesem Zweck werden wir kontinuierlich unser Datensatz erweitern und bessere Modelle entwickeln.

Zitate

  • Thomas Wolf et al. "Transformers: State-of-the-Art Natural Language Processing." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Association for Computational Linguistics.
  • Mark Chen et al. "Evaluating Large Language Models Trained on Code." (2021).
  • Gao, Leo et al. "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv prep

Ähnliche KI-Apps

* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.