The Pile ist ein großes, diverses und quelloffenes Dataset für Sprachmodelle, das aus 22 kleineren, hochwertigen Datasets zusammengestellt wurde. Es umfasst insgesamt 825 GiB an Daten und ist auf der Plattform Eye gehostet.
Das Pile-Dataset bietet eine Vielzahl von Vorteilen für die Trainierung von Sprachmodellen. Durch die Vielfalt der Datenquellen verbessert sich die allgemeine Kenntnis des Modells über verschiedene Domänen und die Fähigkeit, auf neue Situationen zu reagieren. In Evaluierungen haben Modelle, die auf dem Pile trainiert wurden, moderate Verbesserungen in traditionellen Sprachmodell-Benchmarks gezeigt und signifikante Verbesserungen im Pile-BPB (Bits per Byte).
Das Pile-BPB misst die Weltkenntnis und die Fähigkeit zum logischen Denken in verschiedenen Domänen, wie Büchern, GitHub-Repositorys, Webseiten, Chat-Protokollen und wissenschaftlichen Artikeln aus verschiedenen Fachbereichen. Ein Modell muss viele disparaten Domänen verstehen, um gut im Pile-BPB abzuschneiden.
Das Pile-Dataset besteht aus 22 kleineren Datasets, die nach ihrer Qualität und Relevanz für die Trainierung von Sprachmodellen ausgewählt wurden. Jedes Dataset wurde einem bestimmten Gewicht und einer bestimmten Anzahl von Epochen zugewiesen, um die Datenmenge und die Vielfalt der Daten zu erhöhen.
Das Pile-Dataset kann für die Trainierung und Evaluierung von Sprachmodellen verwendet werden. Es ist auf der Plattform Eye verfügbar und kann heruntergeladen werden.
Wenn Sie das Pile-Dataset verwenden, bitten wir Sie, uns zu zitieren:
@article{pile, title={The {P}ile: An 800GB Dataset of Diverse Text for Language Modeling}, author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and Presser, Shawn and Leahy, Connor}, journal={arXiv preprint arXiv:2101.00027}, year={2020} }
Die aktuellen Ergebnisse im Pile-BPB sind auf der offiziellen Website von EleutherAI verfügbar.
Weitere Informationen über das Pile-Dataset finden Sie auf der offiziellen Website von EleutherAI und in der Dokumentation auf GitHub.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.