The Pile, ein Open-Source-Datensatz für Sprachmodellierung mit 825 GiB Umfang (2020)

(pile.eleuther.ai)

1 Punkte von GN⁺ 2024-03-09 | 1 Kommentare | Auf WhatsApp teilen

Mit der wachsenden Bedeutung einer breiten Datenherkunft beim Training großer Sprachmodelle wurde The Pile als öffentliches Trainingsset mit 825 GiB veröffentlicht, das 22 hochwertige Datensätze bündelt
Das Kerndesign zielt darauf ab, domänenübergreifende Generalisierung zu verbessern, indem verschiedene Quellen wie Bücher, Code, Webseiten, Chat-Logs und wissenschaftliche Arbeiten kombiniert werden
Mit The Pile trainierte Modelle zeigten bei bestehenden Benchmarks für Sprachmodellierung moderate Verbesserungen und bei Pile BPB deutliche Fortschritte
Da Pile BPB Texte aus mehreren Domänen gemeinsam behandelt, wird es genutzt, um breitere Textmodellierungsfähigkeiten statt nur die Leistung auf einem einzelnen Korpus zu überprüfen
Das Leaderboard kennzeichnet mögliche Überschneidungen mit dem Testset mit *, und Zero-shot bedeutet, dass nicht alle Bestandteile von The Pile in den Trainingsdaten enthalten waren

Zusammensetzung und Bereitstellung von The Pile

The Pile ist ein vielfältiger Open-Source-Datensatz für Sprachmodellierung mit einem Umfang von 825 GiB
Er besteht aus 22 kleineren, hochwertigen Datensätzen, die zu einem einzigen Datensatz zusammengeführt wurden
Die Download-Dateien werden bei the Eye gehostet
Wenn es ein Modell gibt, das The Pile verwendet oder mit The Pile evaluiert wird, kann man EleutherAI informieren
Bei der Nutzung von The Pile oder seiner Bestandteile sollte die folgende Arbeit zitiert werden
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  - arXiv preprint arXiv:2101.00027, 2020

Rolle als Trainingsset und Benchmark

Besonders bei großen Modellen verbessert die Vielfalt der Datenquellen allgemeines domänenübergreifendes Wissen und die Generalisierungsfähigkeit für Downstream-Aufgaben
In der Evaluation zeigten mit The Pile trainierte Modelle bei traditionellen Benchmarks für Sprachmodellierung moderate Verbesserungen und bei Pile BPB deutliche Zugewinne
Pile BPB (bits per byte) ist ein Benchmark, der das Verständnis von Texten aus mehreren Domänen erfordert
- Zu den Ziel-Domänen gehören Bücher, GitHub-Repositories, Webseiten und Chat-Logs
- Ebenfalls enthalten sind Arbeiten aus Medizin, Physik, Mathematik, Informatik und Philosophie
Dieser Benchmark verlangt sowohl domänenspezifisches Weltwissen als auch Schlussfolgerungsvermögen und wird daher zur Bewertung der domänenübergreifenden Textmodellierungsfähigkeit großer Sprachmodelle verwendet
Das Beispiel-Leaderboard enthält Einträge mit Stand vom 1. Januar 2021
- GPT-3 (Zero-Shot)*, OpenAI: Test BPB 0.7177
- GPT-2 (Zero-Shot)*, OpenAI: Test BPB 1.2253
- * weist auf mögliche Überschneidungen mit dem Testset hin
- Zero-shot bedeutet, dass nicht alle Bestandteile von The Pile in den Trainingsdaten enthalten waren

1 Kommentare

GN⁺ 2024-03-09

Hacker-News-Kommentare

Als 2020 Bedenken geäußert wurden, dass Books3 in The Pile enthalten ist, antwortete Stella Biderman, damals verantwortlich bei Eleuther, sinngemäß:
Bei den Daten gebe es 1) Rohmaterial, das in der Welt existiert und online gestellt wurde, 2) nach einzelnen Sets bereinigte und aufbereitete Daten aus diesem Rohmaterial für Language Modeling, und 3) The Pile, eine große Kombination dieser setspezifischen Daten einschließlich Gewichtungen.
Eleuther habe 2 und 3 erstellt und veröffentlicht; 2 sei so bereitgestellt worden, dass Menschen es neu gewichten und neu kombinieren können, während die meisten 3 einfach unverändert herunterladen würden.
Außerdem seien 2 und 3 nach US-Maßstäben Fair Use und damit keine Urheberrechtsverletzung, selbst wenn urheberrechtlich geschützte Daten enthalten seien; Maroon 5 von einer Website herunterzuladen und daraus einen Datensatz entsprechend 2 zu erstellen, könne je nach Fall eine Verletzung sein, aber die eigene Nutzung sei aus ihrer Sicht keine.
- Dass „2 und 3 Fair Use sind und daher keine Urheberrechtsverletzung“, kann man nicht wissen, bevor es nicht vor Gericht ausgefochten wurde.
  Fair Use entsteht nicht dadurch, dass man es selbst erklärt; es ist eher wie Michael Scott aus The Office, der ruft: „Ich erkläre Insolvenz!“
  Gerichte beurteilen 1) Zweck und Charakter der Nutzung, 2) Art des urheberrechtlich geschützten Werks, 3) Umfang und Wesentlichkeit des verwendeten Teils und 4) Auswirkungen auf den potenziellen Markt oder Wert; genau deshalb streitet OpenAI mit der New York Times.
  Eine Übersicht fasst https://copyright.columbia.edu/basics/fair-use.html ziemlich gut zusammen.
- Wenn Set 2 vollständige Werke enthält, deren Verbreitung die Rechteinhaber nicht erlaubt haben, etwa ein ganzes Buch, verstehe ich nicht, wie diese Aussage stimmen kann.
  Es sei denn, „Verarbeitung für Language Modeling“ bedeutet einen vollständig unumkehrbaren Prozess.
- Ich kenne die richtige Antwort auf die Urheberrechtsfrage nicht, aber 2024 sollten wir im Hinblick auf die menschliche Arbeit, die in Modelle einfließt, eine bessere Haltung haben als Passivformulierungen wie „Daten existieren in der Welt“ oder „wurden als Datensatz gesammelt“.
- Werke ohne Erlaubnis der Autoren zu verbreiten, sie auf eine Weise zu nutzen, die mit den Autoren konkurriert, wobei viele AIs Geld verdienen und manche den Originaltext wörtlich wiedergeben:
  Solche Datensätze scheinen bei den meisten Punkten der Vier-Faktoren-Prüfung des Urheberrechts durchzufallen, und auch Laien, denen LLMs erklärt wurden, fassten es so auf, dass AI-Firmen die Arbeit anderer stehlen.
  Es gibt einen Artikel, der die einschlägigen Rechtsfragen, einzelne Datensätze einschließlich The Pile, legale Alternativen und ausgewogene Vorschläge zur Urheberrechtsreform zusammenfasst: http://gethisword.com/tech/exploringai/
  Derzeit braucht es meiner Meinung nach zumindest in einem Land sofort drei Regeln: Werke, auf die man legal Zugriff hat, sollten für AI-Training genutzt werden dürfen; Trainingsbeschränkungen, zusätzliche Gebühren und Downloadbeschränkungen sollten illegal sein; zugängliche Werke sollten für Training zum persönlichen Gebrauch kopiert und umgewandelt werden dürfen; und kostenlos öffentlich im Web verfügbare Werke sollten unabhängig von Bedingungen für AI-Training kopiert, geteilt, verarbeitet und gebündelt werden dürfen.
  Das Urheberrecht an AI-Ausgaben sollte der bestehenden Rechtslehre zu AI- und Mischwerken folgen; wenn eine Ausgabe urheberrechtlich schutzfähig ist, sollte der Nutzer in derselben Position sein, als hätte er gestützt auf bestehende Werke selbst veröffentlicht; und damit das beurteilt werden kann, sollten auch die Trainingssets offengelegt werden.
- Libgen zu scrapen und urheberrechtlich geschützte Inhalte herunterzuladen und weiterzuverbreiten soll nicht illegal sein?
  Da bin ich skeptisch. Einen Film, den man irgendwo aus dem Internet bekommen hat, per Torrent zu seeden, ist kein „Fair Use“, und The Pile ist nicht nur Code zur Datentransformation, sondern die weiterverbreiteten Daten selbst.
  Nach dieser Logik könnte man legal einen Libgen-Mirror betreiben.
Wo kann man die Wiedergabe der Lizenzen sowie Credits und Urheberangaben für die in diesem Datensatz verbreiteten Inhalte prüfen?
Ist das alles enthalten? Kann man wissen, ob alle aufgenommenen Bestandteile compliant sind?
Ich bin offen für die Diskussion, dass ein Generator, der mit einem Modell erstellt wurde, das urheberrechtlich geschützte Daten gefressen hat, urheberrechtliche Pflichten in seinen Ausgaben vermeiden kann; aber der Datensatz selbst ist doch selbstverständlich an die Urheberrechte der Inhalte darin gebunden, oder?
- Dieser Datensatz enthält Books3, im Grunde einen nahezu vollständigen Dump von Bibliotik, einem Torrent-Tracker speziell für raubkopierte E-Books.
  Wenn man eine Wand mit den Namen berühmter Autoren oder Verlage füllt und einen Dartpfeil wirft, ist die Wahrscheinlichkeit groß, dass die getroffene Seite Rechte an einem Teil dieser Daten hat.
  Es wirkt, als dürfe man alles tun, solange man nur „für AI-Forschung“ sagt. Als wäre es okay, Blu-ray-Rips hochzuladen, solange man eine .ai-Domain hat.
- Sie haben es gestohlen, weil sie fanden, dass das Bauen ihres Spielzeugs wichtiger ist als die Rechte, die andere Menschen an den Ergebnissen ihrer eigenen Arbeit haben.
Ich kann nicht glauben, dass Menschen urheberrechtlich geschützte Werke im Internet teilen und erneut posten. Schockierend.
Wie auch immer: Mit RedPajama 30T und The Pile ist das dann „all you need“? ;)
- Für Pretraining, um später bestimmte Aufgaben der Verarbeitung natürlicher Sprache abzudecken, reicht es aus.
  Um interessante Ergebnisse zu erhalten, muss man daraus Instruktionsdatensätze erzeugen, und sie müssen viele unterschiedliche Aufgaben abdecken.
  Nicht die vollständigen Texte selbst bringen ein LLM dazu, Wissen und Schlussfolgern zu zeigen, sondern große und vielfältige Instruktionsdatensätze.
- Wegen der vielen Urheberrechtsdebatten läuft ein Projekt, The Pile v2 zu erstellen, das nur Daten mit freizügigen Lizenzen enthält.
Ist Books3 aus dem The-Pile-Paper genau der Datensatz, wegen dem die Autoren klagen? Der mit massenhaft populärem, urheberrechtlich geschütztem Material?
- Ja. Dem verlinkten Paper zufolge ist Books3 ein Bücherdatensatz, der aus einer Kopie von Inhalten des privaten Trackers Bibliotik abgeleitet wurde, die Shawn Presser veröffentlicht hat.
  Bibliotik enthält eine Mischung aus Belletristik und Sachbüchern, ist fast eine Größenordnung größer als BookCorpus2, der nächstgrößere Bücherdatensatz, und wurde laut Paper aufgenommen, weil Bücher für Forschung zu Long-Context-Modellierung und konsistentem Storytelling wertvoll sind.
- Als Ausgangspunkt, um die verschiedenen rechtlichen Verfahren nachzuvollziehen, scheint diese Liste ganz brauchbar zu sein. Ich weiß nicht, wie häufig sie bis hin zu Fällen wie Silverman et al. aktualisiert wird.
  https://originality.ai/blog/openai-chatgpt-lawsuit-list
- Sieht so aus. Siehe https://www.wired.com/story/battle-over-books3/
- Behaupten sie, ihre Daten kämen nicht aus urheberrechtlich geschützten Quellen oder seien nicht urheberrechtlich geschützt?
Books3 hat viel Aufmerksamkeit bekommen, aber ein weiterer großer Bestandteil dieses Datensatzes ist das etwas irreführend benannte OpenWebText2.
Dabei wurden 15 Jahre lang Drittanbieter-Websites gecrawlt, die in stark empfohlenen Reddit-Einreichungen verlinkt waren, und ein Teil meiner Texte ist auch darin enthalten.
- Relevanz und Auswirkungen einmal beiseitegelassen: Es ist schwer nachzuvollziehen, moralische Rechte an Inhalten geltend zu machen, die man frei zugänglich öffentlich ins Internet gestellt hat.
  Das ist ähnlich, als würde man etwas im Radio senden oder Drucksachen vor die Haustüren von Millionen zufälliger Menschen liefern.
  Es gibt Wege, Eigentumsrechte an geistigem Eigentum zu etablieren und Daten urheberrechtlich zu schützen, aber Tumblr-Fanfiction, YouTube-Kommentare und HN-Diskussionen sind kein formaler Weg zur Absicherung von Copyright.
  Was man auf eine legal crawlbare Website stellt, kann unter Fair Use fallen.
  Mit Daten, die von öffentlichen Websites gesammelt wurden, kann man privat machen, was man will, und man könnte aus einem gecrawlten Datensatz auch ein großartiges HN-LLM bauen und privat nutzen.
  Unter Berücksichtigung der jüngeren Rechtsprechung kann es sogar möglich sein, ein Modell, das mit Werken aus aller Welt trainiert wurde, per API anzubieten und kommerziell zu nutzen, solange man das Urheberrecht respektiert und in gutem Glauben bemüht ist, die Wiedergabe der Originaltexte zu verhindern.
  Wenn man jedoch das Modell selbst verkauft oder verteilt, betritt man ein anderes Rechtsgebiet.
  Das Internet wurde ursprünglich so konzipiert, und wenn man den Zugriff verhindern will, muss man Authentifizierung, Netzwerkeinstellungen und Zugriffskontrollen implementieren.
  Wenn man ohne solche Vorkehrungen etwas auf eine öffentliche Website stellt, sollte man davon ausgehen, dass man einen erheblichen Teil des Schutzanspruchs gegen breit angelegten Fair Use aufgibt; sobald man Server und Domain betreibt, lädt man die ganze Welt implizit zum Herunterladen ein.
  Was du bei OpenWebText2 als Missbrauch empfindest, rührt im Kern daher, dass du es auf eine öffentliche Website gestellt und damit die Kontrolle über die spätere Nutzung verloren hast; es wurde fair gecrawlt.
- Nenn mir den Domainnamen, dann prüfe ich in den großen LLMs, ob es Plagiate gibt.
  Ich vermute, dass keines der Modelle auch nur einen Satz aus deinem Text erzeugen kann.
Kann man es noch irgendwo bekommen? Ich wollte es vor ein paar Monaten herunterladen, aber der Download-Link war 404, und das scheint immer noch so zu sein.
- Die Verbreitung läuft größtenteils über Torrents/Magnet-Links und den direkten Austausch von Festplatten.
  Wenn du niemanden kennst, der es bereits hat, kannst du öffentliche Tracker suchen.
  Du solltest dir aber bewusst sein, dass die Verbreitung wegen der enthaltenen urheberrechtlich geschützten Inhalte Piraterie darstellt.
- Ich weiß nicht, ob es okay ist, hier einen Magnet-Link zu posten.
  magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667&dn=EleutherAI_ThePile_v1
- The Pile ist alte News, und es gibt den Hinweis, sich neuere Datensätze wie the-stack-v2 anzusehen.
  https://huggingface.co/datasets/bigcode/the-stack-v2
  — https://the-eye.eu/public/AI/pile/readme.txt
- The Pile enthält viele kuratierte Quellen, und der aktuelle Trend geht dahin, kuratierte Datenquellen mit gefilterten Web-Crawls zu kombinieren.
  Zum Beispiel, indem man Common Crawl stark verarbeitet und beimischt; Beispiele dafür sind das von anderen erwähnte dolma oder the-stack-v2 für Code-Modelle.
Der Name ist cool. Er erinnert mich an den ursprünglichen „Pile“ des Manhattan Project.
Ich habe darüber in „The Making of the Atomic Bomb“ (1986) gelesen, und wahrscheinlich kam er auch im jüngsten Film vor.
- Tatsächlich kommt er fast gar nicht vor. Ich meine, es gab nur eine Szene, in der er sehr kurz erwähnt wurde.
  Der Film fühlte sich an, als wären Anekdoten aneinandergereiht worden, um am Ende eine etwas platte Botschaft zu formulieren.
  Als fiktionale Geschichte statt als echte Rekonstruktion war es ein guter Film, aber ich würde eher zum Buch greifen.
  Wenn dich besonders Fermi interessiert, empfehle ich David Schwartz’ „The Last Man Who Knew Everything“.
The Pile ist schon ziemlich alt – ist das eine aktualisierte Version?
- Nein.
  In diesem Zusammenhang wurde kürzlich Version 2 des the-stack-Datensatzes veröffentlicht.
  Dafür wurde der Graph-Datensatz von Software Heritage vom 06.09.2023 durchlaufen; gesammelt wurden 3,28 Milliarden eindeutige Dateien aus 104,2 Millionen GitHub-Repositories. Zusätzlich wurden aus den GitHub-Archive-Daten bis zum 14.09.2023 Metadaten auf Repository-Ebene erfasst.
  Die gesamte unkomprimierte Größe beträgt 67,53 TB, und in der Vorverarbeitungs-Pipeline wurde auf exakter Deduplizierung zusätzlich eine näherungsweise Deduplizierung implementiert.
  Nach der Deduplizierung liegen v1 und v2 nach Größe und Token-Anzahl bei 2,9 TB·200B bzw. 32,1 TB·900B.
  Es sieht so aus, als würden bald ziemlich leistungsfähige öffentliche Coding-Modelle erscheinen; die Modelle, die ich testen möchte, sind dolphincoder-starcoder2-15b-iMat.GGUF, CodeFuse-DeepSeek-33B-iMat.GGUF, OpenCodeInterpreter-DS-33B-iMat.GGUF und starcoder2-15b-instruct-iMat.GGUF.
  Datensatz: https://huggingface.co/datasets/bigcode/the-stack-v2
  GGUF-Quantisierung: https://huggingface.co/dranger003
Große Hollywood-Studios zahlen mehreren Cybersecurity-Unternehmen viel Geld dafür, raubkopierte Inhalte aufzuspüren und Hosting-Anbietern Mitteilungen zur Unterlassung von Urheberrechtsverletzungen zu schicken.
Wenn sich Autoren und Künstler in Form von Daten-Zusammenschlüssen oder Ähnlichem organisieren, könnten sie dasselbe tun wie die Studios.
Wenn das Urheberrecht tatsächlich Durchsetzungskraft hat, könnten solche Organisationen rechtliche Aufforderungen an die Stellen schicken, die die Inhalte hosten, und deren Entfernung verlangen.

The Pile, ein Open-Source-Datensatz für Sprachmodellierung mit 825 GiB Umfang (2020)

Zusammensetzung und Bereitstellung von The Pile

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Rolle als Trainingsset und Benchmark

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare