Wie groß ist YouTube?

(ethanzuckerman.com)

1 Punkte von GN⁺ 2023-12-23 | 1 Kommentare | Auf WhatsApp teilen

Ohne einen Nenner, an dem sich die gesamte Plattform messen lässt, verlieren auch Forschungsergebnisse zu Desinformation oder zum Einfluss von Empfehlungen leicht ihren Kontext; das Forschungsteam versucht deshalb, die Gesamtgröße von YouTube per Zufallsstichprobe zu schätzen
YouTube-Video-IDs sind 11-stellig, und der mögliche Adressraum umfasst 2^64 Kombinationen, sodass es mit bloßer Eingabe zufälliger URLs fast unmöglich ist, gültige Videos zu finden
Mit einer „drunk dialing“-Methode und Effizienztechniken sammelte das Forschungsteam über mehrere Monate mehr als 10.000 echte zufällige Videos und schätzt, dass es derzeit rund 13,325 Milliarden Videos auf YouTube gibt
Die Analyse der Stichprobe zeigt, dass allein 2023 mehr als 4 Milliarden Videos hochgeladen wurden und der Median der Aufrufe bei 39 liegt, was verdeutlicht, wie groß der Long Tail von YouTube ist
Tubestats will die Größenschätzung laufend aktualisieren, doch es bleiben auch ethische Einschränkungen, weil Video-URLs, die zwar öffentlich sind, aber faktisch kaum auffindbar waren, nicht offengelegt werden sollen

Das Nennerproblem, das YouTube-Forschung erschwert

Forschung zu sozialen Medien konzentriert sich leicht auf auffällige Phänomene wie Desinformation oder Hassrede, doch ohne zu wissen, welchen Anteil sie an der Gesamtplattform haben, gerät die Einschätzung ihrer Größe ins Wanken
- So kann man zum Beispiel die Zahl der Ergebnisse für Suchbegriffe wie „white genocide“ oder „ivermectin“ zählen
- Der Avaaz-Bericht vom August 2020 zu COVID-Desinformation zählte 3,8 Milliarden Aufrufe innerhalb eines Jahres, doch ohne den Nenner der gesamten Plattformaufrufe ist schwer zu beurteilen, ob das viel oder wenig ist
Reddit und Twitter boten eine Zeit lang Datenzugänge, mit denen sich die Gesamtplattform abschätzen ließ
- Bei Reddit ermöglichte Pushshift das Sammeln aller Beiträge, sodass Größenvergleiche zwischen Communities möglich waren
- Seit der Sperrung des öffentlichen Zugangs zu Pushshift im Sommer 2023 kann Redditmap.social nur noch Daten verwenden, die Anfang jenes Jahres erzeugt wurden
- Twitter stellte über seine Research API Stichproben von einem Zehntel oder einem Hundertstel aller Tweets bereit, kappte diesen Zugang später jedoch und verlangte hohe Gebühren für deutlich weniger Zugriff

Für YouTube ist es schwer, eine repräsentative Stichprobe zu bekommen

YouTube ist eine große Plattform, die von fast allen Internetnutzerinnen und -nutzern verwendet wird
- Laut Pew nutzen 93 % der Jugendlichen YouTube
- Die nächstliegenden Dienste sind TikTok mit 63 % und Snapchat mit 60 %
Trotz dokumentierter API gibt es keinen guten Weg, eine zufällige repräsentative Stichprobe von ganz YouTube zu erhalten
Bisherige YouTube-Forschung stützt sich meist auf zwei Ansätze
- Es werden alle Videos ausgewählter Nutzerkanäle gesammelt und analysiert
- Oder man startet bei einem bestimmten Video und sammelt entlang der empfohlenen Videos weiter
Beide Ansätze sind für sinnvolle Forschung nutzbar, reichen aber nicht aus, um eine Stichprobe aller YouTube-Videos zu erstellen oder die Größe der Plattform zu berechnen

„Drunk dialing“ durch Ausprobieren zufälliger URLs

Jason Baumgartner schlug vor, die inoffizielle YouTube-API InnerTube zu nutzen, um zufällige URLs auszuprobieren
Die Video-ID in einer YouTube-URL ist die 11-stellige Zeichenfolge hinter watch?v=
- Für die ersten 10 Zeichen sind a-z, A-Z, 0-9, _, - möglich
- Das letzte Zeichen kann nur einer von 16 Werten sein
- Insgesamt gibt es 2^64 mögliche YouTube-Adressen, also etwa 18,4 Quintillionen
Selbst wenn man von 1 Milliarde YouTube-Videos ausgeht, läge die Wahrscheinlichkeit, dass eine zufällige URL gültig ist, nur bei etwa 1 zu 18,4 Milliarden
Das Forschungsteam nannte diesen Ansatz „drunk dialing“, und Jason Baumgartner fand einen Umweg, der die Effizienz um etwa 32.000-fach erhöhte
Kevin Zheng schrieb ein Suchskript und sammelte über mehrere Monate mehr als 10.000 echte zufällige YouTube-Videos

Größe und Verteilung von YouTube aus Sicht einer Zufallsstichprobe

Die aktuelle Schätzung für die Größe von YouTube liegt bei 13,325 Milliarden Videos und wird auf tubestats.org alle paar Wochen aktualisiert
Anhand des Alters zufälliger Videos lässt sich das Wachstumstempo von YouTube berechnen
- Allein im Jahr 2023 wurden schätzungsweise mehr als 4 Milliarden Videos auf YouTube veröffentlicht
Die Verteilung der Aufrufe zeigt einen ausgeprägten Long Tail
- Der Median der Aufrufe von YouTube-Videos liegt bei 39
- YouTube empfiehlt gern Videos mit mehr als 10.000 Aufrufen
- Videos mit mehr als 10.000 Aufrufen machen zwar nur etwa 4 % des Datensatzes aus, stellen aber einen großen Anteil an den gesamten YouTube-Aufrufen
Die gesammelten Zufallsvideos werden auch genutzt, um die Sprachverteilung zu schätzen
- Kevin Zheng verband das Suchskript mit mehreren Systemen zur Spracherkennung
- Diese Schätzung ist vertretbar, aber nicht perfekt

Die effizientere dash method

Die Suche über zufällige URLs zielt auf den gesamten Adressraum und kann daher als Maßstab dienen, um die Zufälligkeit anderer Stichprobenverfahren zu prüfen
Das Forschungsteam urteilte, dass andere Methoden zur Erzeugung von Videolisten als „plausibel zufällig“ gelten können, wenn sie ähnliche Ergebnisse wie die Zufallssuche liefern
Ein von Jia Zhou und anderen 2011 entdecktes Verfahren funktioniert als effizientere Methode zur Stichprobensammlung
- Es wird eine 5-stellige Zeichenfolge erzeugt, in der ein Zeichen ein Bindestrich ist
- Die YouTube-Autovervollständigung ergänzt diese URL und gibt, falls vorhanden, passende Videos zurück
Kevin Zheng fragt YouTube derzeit regelmäßig mit dieser dash method ab und pflegt damit das Tubestats-Dashboard

Long-Tail-Videos und ethische Einschränkungen

Zufallsstichproben werden nicht nur genutzt, um erfolgreiche Influencer zu betrachten, sondern auch, um zu untersuchen, wie Kreative am unteren Ende des Long Tail nutzergenerierter Medien die Werkzeuge einsetzen
Die meisten gesammelten Videos wurden nur von einigen Dutzend Menschen gesehen
- Würde man die URLs veröffentlichen, könnten Videos, die zwar „öffentlich“ sind, aber faktisch kaum sichtbar waren, öffentlicher Prüfung ausgesetzt werden
- Deshalb enthält die wissenschaftliche Arbeit keine Liste der gefundenen Video-URLs
Ryan McGrady leitete die Arbeit, 1.000 zufällige Videos direkt anzusehen und manuell zu codieren
Die zugehörige Arbeit erschien im Journal of Quantitative Description, und eine Vorstellung der manuellen Codierung ist in Ryans Beitrag zusammengefasst

Warum Tubestats weiter betrieben werden soll

Das Forschungsteam plant, Tubestats so lange wie möglich weiter zu betreiben
Es ist möglich, dass YouTube gegen diese Ressource oder die Methode zu ihrer Erstellung vorgeht
Große Plattformen für nutzergenerierte Medien sind ein wichtiger Teil der digitalen Öffentlichkeit; deshalb sollten hochrangige Daten darüber, was sich auf der Plattform befindet, wer es erstellt und wen es erreicht, regelmäßig veröffentlicht werden

1 Kommentare

GN⁺ 2023-12-23

Hacker-News-Kommentare

Die Art der Stichprobenziehung ist wirklich clever, und den Autoren gebührt Applaus. Als ich bei Pew war, habe ich versucht, YouTube per Random Walk entlang des YouTube-API-Endpunkts für "related videos" zu kartieren, und nach etwa einem Jahr schien ein Sättigungspunkt erreicht zu sein. Aber wenn man sich die hier ermittelte Größenordnung ansieht, scheint es einen ziemlich langen Long Tail unterhalb des Radars zu geben.
Kaum hatten wir die Studie veröffentlicht, begann Google fast sofort damit, die API dichtzumachen, daher ist es schön zu sehen, dass es immer noch Leute gibt, die die Forschung mit altmodischem Scraping fortsetzen. Unsere damalige Analyse war auf Kanalebene und konzentrierte sich nur auf populäre Kanäle, aber es ist auch interessant, dass einige Zahlen von TubeStats ziemlich ähnlich zu dem sind, was wir gefunden haben. Zum Beispiel die Sprachverteilung: https://www.pewresearch.org/internet/2019/07/25/a-week-in-th...
- Wenn man bedenkt, dass Google-Bots das Web ununterbrochen crawlen und Sites fast zu Tode hämmern, ist es ziemlich ironisch, dass Google die API dichtgemacht hat
- Mit dieser Methode könnte man auch Dinge wie teilweise eingeschränkte öffentliche Videos finden, die in Empfehlungen nicht verlinkt sind
- Diese Technik ist nicht neu. Biologen verwenden sie, um die Zahl der Fische in einem See zu schätzen.
  Man fängt 100 Fische, markiert sie, wartet eine Woche und fängt dann erneut 100, um zu zählen, wie viele davon markiert sind
- Ich glaube, YouTube hat die API nach dem Cambridge-Analytica-Skandal dichtgemacht
Das ist ein interessanter Ansatz, um Gegenmaßnahmen zum deutschen Panzerproblem anzugehen https://en.m.wikipedia.org/wiki/German_tank_problem
Die optimale Lösung wäre vermutlich, den Adressraum so groß zu machen, dass eine Zufallsstichprobe nicht genügend Daten sammeln kann, um zu statistisch signifikanten Schlussfolgerungen zu kommen. Es gibt sicher auch andere gute Ansätze, etwa die Verteilung auf verschiedene Weise zu verändern, aber bei einer wirklich zufälligen Stichprobe wären Gegenmaßnahmen in dieser Richtung wohl begrenzt
- Ich habe es im Artikel nicht gesehen, aber das hängt von der Annahme einer diskreten Gleichverteilung ab. Man weiß nicht, welche Spielereien Google mit den Identifikatoren gemacht haben könnte
- Ich verstehe nicht, wie eine Zufallsstichprobe mit etwas wie einer geklumpten Verteilung umgehen soll. Beruht die Schätzung nicht auf einer Kontinuitätsannahme?
  Wenn es zum Beispiel Adressen von /v=0x00 bis 0xff gibt, tatsächlich aber nur f0 bis ff verwendet werden, wäre die Schätzung dann nicht immer verzerrt, wenn man annimmt, dass die Videos zufällig verteilt sind?
  Man weist also Adressen zu, nachdem man einen beliebigen Filter auf den adressierbaren Raum angewendet hat. Eine Zufallsstichprobe auf dieselbe Weise würde im gleichen Ausmaß danebenliegen, aber die durch den Filter erzeugte Dünnbesetzung lässt sich nicht erkennen
Auch der Datensatz "YouTube dislikes" ist einen Blick wert: https://clickhouse.com/docs/en/getting-started/example-datas...
Er heißt so, weil es sich um ein Archivierungsprojekt handelte, das die Informationen noch vor der Entfernung der Dislike-Funktion erfassen wollte. Man kann ihn nutzen, um die umstrittensten Videos oder die Top-Videos mit Beschreibungen in einer bestimmten Sprache zu finden
- YouTube ist so groß und öffentlich, dass die Plattform fast ein öffentliches Gut ist, daher sind Statistiken wie Dislike-Zahlen wichtig.
  Im Artikel heißt es auch: „YouTube may object to this resource or the methods used to construct it. In response, we believe that this sort of high-level data should be regularly made available for all major user-generated media platforms. Such platforms are among the most important parts of the digital public sphere, and we need much more information about what is on them, who creates it, and who it reaches.“
  Der Staat sollte vorschreiben, dass Plattformen solche Statistiken offenlegen, damit statistische Behörden sie erfassen können
- Der Verfasser dieses Kommentars ist der ClickHouse-CEO
Ich wollte wissen, wie viele Daten YouTube besitzt, aber diese Zahl gab es nicht. Eine grobe Berechnung auf Basis der verfügbaren Statistiken ergab eine durchschnittliche Videolänge von etwa 500 Sekunden.
Setzt man die Bitrate mit 400 KB/s und die Zahl der Videos mit 13 Milliarden an, kommt man auf 2,7 Exabyte. Die 400 KB/s sind eine sehr grobe Schätzung, gewonnen aus einigen direkt heruntergeladenen FHD-Videos mit 24–30 fps. YouTube dürfte Bereiche mit geringerer wahrgenommener Informationsdichte mit niedrigerer Bitrate kodieren, und Videos unterscheiden sich stark bei Auflösung und Framerate; auch deren Verteilung hat sich im Lauf der Dienstgeschichte verändert. Nimmt man stattdessen für alle Videos 4K mit einer Bitrate von 1,5 MB/s an, landet man bei 10 Exabyte.
Diese Schätzung setzt den von YouTube benötigten Speicher eher zu niedrig an. Beliebte Videos dürften in mehreren Rechenzentren und sowohl als VP9 als auch als AV1 gespeichert werden. Umgekehrt könnte die Schätzung zu hoch sein, wenn unbeliebte Videos komprimiert oder bei Bedarf aus anderen Formaten transkodiert würden, aber das erscheint eher unwahrscheinlich.
- Diese Speicherschätzung liegt wahrscheinlich um eine Größenordnung daneben.
  400 KB/s, also die in der Videokodierung oft verwendeten 3,2 Mbps, sind für FHD in Originalqualität, also bezogen auf 1080p-Uploads, ziemlich niedrig. Die 4K-Zahl liegt ziemlich nahe am durchschnittlichen Upload in Originalqualität.
  Dazu kommt, dass YouTube mindestens mit den beiden Videocodecs H.264 und VP9 komprimiert. Für jeden Codec gibt es je nach Qualität des Originaluploads alle Auflösungen von 320p bis 1080p und darüber hinaus. Beliebte Videos und ein erheblicher Teil der 4K-Videos werden auch in AV1 kodiert. Manche gibt es sogar in HEVC für 360-Grad-Surround-Videos. Ja, richtig gelesen. YouTube hat H.265 HEVC.
  Und all das berücksichtigt noch nicht einmal Replikation oder doppelte Speicherung. Es wäre nicht überraschend, wenn die Gesamtmenge leicht 100 EB übersteigt. Das entspräche 100 Dropbox aus dem Jahr 2020.
- Einerseits ist es nicht einfach „nur zwei Formate?“. Es gibt auch weitere wie H.264, und dazu mehrere Auflösungen. Außerdem könnte oder konnte es vertragliche Verpflichtungen geben, bestimmte Auflösungen stets in bestimmten Formaten anzubieten.
  Andererseits gibt es möglicherweise sehr viele Videos mit absurd niedrigen Aufrufzahlen. Und außerdem sollte man bedenken, dass YouTube sogar eigene Transcoding-Chips entwickeln musste. Es ist buchstäblich kompliziert.
  Vor zehn Jahren kannte ich die Antwort auf diese Frage und half den für den Speicher zuständigen Leuten dabei, die Kosten zu senken. Vor ein paar Tagen erfuhr ich, dass einer von ihnen, R.L., dieses Jahr im Februar gestorben ist. RIP
- Replikation und der Overhead durch Erasure Coding fehlen hier. 10 Exabyte wirken ehrlich gesagt sehr niedrig. Inzwischen scheint es eher in Richtung 50–100 EB zu gehen.
- Auf Basis der 2013 gemeldeten Jahreszahlen zu den pro Minute hochgeladenen Stunden kam man auf 375 PB an Inhalten; dazu ein Zuwachs von 185 TB pro Tag und eine jährliche Wachstumsrate von 70 %.
  Diese Berechnung enthält weder mehrere Encodes noch die Speicherung der Originale.
- Man muss auch berücksichtigen, dass YouTube die Kopie des ursprünglichen Uploads dauerhaft aufbewahrt. Das Original könnte eine größere Datei sein.
Als Ergebnis dieses Artikels gibt es eine verlinkte Website: https://tubestats.org/
Google stellte früher in manchen Bewerbungsgesprächen Skalierbarkeitsfragen zu YouTube. Meist lief es auf das Problem hinaus, Log-Daten in einer wachsenden verteilten Infrastruktur zu synchronisieren, und endete bei fast schon absurd komischen Big-O(f(n))-Ergebnissen, die sich kaum noch in Worte fassen ließen.
Quelle: Ich habe ein paar Google-Interviews gemacht.
Der Autor schrieb, dass er „cheats“ verwendet hat. Je nachdem, was diese tun, könnte die iid-Annahme unabhängiger Stichproben verletzt sein.
Wenn es so etwas wie Snowball Sampling ist, könnte eine „übermäßige“ Erfolgsquote entstehen und die Zahlen aufblasen. Gemeint ist die Stelle: „Jason fand ein paar Cheats, die diese Methode ungefähr 32.000-mal effizienter machten, sodass unsere ‚Anrufe‘ viel häufiger verbunden wurden.“
- Man muss nur bis zum Ende des Artikels lesen.
  Dort steht: „2011 von Jia Zhou et al. entdeckt und weit effizienter als unser naiver Ansatz. Wenn man eine fünfstellige Zeichenkette erzeugt, bei der ein Zeichen ein Bindestrich ist, vervollständigt YouTube diese URL automatisch und liefert, falls vorhanden, das passende Video zurück.“
- Wahrscheinlich gibt es in der URL eine Prüfsumme, sodass Tippfehler erkannt werden können, ohne tatsächlich auf das Video zuzugreifen.
  Auch wenn man nicht weiß, wie diese Prüfsumme erzeugt wird, könnte man für eine Stichprobe aus dem tatsächlichen ID-Raum alle entsprechenden Werte durchprobieren.
- Der Cheat nutzt vermutlich so etwas wie eine Playlist-API, die das Vorhandensein von Videos als Einzelresultate zurückliefert.
  Man könnte zum Beispiel eine Playlist per API mit den IDs x, x+1, x+2, ... anlegen und dann die Liste abrufen; enthalten wäre dann etwa nur die vergebene ID x+2.
- Wenn die Stichprobe verzerrt wäre, sähen die Daten vermutlich nicht so sauber aus. Wenn Google da etwas Interessantes eingebaut hätte, wäre es wahrscheinlich nicht bei nur geringer Verzerrung geblieben.
- Stimme zu.
  Selbst als Statistik-Laie bräuchte ich einen Beleg dafür, dass durch Cheats und Autovervollständigung die Unabhängigkeit der Stichproben nicht verletzt wird und die Auswahl so zufällig wie möglich bleibt.
  Wenn man betrunken zufällig Telefonnummern wählt, dabei aber jedes Mal jemand wie ein Operator hilft, falsch gewählte Nummern so zu korrigieren, dass man doch bei jemandem landet, wirkt das nicht zufällig.
  Allerdings habe ich das 85-seitige Paper nicht gelesen. Vielleicht wird es dort behandelt.
Interessanter Datensatz. Das Paper vermittelt bei den Kanalstatistiken einen leicht irreführenden Eindruck.
Soweit ich es verstehe, wird bei der Zahl der Abonnenten nicht durch Neugewichtung für den Stichprobenbias korrigiert. Wenn die Stichprobe nur ein kleiner Teil der Grundgesamtheit ist, dann ist die Wahrscheinlichkeit, dass ein bestimmter Kanal auftaucht, proportional zur Zahl seiner öffentlichen Videos; man müsste also grob mit 1/Videomenge pro Kanal gewichten.
- Das ist mir auch aufgefallen. Dass 1 Million Abonnenten dem 98. Perzentil entsprechen sollen, klingt wenig plausibel; es dürfte kaum niedriger als das 99,999. Perzentil sein.
Für alle Neugierigen: Die Schätzmethode hier funktioniert ungefähr so:
Man nimmt einen Wertebereich an und eine faire Wahrscheinlichkeitsfunktion, die aus diesem Bereich Stichproben zieht. Die geschätzte Größe ist dann die Trefferquote multipliziert mit dem gesamten Wertebereich.
- Ich habe den Artikel überflogen, und falls das so ist, dann stecken ziemlich viele Annahmen darin.
  Nehmen wir an, der Bereich möglicher Werte stimmt. Wenn es die Form „10 Zeichen aus einem bestimmten Bereich plus 1“ hat, dann beschreibt das einen riesigen Kreis möglicher Videos.
  Entscheidend ist die Verteilung der Kennungen, also der gültigen Videos. Falls YouTube den IDs Beschränkungen oder Verzerrungen auferlegt hat, die wir nicht kennen, dann könnten die tatsächlich existierenden Video-IDs nur einen kleineren Kreis innerhalb dieses großen Möglichkeitsraums bilden und dort nicht gleichmäßig verteilt sein. Es könnte Cluster geben. Dann müsste man Stichproben ziehen, indem man sozusagen Darts in den Raum wirft, etwa nach etwas wie einer Poisson-Verteilung, um die Silhouette dieser Verzerrung zu erfassen oder zumindest zu prüfen, ob es ungefähr zufällig ist.
  Erst danach könnte man die Größe schätzen. Ist das tatsächlich das, was hier gemacht wird? Und hat einfach niemand YouTube direkt gefragt?
Diese Methode lässt sich wirklich leicht blockieren. Man müsste nur für einen bestimmten Anteil nicht existierender Identifikatoren zufällige Videos zurückgeben. Wenn man noch etwas Zufälligkeit einstreut, reicht das schon
Genau das ist das Risiko, das mit der Beschreibung der Methode einhergeht
- Dann dürfte es allerdings sehr schwierig sein, das zu implementieren, ohne viele Invarianten des Gesamtsystems zu verletzen
  Zum Beispiel Bedingungen wie: Video-IDs müssen unveränderlich sein, und ein Video darf nur durch genau eine eindeutige Video-ID repräsentiert werden
- Wenn bei einer zufällig generierten ID ein Video zurückkommt, kann man sofort noch einmal dieselbe Anfrage stellen und prüfen, ob es dasselbe Video wie zuvor ist
  Ist es nicht dasselbe, verwirft man das Ergebnis und kann davon ausgehen, dass die generierte ID in Wirklichkeit nicht existiert. Ist es dasselbe, weiß man, dass es eine echte ID ist
  Solange YouTube-Video-URLs unveränderlich sind, kann diese Methode die oben genannte Blockade umgehen
- Wenn YouTube allerdings nicht offenlegt, dass sie so etwas tun, wüssten wir nicht, ob die Methode unwirksam gemacht wurde. Außerdem hätte dieses andere Video seine eigene bestehende UID, sodass man theoretisch auch nicht wüsste, ob es zur Störung solcher Messungen dupliziert wurde
- Kaum vorstellbar, in so einem System einen Produktionsfehler zu debuggen
- Sind Video-IDs innerhalb des nutzbaren Domains sequentiell, oder sind sie völlig verstreut? Gibt es Gemeinsamkeiten zwischen bekannten aktiven Video-IDs, die es erleichtern würden, Möglichkeiten im Quintillionen-Bereich systematisch zu durchsuchen?

Wie groß ist YouTube?

Das Nennerproblem, das YouTube-Forschung erschwert

Für YouTube ist es schwer, eine repräsentative Stichprobe zu bekommen

„Drunk dialing“ durch Ausprobieren zufälliger URLs

Größe und Verteilung von YouTube aus Sicht einer Zufallsstichprobe

Die effizientere dash method

Long-Tail-Videos und ethische Einschränkungen

Warum Tubestats weiter betrieben werden soll

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare