1 Punkte von GN⁺ 2023-12-23 | 1 Kommentare | Auf WhatsApp teilen

Der Inhalt dieser Anfrage kann nicht zusammengefasst werden. Der bereitgestellte Artikelinhalt besteht aus der Fehlermeldung „403 Forbiddennginx“, die nicht den eigentlichen Artikelinhalt darstellt, sondern einen HTTP-Statuscode für fehlende Zugriffsberechtigung. Dieser Fehler tritt in der Regel auf, wenn der Webserver die Anfrage verstanden hat, aber keine Berechtigung besteht, sie auszuführen.

Meinung von GN⁺

  • Der Fehler „403 Forbidden“ ist Webentwicklern und Systemadministratoren ein vertrautes Problem und kann durch falsche Berechtigungseinstellungen oder Konfigurationsfehler des Servers verursacht werden.
  • Diese Fehlermeldung bedeutet, dass der Server den Zugriff verweigert hat, als ein Benutzer auf einen bestimmten Teil der Website zugreifen wollte.
  • Solche Fehler stehen in engem Zusammenhang mit Websicherheit und sind eine wichtige Funktion, um zu verhindern, dass Benutzer ohne angemessene Berechtigung auf sensible Informationen zugreifen.

1 Kommentare

 
GN⁺ 2023-12-23
Hacker-News-Kommentare
    • Das ist eine sehr clevere Art des Samplings, und den Autoren gebührt Applaus. Als ich bei Pew arbeitete, haben wir versucht, YouTube durch zufällige Erkundung über den API-Endpunkt für „verwandte Videos“ zu kartieren, und nach einem Jahr schien es, als hätten wir eine Sättigung erreicht. Die hier beschriebene Größe deutet jedoch darauf hin, dass es einen Long Tail gibt, der unter dem Radar bleibt. Kurz nachdem wir unsere Forschung veröffentlicht hatten, begann Google fast sofort, die API abzuriegeln, aber ich freue mich, dass Leute die Forschung weiterhin mit klassischem Scraping verfolgen. Unsere Analyse erfolgte auf Kanalebene und konzentrierte sich nur auf populäre Kanäle, aber es ist interessant, dass einige Zahlen von TubeStats dem ziemlich nahekommen, was wir gefunden haben (z. B. die Sprachverteilung).*
    • Lob für die clevere Sampling-Methode und das Teilen ähnlicher Forschungserfahrungen bei Pew
    • Positive Reaktion darauf, dass die Forschung trotz eingeschränktem API-Zugang von Google per Scraping weitergeht
    • Hinweis darauf, dass die eigene Forschung und die Daten von TubeStats Ähnlichkeiten aufweisen
    • Das ist interessant als abgeschwächte Angriffsmethode auf das deutsche Panzerproblem. Die optimale Lösung wäre vermutlich, den Adressraum zu vergrößern, um zu verhindern, dass eine Zufallsstichprobe die für statistisch signifikante Schlussfolgerungen nötigen Daten sammeln kann. Es gibt sicher auch andere gute Lösungen, aber wirklich zufällige Stichproben würden solche Ansätze einschränken.*
    • Verweis auf das deutsche Panzerproblem sowie der Vorschlag, den Adressraum zu erweitern, um Datensammlung zu verhindern
    • Ich würde empfehlen, sich den „YouTube Dislikes“-Datensatz anzusehen. Dieser Datensatz entstand als Archivierungsbemühung, um Informationen zu sammeln, bevor die Dislike-Funktion entfernt wurde. Damit kann man die umstrittensten Videos finden, die Top-Videos mit Beschreibungen in einer bestimmten Sprache usw.*
    • Hinweis auf Analysemöglichkeiten mit dem YouTube-Dislikes-Datensatz
    • Ich habe versucht herauszufinden, wie viele Daten YouTube besitzt, aber auf die Zahl bin ich nicht gestoßen. Bei einer angenommenen durchschnittlichen Videolänge von 500 Sekunden und einer Bitrate von 400 KB/s kam ich bei 1,3 Milliarden Videos auf 2,7 Exabyte. Das ist eine niedrige Schätzung im Vergleich zu dem, was an Speicher nötig wäre, wenn man bedenkt, dass YouTube populäre Videos in mehreren Rechenzentren speichert und in den Formaten VP9 und AV1 vorhält. Es ist möglich, dass YouTube unpopuläre Videos komprimiert oder bei Bedarf aus anderen Formaten transkodiert; das könnte die Schätzung erhöhen, aber ich glaube eher nicht, dass es so ist.*
    • Schätzung der Datenmenge von YouTube und Vermutungen zur Speicherweise
    • Google fragte bei manchen Positionen nach den Skalierungsproblemen von YouTube. Oft führte das zu Big-O-Komplexitätsfragen darüber, wie Log-Daten in einer wachsenden verteilten Infrastruktur synchronisiert werden. Das Ergebnis war eine Big-O(f(n))-Funktion, die fast zu komplex war, um sie noch erklären zu können. Hat Spaß gemacht.*
    • Hinweis auf Skalierungsprobleme von YouTube basierend auf Interview-Erfahrungen bei Google
    • Das Begleit-Webangebot zu den Ergebnissen dieses Artikels ist: TubeStats.org*
    • Link zu einer mit dem Artikel verbundenen Website
    • Zu groß. Gestern Abend bekam ich auf meinem Handy eine Benachrichtigung, die YouTube-App zu aktualisieren. Das Problem ist, dass das die letzte Version ist, die auf meinem Handy läuft. Wenigstens funktioniert das Web noch.*
    • Persönliche Erfahrung mit der Größe der YouTube-App und Update-Problemen
    • Dieser Datensatz macht Spaß. Das Paper vermittelt bei den Kanalstatistiken einen leicht falschen Eindruck: Wenn man die Zahl der Abonnenten nicht neu gewichtet, um den Sampling-Bias zu korrigieren, muss man Videos pro Kanal mit ungefähr 1/# gewichten, weil die Wahrscheinlichkeit, dass ein bestimmter Kanal auftaucht, proportional zur Zahl seiner öffentlichen Videos ist.*
    • Erläuterung möglicher Fehlinterpretationen des Datensatzes bei Kanalstatistiken und der Sampling-Methode
    • Geht die Sampling-Funktion davon aus, dass alle „Region Codes“ die gleiche Anzahl verfügbarer Nummern enthalten? Bei einigen großen Sites (z. B. Twitter usw.) könnten die Shards mit stärker nachgefragten Daten deutlich weniger dicht belegt sein. Zum Beispiel gäbe es im Region Code mit Justin Bieber weniger Nummern. Das könnte ziemlich verzerren.*
    • Hinterfragt die Sampling-Methode und weist darauf hin, wie Dichteunterschiede bestimmter Daten-Shards die Ergebnisse beeinflussen könnten
    • Ausdruck der Bewunderung für eine bestimmte Website