14 Punkte von GN⁺ 2024-08-22 | 4 Kommentare | Auf WhatsApp teilen
  • Das semantische Web war das frühere Web 3.0. Bevor „Web 3.0“ „Dinge wie Krypto“ bedeutete, meinte es „maschinenlesbare (Machine-Readable) Websites“
  • Ich dachte, das Konzept des semantischen Webs werde nicht mehr verwendet, aber tatsächlich ist es inzwischen sehr breit angenommen – so sehr, dass man kaum übertreibt, wenn man sagt, wir nutzen bereits Web 3.0
  • Wenn Web 3.0 bereits existiert, wo ist es dann? Zum größten Teil ist es im Markup verborgen

Blog-Posting mit JSON-LD

  • Im <head> einer HTML-Seite lässt sich ein <script type="application/ld+json">-Element hinzufügen, um JSON-LD-Metadaten einzubetten
  • JSON-LD ist das wichtigste Format zum Kodieren von Metadaten für das semantische Web
  • Beispiel: Beschreibung mit dem Typ BlogPosting
{  
  "@context": "https://schema.org";,  
  "@type": "BlogPosting",  
  "headline": "From Shell to Excel - with a little bit of HTTPS",  
  "url": "https://csvbase.com/blog/10";,  
  "description": "Write once, read everywhere",  
  "author": {  
    "@type": "Person",  
    "name": "Cal Paterson",  
    "email": "cal@calpaterson.com",  
    "url": "https://calpaterson.com/about.html";  
  },  
  "image": "https://csvbase.com/blog-static/excel.png";,  
  "datePublished": "2024-08-12",  
  "dateCreated": "2024-08-12",  
  "dateModified": "2024-08-12"  
}  
  • Schlüssel, die mit @ beginnen, sind Metadaten (Meta-Metadaten?)
    • @context bezeichnet den Namespace, @type den Klassentyp
    • Die übrigen Schlüssel sind Felder, die beim Typ BlogPosting zulässig sind
  • Die Werte von Schlüsseln können auch andere Typen sein (wie Person beim Schlüssel author)

Was bringt mir das?

  • Wer liest das? Viele Bots parsen JSON-LD-Metadaten
  • Blogposts mit Metadaten für das semantische Web erhalten auf Social-Media-Seiten Link-Vorschauen, was die Klickrate erhöhen kann
  • Suchmaschinen-Crawler nutzen diese Metadaten, um in Suchergebnissen mehr Informationen anzuzeigen
  • Automatisierte Link-Aggregatoren nutzen diese Daten, um Nutzern Beiträge anzuzeigen (ähnlich wie Android auf dem News-Bildschirm Inhalte verschiedener Websites zeigt)
  • Metadaten für das semantische Web sind permissionless und vendor-neutral

Ist das schwierig?

  • Nein, JSON-LD ist sehr einfach
    • JSON-LD ordnet Informationen, die bereits auf der Seite vorhanden sind, so an, dass Computer sie lesen können
  • Wer Frontend-Apps schreiben kann, wird JSON-LD leicht verstehen

Andere Typen in JSON-LD

  • Neben BlogPosting gibt es Typen wie Event, LocalBusiness, JobPosting, Product und Recipe
  • csvbase verwendet den Typ Dataset, um Tabellendaten zu beschreiben.
{  
  "@context": ["https://schema.org";, {"csvw": "https://www.w3.org/ns/csvw#";}],  
  "@type": "Dataset",  
  "name": "stock-exchanges",  
  "url": "https://csvbase.com/meripaterson/stock-exchanges";,  
  "isAccessibleForFree": true,  
  "distribution": [  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv";,  
      "encodingFormat": "text/csv",  
      "contentSize": "16222"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet";,  
      "encodingFormat": "application/parquet",  
      "contentSize": "10751"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx";,  
      "encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",  
      "contentSize": "15500"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl";,  
      "encodingFormat": "application/x-jsonlines",  
      "contentSize": "38627"  
    }  
  ],  
  "dateCreated": "2022-04-25T13:43:24.746075+01:00",  
  "dateModified": "2023-04-02T20:27:33.255648+01:00",  
  "maintainer": {  
    "@type": "Person",  
    "name": "meripaterson",  
    "url": "https://csvbase.com/meripaterson";  
  },  
  "description": "The world's stock exchanges...",  
  "mainEntity": {  
    "@type": "csvw:Table",  
    "csvw:tableSchema": {  
      "csvw:columns": [  
        {"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},  
        {"csvw:name": "Continent", "csvw:datatype": "string"},  
        {"csvw:name": "Country", "csvw:datatype": "string"},  
        {"csvw:name": "Name", "csvw:datatype": "string"},  
        {"csvw:name": "MIC", "csvw:datatype": "string"},  
        {"csvw:name": "Last changed", "csvw:datatype": "date"}  
      ]  
    }  
  }  
}  

Ist das alles wirklich nötig? Löst AI das nicht einfach?

  • Große Sprachmodelle (LLMs) machen oft Fehler
  • Es ist wichtig, durch Metadaten Genauigkeit sicherzustellen
  • Der Einsatz von LLMs ist teuer, und zum Lesen von Webseiten werden GPUs benötigt

Alternativen

  • Open Graph Protocol: ein von Facebook entwickelter Standard, der hauptsächlich Inhalte beschreibt
  • Microdata: einfach, aber schwer zu parsen
  • Twitter Cards: beschreiben, wie Inhalte auf Twitter dargestellt werden sollen
  • Ältere XML-basierte Standards: werden in Bibliotheks- und Archivsystemen tiefgehend unterstützt

Langweilige Technologie (Boring technology)

  • Es ist sehr überraschend, wie Low-Key das semantische Web in diesem Ausmaß ist. Unzählige Websites haben solche Metadaten bereits eingerichtet
  • „Das semantische Web ist bereits weit verbreitet, es hatte nur nie seinen Victory Moment“

Zusammenfassung von GN⁺

  • Das semantische Web ist eine Technologie zur Erstellung maschinenlesbarer Websites und wird bereits breit eingesetzt.
  • JSON-LD ist das wichtigste Format zum Kodieren von Metadaten für das semantische Web und unterstützt verschiedene Typen wie Blogposts, Events und Produkte.
  • Metadaten für das semantische Web helfen Social Media und Suchmaschinen dabei, Link-Vorschauen und Suchergebnisse zu verbessern.
  • Metadaten mithilfe von AI automatisch zu extrahieren, kann teuer und ungenau sein.
  • Es gibt verschiedene Alternativen wie Open Graph Protocol, Microdata und Twitter Cards.

4 Kommentare

 
cometkim 2024-08-22

Wer sich für die Geschichte des Semantic Web und seine heutige Bedeutung interessiert, dem empfehle ich diesen Essay.

https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…

 
[Dieser Kommentar wurde ausgeblendet.]
 
ipuris 2024-08-22

Ich halte JSON-LD zwar nicht für den Kern oder die zentrale Technologie des Semantic Web, aber der Satz „Das Semantic Web ist bereits weit verbreitet, es hatte nur nie seinen Moment des Triumphs“ ist wirklich sehr nachvollziehbar..!

 
GN⁺ 2024-08-22
Hacker-News-Kommentare
  • Probleme der Semantic-Web-Standards

    • Seit Jahrzehnten fehlt eine Killer-Applikation
    • Die Qualität des Webs hat sich verschlechtert, und es gab kein Ereignis wie Wikipedia
    • Unvollständigkeit der Vision: SPARQL-Abfragen und Reasoner sind nützlich, haben für Durchschnittsnutzer aber hohe kognitive Kosten
    • Für ein besseres Web braucht es weiterhin die Richtung des Semantic Web
  • Erfahrungen mit gescheiterten Versuchen

    • Auf der ausprobierten Website gab es keine Kategorie „Poem“
    • Das wurde schon vor 9 Jahren angefragt, aber nicht gelöst
  • Vergleich von JSON-LD und RSS

    • „Googlers, JSON-LD könnte so bekannt werden wie RSS“
    • Es wurde die Meinung geäußert, es wäre gut, Apps oder Services auf den Markt zu bringen und wieder einzustellen
  • Die Bedeutung von LLMs und dem Semantic Web

    • Bedeutung sollte nicht vom Publisher definiert werden
    • Es ist fraglich, ob der durchschnittliche Publisher genauer klassifizieren kann als ein LLM
    • SEO-Hacking und Blog-Spam gab es, weil Publisher die einzige Quelle der Wahrheit waren
    • Das Problem der Bedeutungsdefinition muss gelöst werden
  • Der aktuelle Zustand des Semantic Web

    • Mit der Integration in Facebook den Sieg zu erklären, bedeutet den Tod des Semantic Web
    • OWL und andere Standards sollten den Inhalt von Seiten annotieren
    • Informationen zu Autor, Titel, Foto und Veröffentlichungsdatum sind fast bedeutungslos
  • Fehlende wichtige Konzepte

    • Keine Erwähnung von Linked Data, RDF, föderierten und Web-Abfragen
    • JSON-LD ist nur ein Serialisierungsformat
    • Linked-Data-Technologien erhöhen die Interoperabilität und Wiederverwendbarkeit von Daten
    • LLMs und Linked Data ergänzen sich gegenseitig
  • Metadaten in PDF

    • Auch die Metadaten von PDF basieren auf Semantic-Web-Standards
    • Statt JSON-LD wird RDF in XML geschrieben
  • Die Bedeutung von HTML

    • Es wirkt so, als werde HTML gemieden, weil es schwierig sei
    • Bedeutung ist nicht im Markup versteckt, sondern das Markup selbst
  • KI und Metadaten

    • Zwei Gründe, warum KI Metadaten nicht ersetzen kann
      • LLMs liegen oft falsch
      • GPU-Zeit ist teuer
    • LLMs zeigen bereits eine Genauigkeit von 99 %
    • In Zukunft wird es kein großes Problem mehr sein, Text durch ein LLM laufen zu lassen
  • JSON-LD und SEO

    • Google treibt JSON-LD seit mehr als 5 Jahren zur Verbesserung von SEO voran
    • Mit dem Open-Graph-Protokoll werden die meisten relevanten Seitenmetadaten bereits erfasst
    • Es ist nicht nötig, mit zusätzlichem Aufwand JSON-LD zu erzeugen