- Das semantische Web war das frühere Web 3.0. Bevor „Web 3.0“ „Dinge wie Krypto“ bedeutete, meinte es „maschinenlesbare (Machine-Readable) Websites“
- Ich dachte, das Konzept des semantischen Webs werde nicht mehr verwendet, aber tatsächlich ist es inzwischen sehr breit angenommen – so sehr, dass man kaum übertreibt, wenn man sagt, wir nutzen bereits Web 3.0
- Wenn Web 3.0 bereits existiert, wo ist es dann? Zum größten Teil ist es im Markup verborgen
Blog-Posting mit JSON-LD
- Im
<head> einer HTML-Seite lässt sich ein <script type="application/ld+json">-Element hinzufügen, um JSON-LD-Metadaten einzubetten
- JSON-LD ist das wichtigste Format zum Kodieren von Metadaten für das semantische Web
- Beispiel: Beschreibung mit dem Typ
BlogPosting
{
"@context": "https://schema.org",
"@type": "BlogPosting",
"headline": "From Shell to Excel - with a little bit of HTTPS",
"url": "https://csvbase.com/blog/10",
"description": "Write once, read everywhere",
"author": {
"@type": "Person",
"name": "Cal Paterson",
"email": "cal@calpaterson.com",
"url": "https://calpaterson.com/about.html"
},
"image": "https://csvbase.com/blog-static/excel.png",
"datePublished": "2024-08-12",
"dateCreated": "2024-08-12",
"dateModified": "2024-08-12"
}
- Schlüssel, die mit
@ beginnen, sind Metadaten (Meta-Metadaten?)
@context bezeichnet den Namespace, @type den Klassentyp
- Die übrigen Schlüssel sind Felder, die beim Typ
BlogPosting zulässig sind
- Die Werte von Schlüsseln können auch andere Typen sein (wie
Person beim Schlüssel author)
Was bringt mir das?
- Wer liest das? Viele Bots parsen JSON-LD-Metadaten
- Blogposts mit Metadaten für das semantische Web erhalten auf Social-Media-Seiten Link-Vorschauen, was die Klickrate erhöhen kann
- Suchmaschinen-Crawler nutzen diese Metadaten, um in Suchergebnissen mehr Informationen anzuzeigen
- Automatisierte Link-Aggregatoren nutzen diese Daten, um Nutzern Beiträge anzuzeigen (ähnlich wie Android auf dem News-Bildschirm Inhalte verschiedener Websites zeigt)
- Metadaten für das semantische Web sind permissionless und vendor-neutral
Ist das schwierig?
- Nein, JSON-LD ist sehr einfach
- JSON-LD ordnet Informationen, die bereits auf der Seite vorhanden sind, so an, dass Computer sie lesen können
- Wer Frontend-Apps schreiben kann, wird JSON-LD leicht verstehen
Andere Typen in JSON-LD
- Neben
BlogPosting gibt es Typen wie Event, LocalBusiness, JobPosting, Product und Recipe
- csvbase verwendet den Typ
Dataset, um Tabellendaten zu beschreiben.
{
"@context": ["https://schema.org", {"csvw": "https://www.w3.org/ns/csvw#"}],
"@type": "Dataset",
"name": "stock-exchanges",
"url": "https://csvbase.com/meripaterson/stock-exchanges",
"isAccessibleForFree": true,
"distribution": [
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv",
"encodingFormat": "text/csv",
"contentSize": "16222"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet",
"encodingFormat": "application/parquet",
"contentSize": "10751"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx",
"encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
"contentSize": "15500"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl",
"encodingFormat": "application/x-jsonlines",
"contentSize": "38627"
}
],
"dateCreated": "2022-04-25T13:43:24.746075+01:00",
"dateModified": "2023-04-02T20:27:33.255648+01:00",
"maintainer": {
"@type": "Person",
"name": "meripaterson",
"url": "https://csvbase.com/meripaterson"
},
"description": "The world's stock exchanges...",
"mainEntity": {
"@type": "csvw:Table",
"csvw:tableSchema": {
"csvw:columns": [
{"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},
{"csvw:name": "Continent", "csvw:datatype": "string"},
{"csvw:name": "Country", "csvw:datatype": "string"},
{"csvw:name": "Name", "csvw:datatype": "string"},
{"csvw:name": "MIC", "csvw:datatype": "string"},
{"csvw:name": "Last changed", "csvw:datatype": "date"}
]
}
}
}
Ist das alles wirklich nötig? Löst AI das nicht einfach?
- Große Sprachmodelle (LLMs) machen oft Fehler
- Es ist wichtig, durch Metadaten Genauigkeit sicherzustellen
- Der Einsatz von LLMs ist teuer, und zum Lesen von Webseiten werden GPUs benötigt
Alternativen
- Open Graph Protocol: ein von Facebook entwickelter Standard, der hauptsächlich Inhalte beschreibt
- Microdata: einfach, aber schwer zu parsen
- Twitter Cards: beschreiben, wie Inhalte auf Twitter dargestellt werden sollen
- Ältere XML-basierte Standards: werden in Bibliotheks- und Archivsystemen tiefgehend unterstützt
Langweilige Technologie (Boring technology)
- Es ist sehr überraschend, wie Low-Key das semantische Web in diesem Ausmaß ist. Unzählige Websites haben solche Metadaten bereits eingerichtet
- „Das semantische Web ist bereits weit verbreitet, es hatte nur nie seinen Victory Moment“
Zusammenfassung von GN⁺
- Das semantische Web ist eine Technologie zur Erstellung maschinenlesbarer Websites und wird bereits breit eingesetzt.
- JSON-LD ist das wichtigste Format zum Kodieren von Metadaten für das semantische Web und unterstützt verschiedene Typen wie Blogposts, Events und Produkte.
- Metadaten für das semantische Web helfen Social Media und Suchmaschinen dabei, Link-Vorschauen und Suchergebnisse zu verbessern.
- Metadaten mithilfe von AI automatisch zu extrahieren, kann teuer und ungenau sein.
- Es gibt verschiedene Alternativen wie Open Graph Protocol, Microdata und Twitter Cards.
4 Kommentare
Wer sich für die Geschichte des Semantic Web und seine heutige Bedeutung interessiert, dem empfehle ich diesen Essay.
https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…
Ich halte JSON-LD zwar nicht für den Kern oder die zentrale Technologie des Semantic Web, aber der Satz „Das Semantic Web ist bereits weit verbreitet, es hatte nur nie seinen Moment des Triumphs“ ist wirklich sehr nachvollziehbar..!
Hacker-News-Kommentare
Probleme der Semantic-Web-Standards
Erfahrungen mit gescheiterten Versuchen
Vergleich von JSON-LD und RSS
Die Bedeutung von LLMs und dem Semantic Web
Der aktuelle Zustand des Semantic Web
Fehlende wichtige Konzepte
Metadaten in PDF
Die Bedeutung von HTML
KI und Metadaten
JSON-LD und SEO