1 Punkte von GN⁺ 2026-02-20 | 1 Kommentare | Auf WhatsApp teilen
  • Ein inzwischen gelöschter Beitrag, der zeigte, wie sich mit einem illegal auf Kaggle hochgeladenen Harry-Potter-Datensatz eine SQL-basierte RAG-Anwendung umsetzen lässt
  • Azure SQL und Microsoft Fabric SQL DB unterstützen native Vektorsuche, und mit langchain-sqlserver ist Vector-Store-Management möglich
  • Aufbau eines Workflows zum Laden aus Azure Blob Storage, Text-Chunking, Erzeugen von Azure-OpenAI-Embeddings und Speichern der Vektoren in SQL
  • Aufbau eines präzisen Q&A-Systems mithilfe von Vektor-Ähnlichkeitssuche und Metadatenfiltern
  • Erweiterung auf eine GPT4o-basierte Fan-Fiction-Generierungsfunktion unter Nutzung desselben Vector Stores
  • Archive.is-Link

Native Vektorunterstützung in Azure SQL und LangChain-Integration

  • Für Azure SQL und Microsoft Fabric SQL DB ist eine öffentliche Preview der nativen Vektorsuchfunktion verfügbar
  • Mit dem veröffentlichten Paket langchain-sqlserver lässt sich SQL Server als LangChain Vector Store verwalten
    • Installation und Beispielcode werden über PyPI und das GitHub-Repository bereitgestellt
  • Durch die Kombination von Azure SQL DB, LangChain und LLMs lassen sich mit nur wenigen Codezeilen generative KI-Funktionen hinzufügen

Aufbau des Beispieldatensatzes

  • Verwendet wurde ein von Kaggle bereitgestellter Textdatensatz der sieben Harry-Potter-Bände
    • Enthält sieben .txt-Dateien
    • In der Demo wurde nur Band 1, Harry Potter and the Sorcerer’s Stone, verwendet
  • Durch die Nutzung eines allgemein bekannten Datensatzes entsteht ein leicht verständliches Beispiel

Schritte zum Aufbau der Beispielanwendung

1. Installation des Pakets langchain-sqlserver

  • Installation des Integrationspakets mit dem Befehl pip install langchain-sqlserver==0.1.1
  • Aktiviert die SQL-basierte Vector-Store-Funktionalität

2. Laden und Chunking der Daten aus Azure Blob Storage

  • Die Harry-Potter-Textdatei wird in Azure Blob Storage gespeichert und von dort geladen
  • Nutzung der AzureBlobStorage-Integration von LangChain
  • Mit langchain-text-splitter wird langer Text in kleinere Chunks aufgeteilt
    • Dient dazu, die Begrenzung der Eingabetokens für Azure-OpenAI-Embeddings zu berücksichtigen

3. Definition von Embeddings und Chat Completion

  • Mit Azure OpenAI werden Text-Embeddings für jeden Chunk erzeugt
  • Es können auch verschiedene andere von LangChain bereitgestellte Embedding-Modelle verwendet werden
  • Über die Konfiguration von Chat Completion wird die Verarbeitung von Fragen und Antworten vorbereitet

4. Initialisierung des Vector Stores und Einfügen von Dokumenten

  • Initialisierung des Vector Stores zusammen mit AzureOpenAI-Embeddings
  • Mit der Funktion add_documents werden Dokumente und Embeddings in Azure SQL gespeichert
  • Erzeugung und Speicherung von Vektoren sind mit wenig Code möglich

5. Ausführen der Ähnlichkeitssuche

  • Mit der Funktion similarity_search_with_score wird eine Vektor-Ähnlichkeitssuche ausgeführt
  • Unterstützung von Metadatenfiltern
    • Dadurch lässt sich der Suchbereich anhand bestimmter Metadateneigenschaften einschränken

Use Case 1: Aufbau eines Q&A-Systems

  • Umsetzung eines Story-Q&A-Systems auf Basis von SQL Vector Store und LangChain
  • Für eine Nutzerfrage werden die 10 relevantesten Dokumente abgerufen und daraus eine Antwort erzeugt
  • Erstellung eines Retrievers auf Basis von vector_store
  • Aufbau einer Frage-Antwort-Chain mit create_stuff_documents_chain
  • Definition eines strukturierten Antwortformats mit ChatPromptTemplate
  • Bei Verwendung von create_retrieval_chain werden die gefundenen Dokumente zusätzlich unter dem Schlüssel "context" zurückgegeben
    • Unterstützt die Anzeige der verwendeten Quellen für die Antwortgenerierung

Use Case 2: Generierung von Harry-Potter-Fan-Fiction

  • Umsetzung einer neuen KI-Funktion zur Fan-Fiction-Generierung auf Basis des Vector Stores
  • Bei Eingabe eines Nutzerprompts werden relevante Absätze abgerufen
    • Suche nach Kontextähnlichkeit auf Grundlage der im SQL-Vector-Store gespeicherten Embeddings
  • Die gefundenen Absätze werden zu einem einzelnen String zusammengefasst und als Kontext für die Modelleingabe vorbereitet
  • An das Modell GPT4o werden Kontext und Nutzerprompt gemeinsam übergeben
    • So wird eine neue Geschichte erzeugt, die bestehende Kontextelemente aufgreift
  • Zusammen mit dem generierten Ergebnis werden auch Informationen zu den referenzierten Vektorquellen angezeigt

Integriertes Nutzungsszenario

  • Durch die Kombination von Q&A-System und Fan-Fiction-Generierung entsteht ein interaktives Leseerlebnis
    • Für das Verständnis des Buchinhalts kann das Q&A-System genutzt werden
    • Auch die Erweiterung bestimmter Szenen oder die Erzeugung alternativer Enden ist möglich

Codebeispiele und Ressourcen

1 Kommentare

 
GN⁺ 2026-02-20
Hacker-News-Kommentare
  • Dieser Vorfall bei Microsoft scheint weniger ein Urheberrechtsproblem zu sein als vielmehr ein grundlegender Zusammenbruch von Prozessen
    Wenn nicht einmal Dokumente geprüft werden, fragt man sich, wie wahrscheinlich es dann ist, dass neuer Code ordentlich reviewed wird
    Ich würde das Management gern fragen — für welche der drei Säulen Sicherheit, Qualität und AI-Innovation man sich entscheiden will
    (Scott Hanselman, ich mag dich, aber beantworte das bitte nicht selbst, sondern gib es unbedingt an die Führungsebene weiter)

    • Ich habe lange bei Microsoft gearbeitet und einen Blog betrieben
      Damals konnte man Beiträge ohne Genehmigungsprozess persönlich veröffentlichen, und genau deshalb war der Blog ein natürlicherer und aufrichtigerer Ort
      Dieser Vorfall wirkt eher wie das Ergebnis eines Fehlurteils einer einzelnen Person, und dass der Beitrag entfernt wurde, erscheint selbstverständlich
      Wichtiger ist aber, ob das Team dieser Person Urheberrechtsverletzungen für AI-Training rechtfertigt
      Das werden sich wohl nicht nur die internen Juristen, sondern auch Externe genauer ansehen
    • Man kann nicht pauschal sagen, dass die Prüfung von Dokumentation weniger wichtig ist als Code-Review
      Für Code gibt es wegen möglicher schwerwiegender Probleme durch Bugs formalisierte Review-Prozesse,
      aber bei Dokumentation gilt nicht dieselbe Strenge, weil sie das Verhalten der Software nicht direkt beeinflusst
      Daraus, dass ein Dokument nicht geprüft wurde, folgt nicht, dass auch Code nicht geprüft wird
    • So etwas zeigt sicher ein Problem irgendwo in der Organisation, aber es auf die gesamte Codebasis zu verallgemeinern, geht zu weit
      In großen Organisationen werden je nach Abteilung unterschiedliche Prüfungsniveaus angewendet, und bei Code ist die Kontrolle viel strenger als bei Dokumentation
    • Ich hatte schon länger den Eindruck, dass die Entwicklerblogs von Microsoft meist von einzelnen Entwicklern getragen werden
    • Ich habe auch schon devblogs-Beiträge in ähnlicher Qualität gesehen
      Das war fast eine 1:1-Kopie einer Stack-Overflow-Antwort, und als ich das bei der Suche nach einer Fehlermeldung fand,
      war ich nicht einmal wütend, sondern einfach nur enttäuscht
  • Microsofts Blogbeitrag verlinkte auf die Harry-Potter-Datensatzseite von Kaggle
    Dort wird CC0, also Public Domain, behauptet, obwohl offensichtlich urheberrechtliche Probleme naheliegen
    Noch erstaunlicher ist, dass der Beitrag seit November 2024 online war und bis jetzt nicht entfernt wurde

    • Ich habe die Kaggle-Seite selbst geprüft, und sie war seit zwei Jahren unverändert
      Als ich sie über die Funktion „Report Dataset“ melden wollte, wurde ich auf Googles Seite für Urheberrechtsmeldungen weitergeleitet
      Dort wurde ich aber mit dem Hinweis abgewiesen, man könne nur melden, wenn man Rechteinhaber oder Bevollmächtigter sei
      Das ist eine völlige Komödie. Dieser Datensatz ist ganz offensichtlich Diebesgut
    • Nur weil Microsoft darauf verlinkt hat, heißt das vielleicht nicht sofort, dass Microsoft direkt verantwortlich ist
      Wahrscheinlicher ist, dass die Verantwortung bei der Person liegt, die ihn mit falscher Lizenz hochgeladen hat
      Aber beim Namen „Harry Potter“ weiß eigentlich jeder, dass das nicht Public Domain ist,
      daher wird Microsoft sich der Verantwortung nach gesundem Menschenverstand kaum vollständig entziehen können
  • Microsoft hat die betreffende Seite schließlich entfernt
    Aber eine auf archive.is gespeicherte Kopie existiert noch

    • Da der Beitrag aus dem Jahr 2024 stammt, scheint jemand den Thread gesehen und daraufhin gehandelt zu haben
    • Ich frage mich, ob vielleicht auch dieser Beitrag entfernt wurde
      Er trug den Titel „RAG-App in 5 Minuten bauen“ und nutzte Azure und GPT für das Beispiel
    • Das ist ein klarer Beleg für Urheberrechtsverletzung. Wenn Rowling wollte, könnte sie wohl klagen
    • Um archive.is gibt es Streit, weil die Seite per CAPTCHA den Browser von Nutzern für DDoS missbrauchen soll
      Es ist enttäuschend, dass die Seite immer noch verwendet wird
    • Bei mir ist die Seite noch ganz normal sichtbar
  • Das AI-generierte Thumbnail des Blogs (Bildlink)
    zeigte einen jungen Harry und einen Freund vor einem Microsoft-Logo. Wirklich erstaunlich

    • AI hat immer diesen seltsamen Bug beim Zeichnen von Zügen
      Vermutlich hätte bei einem breiteren Bild sogar die Verbindung zwischen den Waggons gefehlt
  • Ich mag Microsoft nicht, aber diesen Vorfall als „Piraterie-Anleitung“ zu bezeichnen, ist überzogen
    Es war nur ein Beispiel für Forschungszwecke, keine Produktintegration
    Auch die Überreaktionen rund um Copyright-Monopole und Fair Use sind fast peinlich

    • Trotzdem hat Microsoft eine Marktkapitalisierung von fast 3 Billionen Dollar
      Selbst für Forschungszwecke könnte das Unternehmen problemlos eine angemessene Vergütung für die verwendeten Texte zahlen
    • Eigentlich ist das kein Problem nur von Microsoft
      Die meisten kommerziellen LLM-Anbieter machen sehr ähnliche Dinge
    • Der Titel ist keine Übertreibung, denn der Beitrag erklärte tatsächlich, wie man illegales Material herunterlädt und verwendet
      Ein Unternehmen hat damit auf einem offiziellen Blog Handlungen angeleitet, die für normale Menschen illegal wären
      Anthropic hat sich in einem Urheberrechtsfall bereits auf 1,5 Milliarden Dollar geeinigt
      Ich mag das aktuelle Copyright-System auch nicht, aber für Unternehmen und Privatpersonen unterschiedliche Maßstäbe sind nicht akzeptabel
  • Das war keine Piraterie-Anleitung, sondern einfach ein Beitrag darüber, wie man einen Datensatz in SQL einbindet
    Die Verantwortung läge eher bei Kaggle oder beim Uploader Shubham Maindola
    Die Quellenbeschreibung des Datensatzes — „Harry-Potter-E-Books in txt umgewandelt“ — ist allerdings ziemlich gruselig
    Und trotzdem hat der Kaggle-Score 10,0, was erstaunlich ist

    • Und schon im ersten Wort des Textes steckt ein Tippfehler — „M r.“ …
  • Der Beitrag wurde 2024 veröffentlicht, und Kaggle hostet die Daten weiterhin
    Man fragt sich, warum von Rowlings Seite noch nichts unternommen wurde

    • Vermutlich lag es einfach außerhalb des Aufmerksamkeitsradars
      Mit etwa 10.000 Downloads auf Kaggle hat der Datensatz womöglich nicht genug Aufmerksamkeit bekommen
      Aber das überschreitet eindeutig eine Grenze
      Früher gab es schon einmal einen AI-bezogenen Plagiatsfall bei Microsoft,
      und damals wurde ebenfalls kritisiert, dass es intern praktisch keinen Prüfprozess gebe
      Zugehöriger Thread: „Microsoft morged my diagram“
    • Ich habe Rowling direkt auf Twitter kontaktiert und auch das Rechtsteam informiert
    • Früher war Text Mining zu wissenschaftlichen Forschungszwecken zwar illegal, wurde aber oft stillschweigend geduldet
      Mit dem Aufkommen kommerzieller Modelle hat sich die Lage nun vollständig verändert
      Es gab auch schon offen verfügbare Datensätze wie Books3 mit Hunderttausenden urheberrechtlich geschützten Büchern
  • Die Seite wurde bereits gelöscht, aber eine Kopie im Webarchiv ist noch vorhanden
    Es ist beunruhigend, dass ethisch fragwürdige Leute die Technologien der Zukunft bauen

    • Noch beunruhigender ist, dass offenbar nicht einmal erkannt wurde, dass die Veröffentlichung eines solchen Beitrags problematisch ist
      Wenn Menschen, die so strenge Einstellungsverfahren durchlaufen haben, solche Urteile fällen,
      fragt man sich, wie riskant wirklich wichtige Entscheidungen erst sein müssen
    • Natürlich mag Urheberrechtsverletzung im Vergleich zu anderen unethischen Praktiken großer Konzerne geringfügig erscheinen
      Aber das ist keine Entschuldigung
  • Es wirkt inzwischen wie eine Welt, in der geistiges Eigentum bedeutungslos geworden ist
    Deshalb kam scherzhaft der Vorschlag, ob nicht jemand in ein „Roman-Startup investieren wolle, bei dem AI einfach Harry Potter unverändert ausgibt“

    • Darauf kam als Witz die Antwort: „Wenn es um den Bau von Roboter-Sklaven geht, investiere ich“
    • Vielleicht wäre es lustiger, mit AI einen unendlichen Fanfiction-Generator zu bauen
      Bislang ist Humor ohnehin das Einzige, worin AI konstant gut ist
    • Vorgeschlagen wurde auch die Idee eines unendlich skalierbaren AI-Startups, das „Bee Movie“ in Ghibli-Stil umwandelt, Audio in Text überführt und anschließend wieder per TTS ausgibt
    • Es fiel sogar der Witz, man habe ein neues Betriebssystem namens „Vindows“ gebaut
      Die Ähnlichkeit zu bestehenden Produkten sei „rein zufällig“
    • Natürlich ist so etwas nur ein Privileg für Milliardäre
      Wenn normale Leute es tun, verlieren sie weiterhin alles und landen im Gefängnis
  • Wenn man sich Microsofts aktuelles Auftreten ansieht, ist dieser Vorfall überhaupt nicht überraschend
    Beim Microsoft des Jahres 2026 wirkt es fast so, als würden Urheberrecht und geistiges Eigentum schlicht nicht mehr gelten