Anbieter von LLM-Diensten neigen dazu, die Daten von „Consumer-Services“, die normale Nutzer kostenlos oder im Abo verwenden, standardmäßig zu sammeln und zum Verbessern ihrer Modelle zu trainieren. Dagegen werden die Daten aus APIs oder Enterprise-Services, für die Unternehmen oder Entwickler bezahlen, in den meisten Fällen vertraglich davor geschützt, für das Training verwendet zu werden.
Hier muss man jedoch auf einen wichtigen Punkt eingehen: die grundlegende Frage, ob „kostenpflichtige Produkte meine Daten wirklich überhaupt nicht fürs Training verwenden“.
Bei den Enterprise-Services von OpenAI ist vertraglich festgehalten, dass Daten nicht fürs Training verwendet werden, aber wie lässt sich dieses „Versprechen“ technisch verifizieren und rechtlich bzw. institutionell absichern? Derzeit können wir die Trainingspipeline von OpenAI nicht direkt überwachen, daher bleibt dies letztlich ein Bereich, der vollständig vom ethischen Bewusstsein des Anbieters und vom Vertrag abhängt.
Dieselbe Frage – „Besteht nicht das Risiko, dass meine Daten in das Wissen des Modells einfließen?“ – betrifft nicht nur DeepSeek, und je nach Budget und Bedarf bleibt als Aufgabe bestehen, entweder sicherere Vertragsbedingungen (z. B. API, Enterprise-Plan) zu „kaufen“ oder, wenn man technische Vollständigkeit will, das Modell selbst zu hosten, denn eine perfekte Lösung gibt es sonst nicht.
„Weil es ein chinesisches LLM ist, werden automatisch personenbezogene Daten abgegriffen“ ist eine überzogene Formulierung; das strukturelle Risiko der Datennutzung unterscheidet sich bei US-LLMs nicht grundlegend. Entscheidend ist, die Art des Dienstes und die Vertragsbedingungen genau zu prüfen und zum Schutz unserer Daten entweder Geld auszugeben oder technische Alternativen (z. B. Self-Hosting) zu wählen.
7 Kommentare
Anbieter von LLM-Diensten neigen dazu, die Daten von „Consumer-Services“, die normale Nutzer kostenlos oder im Abo verwenden, standardmäßig zu sammeln und zum Verbessern ihrer Modelle zu trainieren. Dagegen werden die Daten aus APIs oder Enterprise-Services, für die Unternehmen oder Entwickler bezahlen, in den meisten Fällen vertraglich davor geschützt, für das Training verwendet zu werden.
Hier muss man jedoch auf einen wichtigen Punkt eingehen: die grundlegende Frage, ob „kostenpflichtige Produkte meine Daten wirklich überhaupt nicht fürs Training verwenden“.
Bei den Enterprise-Services von OpenAI ist vertraglich festgehalten, dass Daten nicht fürs Training verwendet werden, aber wie lässt sich dieses „Versprechen“ technisch verifizieren und rechtlich bzw. institutionell absichern? Derzeit können wir die Trainingspipeline von OpenAI nicht direkt überwachen, daher bleibt dies letztlich ein Bereich, der vollständig vom ethischen Bewusstsein des Anbieters und vom Vertrag abhängt.
Dieselbe Frage – „Besteht nicht das Risiko, dass meine Daten in das Wissen des Modells einfließen?“ – betrifft nicht nur DeepSeek, und je nach Budget und Bedarf bleibt als Aufgabe bestehen, entweder sicherere Vertragsbedingungen (z. B. API, Enterprise-Plan) zu „kaufen“ oder, wenn man technische Vollständigkeit will, das Modell selbst zu hosten, denn eine perfekte Lösung gibt es sonst nicht.
„Weil es ein chinesisches LLM ist, werden automatisch personenbezogene Daten abgegriffen“ ist eine überzogene Formulierung; das strukturelle Risiko der Datennutzung unterscheidet sich bei US-LLMs nicht grundlegend. Entscheidend ist, die Art des Dienstes und die Vertragsbedingungen genau zu prüfen und zum Schutz unserer Daten entweder Geld auszugeben oder technische Alternativen (z. B. Self-Hosting) zu wählen.
Scheint wohl keinen separaten Abo-Plan zu geben.
Hat das einen Sinn?
Datenschutz 75 % Rabatt.
Tja … die Logik, dass ein LLM meine personenbezogenen Daten abgreift, ist wirklich absurd …
Ich wurde von z.ai schon einmal ordentlich abgezogen, oder?
Welcher Teil ist für Sie so absurd?