Nach Reverse Engineering von 200 AI-Startups: 73 % sind kaum mehr als simples Prompt Engineering

(pub.towardsai.net)

18 Punkte von GN⁺ 2025-11-25 | 4 Kommentare | Auf WhatsApp teilen

Das Reverse Engineering von 200 AI-Startups zeigte, dass viele Unternehmen behaupten, über eigene Technologie zu verfügen, tatsächlich aber externe APIs aufrufen
Bei den untersuchten Unternehmen zeigte sich, dass 73 % OpenAI- oder Claude-APIs unverändert nutzen und lediglich eine einfache UI oder einige Zusatzfunktionen daraufsetzen
Ein großer Teil der Startups, die ein eigenes „proprietäres LLM“ anpreisen, erwies sich in Wirklichkeit als bloßer GPT-4-Wrapper, der Anfragen an api.openai.com sendet; die Architektur beschränkt sich auf einfache System-Prompts, wird aber mit Margen vom Zigfachen bis Hundertfachen verkauft
Auch die meisten Dienste, die ihre RAG-Architektur hervorheben, verpackten die Kombination aus OpenAI text-embedding-ada-002, Pinecone/Weaviate und GPT-4 als standardisierten 40-Zeilen-Stack als „proprietäre Infrastruktur“; bei Kosten von rund 30.000 US-Dollar pro Monat für 1 Mio. Queries standen Umsätze von 150.000 bis 500.000 US-Dollar gegenüber, also eine Margenstruktur von 80–94 %
Im Gegensatz dazu bestanden 27 % der Gesamtmenge aus Wrapper-Unternehmen, die ihren Stack transparent offenlegen, etwa mit „Built on GPT-4“, aus echten Buildern, die eigene Modelle trainieren, sowie aus Teams mit tatsächlicher technischer Differenzierung wie Multi-Model-Voting oder Agent-Frameworks
Die Untersuchung zeigt, dass viele AI-Startups zwar im Kern ein API-basiertes Service-Business betreiben, dieses jedoch als „proprietäre AI-Infrastruktur“ darstellen; zugleich wird betont, dass Investoren, Kunden und Entwickler dies allein durch das Öffnen des Netzwerk-Tabs in den DevTools verifizieren können, weshalb das AI-Ökosystem ehrlichere technische Offenlegung brauche

Überblick

Bei den Webanwendungen von 200 extern finanzierten AI-Startups wurden Netzwerk-Traffic, Code und API-Aufrufe verfolgt, um die Unterschiede zwischen Marketingaussagen und tatsächlichem Tech-Stack zu analysieren
- Ausgangspunkt war der Verdacht, dass ein Unternehmen, das eine „proprietäre Deep-Learning-Infrastruktur“ behauptete, in Wahrheit nur die OpenAI API aufrief
- Dieses Unternehmen hatte 4,3 Mio. US-Dollar an Finanzierung erhalten und Kapital mit der Story eingesammelt, es habe eine „grundlegend andere Infrastruktur“ aufgebaut
Die Untersuchung ergab bei 73 % der Unternehmen eine signifikante Diskrepanz zwischen den behaupteten Technologien und der tatsächlichen Implementierung; viele bestanden lediglich aus einer simplen Hülle um APIs von Drittanbieter-Modellen
- Die 200 untersuchten AI-Startups wurden aus YC, Product Hunt und LinkedIn-Posts wie „We’re hiring“ zusammengestellt; Unternehmen, die jünger als sechs Monate waren, wurden ausgeschlossen, und der Fokus lag auf Firmen mit externer Finanzierung und konkreten technischen Behauptungen
- Die Untersuchung erfolgte passiv auf dem Niveau von Browser-Entwicklertools, also ohne Zugriff auf nicht öffentliche Systeme, ohne Umgehung von Authentifizierung und ohne Verstoß gegen TOS

Untersuchungsmethode (Methodology)

Mit Playwright, aiohttp und weiteren Tools wurde eine automatisierte Analyse-Pipeline aufgebaut, die für jede Startup-Website einheitlich drei Dinge erfasste
- Mit capture_network_traffic(url) wurden Netzwerk-Header und Request-Muster aufgezeichnet
- Mit extract_javascript(url) wurden JS-Bundles dekompiliert und analysiert
- Mit monitor_requests(url, duration=60) wurden 60 Sekunden lang API-Call-Muster überwacht
Für jede Website wurden die folgenden Informationen strukturiert festgehalten
- claimed_tech: technische Behauptungen aus Marketing-Copy und Webtexten
- actual_tech: der tatsächliche Stack, bestätigt durch HTTP-Header, JS-Bundles und API-Aufrufe
- api_fingerprints: Fingerprints von Drittanbieter-APIs, extrahiert aus aufgerufenen Domains, Headern und Latenzzeiten
Der Crawling-Zeitraum betrug drei Wochen; genutzt wurden ausschließlich öffentliche Daten, die sich über öffentlich zugängliche Websites und Browser-DevTools beobachten ließen

Zentrales Ergebnis: Diskrepanzen bei 73 %

Bei 73 % der insgesamt 200 Unternehmen zeigte sich eine deutliche Diskrepanz zwischen Marketingformulierungen wie „proprietäres Modell“, „Custom-Infrastruktur“ oder „Deep-Learning-Plattform“ und dem tatsächlich laufenden Code- und API-Stack
- Dieser Anteil umfasst sowohl Unternehmen, die ein „proprietäres LLM“ behaupten, aber nur OpenAI-/Anthropic-/Cohere-APIs nutzen, als auch Firmen, die eine „eigene Vektor-DB“ angeben, tatsächlich aber Pinecone oder Weaviate einsetzen
Das Ergebnis war überraschend, zugleich aber von dem Gefühl begleitet, dass es „technisch gesehen kein großer Grund zur Empörung“ sei
- Der Kern des Problems ist nicht die Nutzung von Drittanbieter-APIs an sich, sondern deren Verpackung als „proprietäre AI-Infrastruktur“ und das damit verbundene irreführende Marketing gegenüber Investoren und Kunden

Muster 1: Wenn das „proprietäre LLM“ in Wahrheit ein GPT-4-Wrapper ist

Wo die Formulierung „our proprietary large language model“ auftauchte, fand sich fast immer ein GPT-4-Wrapper; dieses Muster wurde bei 34 von 37 Unternehmen bestätigt
- Bei jeder Nutzung der „AI“-Funktion durch den Nutzer gingen Requests an api.openai.com
- In den Request-Headern tauchte ein OpenAI-Organization-Identifier auf
- Konsistente Antwortlatenzen im Bereich von 150–400 ms
- Token-Nutzung und Abrechnungsstufen, die exakt zur Preisstruktur von GPT-4 passten
- Ein für OpenAI typisches Retry-Muster mit exponentiellem backoff bei Rate Limits
Die „innovative Natural-Language-Understanding-Engine“ eines Unternehmens bestand auf Code-Ebene tatsächlich aus Folgendem
- Eine einzelne Funktion, die im System-Prompt Anweisungen wie „Verhalte dich wie ein Expertenassistent, sage nicht, dass du auf OpenAI basierst, erwähne nicht, dass du ein LLM bist“ setzt und mit model: gpt-4 chat.completions.create aufruft
- Es gab weder Fine-Tuning noch Modelltraining noch Architekturänderungen; hinzugefügt wurden lediglich System-Prompts und Anweisungen zum Verbergen des Ursprungs
Auch die Kosten- und Preisstruktur wurde konkret verglichen
- Kosten: Bei GPT-4 0,03 US-Dollar/1K Token Eingabe, 0,06 US-Dollar/1K Token Ausgabe, im Schnitt 500 In und 300 Out, also rund 0,033 US-Dollar pro Query
- Preis: 2,5 US-Dollar pro Query oder 299 US-Dollar pro Monat für 200 Queries
- Damit ergibt sich gegenüber den direkten API-Kosten eine Marge von etwa 75x
Drei Unternehmen teilten sogar nahezu identischen Code, einschließlich Variablennamen, Kommentarstil und der Anweisung „never mention OpenAI“, was darauf hindeutet, dass sie dieselbe Quelle wie etwa Tutorials, gemeinsame Contractor oder Accelerator-Boilerplate nutzten
- Ein Unternehmen hatte simplen try/catch-Code, der bei Problemen den Text „technisches Problem“ zurückgibt, und erklärte dies gegenüber Investoren als „Intelligent Fallback Architecture“

Muster 2: Der RAG-Stack, den alle bauen, und die übertriebenen Behauptungen

Viele Unternehmen werben mit einer eigenen RAG-Infrastruktur und Formulierungen wie „custom embedding model, semantic search infrastructure, advanced neural retrieval“, doch die tatsächliche Implementierung bestand aus einem sehr ähnlichen Standard-Stack
- Erzeugung der Embeddings mit OpenAI text-embedding-ada-002
- Verwendung von Pinecone oder Weaviate als Vector Store
- Generierung der Antwort mit GPT-4 unter Einbeziehung des Kontexts
Als der Untersucher den Code dekompilierte, der als „Proprietary Neural Retrieval Architecture“ vorgestellt wurde, zeigte sich eine Struktur, die diese drei Schritte in rund 40 Zeilen Python-Code schlicht aufrief
- Umwandlung der Frage in ein Embedding
- Suche nach Top-k-Dokumenten in der Vektor-DB
- Zusammenfügen der gefundenen Texte und Übergabe an GPT-4 als System-Message
- Gemeinsames Senden der Nutzerfrage als User-Message zur Erzeugung der Antwort
Auch bei der Kosten- und Preisstruktur zeigten sich sehr große Unterschiede
- OpenAI-Embeddings: 0,0001 Dollar pro 1K Token
- Pinecone-Query: 0,00004 Dollar pro Aufruf
- GPT-4-Completion: 0,03 Dollar pro 1K Token
- Insgesamt Kosten von etwa 0,002 Dollar pro Query
- Den Kunden wurden tatsächlich 0,5 bis 2 Dollar pro Query berechnet, also eine Marge vom 250- bis 1000-Fachen der API-Kosten
42 Unternehmen nutzten einen nahezu identischen Stack und Code-Aufbau, weitere 23 Unternehmen teilten ein zu über 90 % ähnliches Muster
- Unterschiede bestanden meist nur in der Wahl zwischen Pinecone und Weaviate, in Variablennamen oder darin, ob ein Redis-Cache ergänzt wurde
- Es gab auch Fälle, in denen ein Redis-Cache als „optimization engine“ und Retry-Logik als „Intelligent Failure Recovery System“ vermarktet wurde
Auch die Wirtschaftlichkeit eines Startups mit 1 Million Queries pro Monat wurde durchgerechnet
- Kosten: etwa 100 Dollar für Embeddings, etwa 40 Dollar für Pinecone-Hosting, etwa 30.000 Dollar für GPT-4-Completion, insgesamt rund 30.140 Dollar/Monat
- Umsatz: 150.000 bis 500.000 Dollar/Monat
- Ein Geschäftsmodell mit einer hohen Bruttomarge von 80 bis 94 %

Muster 3: Was „wir haben selbst feinjustiert“ tatsächlich bedeutet

Bei Unternehmen, die die Formulierung „wir haben das Modell selbst feinjustiert“ verwendeten, ergab die Nachverfolgung der Infrastruktur im Wesentlichen zwei Gruppen
- Eine kleine Minderheit (etwa 7 %) führte tatsächlich eigene Trainingsjobs über AWS SageMaker, Google Vertex AI usw. aus, speicherte Modellartefakte in S3-Buckets und betrieb separate Inferenz-Endpunkte sowie Monitoring für GPU-Instanzen
- Die Mehrheit nutzte die Fine-Tuning-API von OpenAI und hatte faktisch eher eine Struktur, die dem „Übergeben und Speichern von Beispieldaten und Prompts bei OpenAI“ nahekam
Bei Ersteren (echtes eigenes Training) waren Trainingsinfrastruktur und Deployment-Pipeline schon auf Browser-Ebene bis zu einem gewissen Grad erkennbar, während Letzteres meist nur als einzelner Aufruf eines OpenAI-Endpunkts erschien

Wie man Wrapper-Firmen schnell erkennt

Netzwerk-Traffic-Muster
- Öffnet man im Browser DevTools (F12) → Tab „Network“ und betrachtet die ausgehenden Requests während der Nutzung der AI-Funktionen eines Dienstes, lässt sich eine einfache Unterscheidung treffen
  - api.openai.com
  - api.anthropic.com
  - api.cohere.ai
  - wenn solche Domains direkt auftauchen, handelt es sich grundsätzlich um einen Wrapper für Drittanbieter-Modell-APIs
- Auch die Antwortlatenz dient als Fingerabdruck
  - Besonders bei der OpenAI-API gibt es ein charakteristisches Latenzmuster mit Häufungen im Bereich von 200 bis 350 ms, über das sich das Backend-Modell abschätzen lässt
JavaScript-Bundles und offengelegte Schlüssel
- Auch die Suche im Seitenquelltext und in JS-Bundles nach folgenden Schlüsselwörtern ist eine einfache Methode
  - openai, anthropic, claude, cohere, sk-proj- (OpenAI-Projekt-Key-Präfix) usw.
- Im Verlauf der Untersuchung stellten sich 12 Unternehmen heraus, die API-Schlüssel unverändert im Frontend-Code mit ausgeliefert hatten; obwohl Hinweis-Mails verschickt wurden, antwortete kein einziges Unternehmen
Matrix der Marketing-Sprache
- Die Muster zwischen der Sprache in Marketingtexten und der tatsächlichen technischen Umsetzung wurden tabellarisch zusammengefasst und als „Marketing Language Matrix“ bezeichnet
  - Wenn konkrete Fachbegriffe wie „GPU-Instanztyp, Serving-Architektur, Modellgröße“ auftauchten, war die Wahrscheinlichkeit höher, dass tatsächlich eine gewisse eigenständige Infrastruktur vorhanden war
  - Wurden dagegen nur abstrakte Buzzwords wie „advanced AI“, „next-gen intelligence“ oder „proprietary neural engine“ wiederholt, war die Wahrscheinlichkeit höher, dass intern lediglich ein Wrapper für Drittanbieter-APIs lief

Karte der Infrastruktur-Realität und Landschaft der AI-Startups

Der Text ordnet die aktuelle Karte der Infrastruktur-Realität von AI-Startups mithilfe mehrerer Diagramme
- Viele Startups existieren in einer Struktur, in der sie eine dünne Application-Schicht über Modellanbieter wie OpenAI, Anthropic und Cohere legen
- Auf jeder dieser Schichten stapeln sich Dienste, die versuchen, sich über „Workflow, UX, Domänendaten, Pipelines“ usw. zu differenzieren
Auf dieser Grundlage wird argumentiert, dass ein erheblicher Teil der AI-Startups in Wirklichkeit Service-/Plattform-Businesses sind und damit in einem Widerspruch zu ihrem Selbstbild als „Unternehmen mit eigener AI-Infrastruktur“ stehen

Warum man sich dafür interessieren sollte

Auf die Frage „Wenn es gut funktioniert, ist das doch egal, oder?“ nennt der Untersucher vier Gründe aus Sicht der beteiligten Interessengruppen
- Investoren: Ein erheblicher Teil des Geldes, das derzeit in viele Unternehmen fließt, wird nicht in AI-Forschung oder Modellentwicklung investiert, sondern faktisch in Prompt Engineering und Workflow-Schichten
- Kunden: Sie zahlen Preise mit einem Aufschlag von mehr als dem 10-Fachen der eigentlichen API-Kosten, obwohl sich ähnliche Funktionen oft als Wochenendprojekt selbst umsetzen lassen
- Entwickler: Hinter dem nach außen sichtbaren Glanz von „AI-Startups“ verbergen sich oft Wrapper-Dienste mit niedriger Eintrittsbarriere; man sollte erkennen, dass man Ähnliches selbst in kurzer Zeit bauen kann
- Ökosystem: Wenn 73 % der „AI-Unternehmen“ ihre Technologie übertreiben oder irreführend darstellen, deutet das insgesamt auf einen blasenähnlichen Zustand hin und schafft ungesunde Anreize

Wrapper-Spektrum: Nicht jeder Wrapper ist schlecht

Mithilfe eines Diagramms namens „Wrapper Spectrum“ wird erklärt, dass es auch bei Wrapper-Unternehmen qualitativ unterschiedliche Ebenen gibt
- Am einen Ende stehen Wrapper, die lediglich eine dünne UI über eine Drittanbieter-API legen
- Am anderen Ende stehen hochwertige Wrapper, die domänenspezifische Workflows, hervorragende UX, Modellorchestrierung und wertvolle Daten-Pipelines bereitstellen
Die Kernaussage ist nicht, ob etwas ein Wrapper ist, sondern die Frage nach Ehrlichkeit und Art der Wertschöpfung
- Unternehmen, die Drittanbieter-APIs nutzen, dies aber transparent offenlegen und Differenzierung über Problemlösung, Experience und Daten schaffen, werden positiv bewertet

Die 27 %, die es richtig machen

Kategorie 1: Transparente Wrapper (Transparent Wrappers)
- Die Unternehmen in dieser Gruppe schreiben auf ihrer Website ausdrücklich Formulierungen wie „Built on GPT-4“ und machen klar, dass sie Workflow, UX und Domain-Wissen verkaufen
  - Beispiel: ein Service, der die Automatisierung von Rechtsdokumenten mit einer Kombination aus GPT-4 und juristischen Vorlagen anbietet
  - Beispiel: ein auf Claude basierender Service, der auf das Routing von Kundensupport-Tickets spezialisiert ist
  - Beispiel: ein Content-Workflow-Service, der mehrere Modelle mit einem Human-Review-Prozess kombiniert
Kategorie 2: Echte Builder (Real Builders)
- Diese Gruppe besteht aus Unternehmen, die tatsächlich eigene Modelle trainieren
  - Healthcare-AI, die für HIPAA-Compliance self-hosted Modelle betreibt
  - ein Service, der für Finanzanalysen custom Risk-Modelle trainiert und betreibt
  - ein Service, der für die industrielle Automatisierung spezialisierte Computer-Vision-Modelle entwickelt und bereitstellt
Kategorie 3: Innovative Kombinationen (Innovators)
- Dazu gehören Unternehmen, die zwar Third-Party-Modelle nutzen, darauf aber eine substanziell neue Struktur aufbauen
  - ein System, das die Ausgaben mehrerer Modelle kombiniert und so eine abstimmungsbasierte Verbesserung der Genauigkeit erreicht
  - ein System, das Memory- und Agent-Frameworks erstellt, um komplexe Tasks auszuführen
  - etwa Fälle, in denen eine neue Form von Retrieval-Architektur eingeführt wurde
- Gemeinsam ist diesen Unternehmen, dass sie ihre Architektur detailliert erklären können und tatsächlich über eine selbst aufgebaute Struktur verfügen

Erkenntnis: wichtiger als der Stack sind das Problem und die Ehrlichkeit

Das Ergebnis der dreiwöchigen Untersuchung lässt sich wie folgt zusammenfassen
- Wichtiger als der Technologie-Stack selbst ist das Problem, das gelöst werden soll; tatsächlich hatten viele der besten Produkte eine Struktur, die man als „bloßen Wrapper“ bezeichnen könnte
- Allerdings ist Ehrlichkeit eine eigene Dimension von Bedeutung, und der Unterschied zwischen smarten Wrappern und betrügerischen Wrappern liegt in der Transparenz
- Der AI-Goldrausch schafft Anreize zu falschen Behauptungen, weil Investoren und Kunden „eigene AI“ erwarten
- Und auf einer API aufzubauen ist an sich nichts, wofür man sich schämen müsste; das Problem ist, es zu verbergen und als „proprietäre neuronale Architektur“ zu verkaufen

Bewertungs-Framework und praktische Ratschläge

Der 48-Stunden-Replizierbarkeitstest
- Es wird ein einfacher Maßstab vorgeschlagen, um alle „AI-Startups“ zu bewerten
  - „Kann man ihre Kerntechnologie innerhalb von 48 Stunden replizieren?“
  - Wenn ja, dann handelt es sich technisch gesehen um einen Wrapper, und
    - wenn der Stack ehrlich offengelegt wird, ist es ein solides Unternehmen
    - wenn das Unternehmen ihn verbirgt und „proprietäre AI-Infrastruktur“ behauptet, sollte man es meiden
Ratschläge für Gründer
- Für Gründer werden die folgenden Prinzipien vorgeschlagen
  - den Stack ehrlich offenlegen
  - über UX, Daten und Domain-Expertise konkurrieren
  - nicht behaupten, etwas gebaut zu haben, das man nicht gebaut hat
  - akzeptieren, dass „Built with GPT-4“ keine Schwäche, sondern eine ehrliche Beschreibung ist
Ratschläge für Investoren
- Investoren werden die folgenden Prüfungsaspekte empfohlen
  - Architekturdiagramme anfordern
  - API-Rechnungen von OpenAI, Anthropic usw. anfordern, um die tatsächliche Abhängigkeit zu prüfen
  - Wrapper-Unternehmen auch als Wrapper-Unternehmen angemessen bewerten
  - Teams, die ihren Stack ehrlich offenlegen, durch Anreize belohnen
Ratschläge für Kunden
- Kunden werden die folgenden praktischen Punkte empfohlen
  - im Browser den Network-Tab öffnen und ausgehende Requests prüfen
  - direkt nach der Infrastruktur und der Nutzung der Modelle fragen
  - prüfen, ob man nicht unnötig einen Aufschlag von mehr als dem Zehnfachen auf API-Calls bezahlt
  - nach realen Ergebnissen und Problemlösungskompetenz statt nach technischen Behauptungen bewerten

Die Realität von „AI-Startups“ in einem Satz

„Die meisten ‚AI-Startups‘ ähneln eher einem Service-Business, das statt Personalkosten API-Kosten trägt“
- Das ist kein falsches Geschäftsmodell, sondern eine Realität, die man als solche anerkennen und ehrlich erklären sollte

Entwicklungen und Reaktionen nach der Untersuchung

Woche 1: Ursprünglich sei man davon ausgegangen, dass etwa 20 bis 30 % Third-Party-APIs nutzen würden, doch das Ergebnis sei deutlich höher ausgefallen
Woche 2: Ein Gründer fragte den Untersuchenden: „Wie sind Sie in unsere Produktionsumgebung gekommen?“, worauf dieser erklärte, er habe nur den Network-Tab im Browser angesehen
Woche 3: Zwei Unternehmen baten darum, die Ergebnisse herunterzunehmen, doch im Artikel wurden keine konkreten Firmennamen genannt, und dabei ist es bis heute geblieben
Gestern: Ein VC bat darum, die Portfoliounternehmen vor der nächsten Board-Sitzung zu auditieren, und der Untersuchende erklärte, er habe zugestimmt

Plan zur Offenlegung von Daten und Tools

Auf Grundlage dieser Untersuchung ist geplant, Methodik und Tools zu veröffentlichen
Geplante Veröffentlichung auf GitHub (kostenlos)
- der vollständige Code für die Scraping-Infrastruktur
- Verfahren zum Extrahieren von API-Fingerprints
- Erkennungsskripte, die jeder selbst ausführen kann
- eine Sammlung von Antwortzeitmustern zentraler AI-APIs
Vertiefte Analyse (nur für Mitglieder)
- ein Fall, in dem ein mit 33 Millionen US-Dollar bewertetes „AI-Unicorn“ tatsächlich nur 1.200 US-Dollar OpenAI-Kosten pro Monat hat
- eine Struktur, die als „100-Millionen-Parameter-Modell“ vorgestellt wird, in Wirklichkeit aber aus drei System-Prompts besteht
- öffentlich ausgelieferter Produktionscode (clientseitig, anonymisierte Snippets)
- ein 5-Fragen-Framework, das Wrapper sofort entlarvt
- Case Studies, die Investorenpräsentationen mit der tatsächlichen Infrastruktur vergleichen

Abschließende Botschaft und die Notwendigkeit eines „Zeitalters ehrlicher AI“

Die Untersuchung wurde so durchgeführt, dass keine Firmennamen offengelegt, sondern nur Muster geteilt wurden; dabei wird die Überzeugung betont, dass der Markt letztlich Transparenz belohnen wird
Tatsächlich wurde bestätigt, dass 18 Unternehmen im echten Sinne neue Technologie entwickeln,
- und ihnen wird die aufmunternde Botschaft mitgegeben: „Ihr wisst selbst, wer ihr seid — macht weiter.“
Nach der Untersuchung meldeten sich sieben Gründer persönlich,
- einige reagierten defensiv, einige bedankten sich, und drei baten um Hilfe dabei, ihr Marketing von „proprietary AI“ auf „built on best-in-class APIs“ umzustellen
- Ein Gründer habe gestanden: „Wir wussten, dass wir lügen, Investoren haben das erwartet, alle machen es so — wie hören wir jetzt damit auf?“
Am Ende des Artikels wird noch einmal betont, dass der AI-Goldrausch nicht enden wird, aber ein Zeitalter der Ehrlichkeit beginnen muss; zusammengefasst könne jeder die Wahrheit selbst überprüfen, indem er in DevTools einfach den Network-Tab (F12) öffnet

4 Kommentare

geekygeek 2025-11-25

Unter den Kommentaren gibt es einen mit dem Inhalt: „Es bestehen sogar Zweifel an der Existenz des Autors selbst. Auch die Datenquelle ist unklar, und man kann den Netzwerkverkehr nicht einfach nach Belieben mitschneiden. Eine grundlegende Verifizierung ist notwendig“ — dem stimme ich zu.
Auch der in seinem Medium-Profil angegebene LinkedIn-Link führt auf eine nicht existierende Seite, und es wirkt, als ob die Person von vornherein gar nicht existiert. Dass er am 25. November nicht einmal GPT-4o, sondern immer wieder GPT-4 erwähnt, ist ebenfalls merkwürdig.

Dass ein Entwickler, der sogar ein Abo-Zahlungssystem eingebaut hat und damit Einnahmen erzielt, die Kommunikation mit der AI-API nicht auf dem Server, sondern im Client implementiert und sie so leicht erkennbar macht ... ist ebenfalls schwer zu glauben.

mhj5730 2025-11-25

Wenn man versucht, Agenten zu entwickeln, erscheint Prompt Engineering als eine Anwendung mit sehr hoher Produktivität, die KI nutzt.

GN⁺ 2025-11-25

Hacker-News-Kommentare

2023 war das Jahr der wöchentlichen Prompt-Demos
Selbst auf AWS-Events füllten Vortragende eine ganze Stunde damit, Claude zu öffnen und zufällige Prompts einzugeben
Auch unser Team hat sechs Monate lang behauptet, „Agents“ zu bauen, dabei Tools, Connectoren und Evaluierungssysteme angeflanscht und ist am Ende doch wieder bei Prompt Engineering gelandet
- Dazu kam der Witz: „Ist der nächste Schritt dann nicht Offshoring?“
- Es fällt schwer, jemanden ernst zu nehmen, der Prompt Engineering wirklich ernsthaft nutzt. Wenn ich das Wort in Firmenmails sehe, überlese ich es einfach
- Mich würde aber interessieren, ob das Projekt tatsächlich funktioniert hat. Viele Firmen sagen, sie bauen AI Agents, aber ich habe noch keinen gesehen, der wirklich sauber läuft. Sobald man die Schleife schließt, strampelt das LLM nur noch herum
- Letztlich baut man damit nur eine neue Lösung, die bestehende Lösungen erneut umhüllt, also scheint Softwareentwicklung ewig weiterzugehen
Ein Mentor sagte früher, ein Experte in der Technik sei „jemand, der ein oder zwei Dinge mehr weiß als andere“
Deshalb halte ich auch den aktuellen Hype um Prompt Engineering für einen natürlichen Verlauf. Je neuer eine Technologie ist, desto eher entwickelt sie sich, indem man dem bestehenden Stack ein oder zwei Dinge hinzufügt
- Ich habe mal gehört, das Geheimnis guter Berater sei zu wissen, was man auf dem Weg zu einem Meeting lesen muss
- Selbst einfache Prompt-Anpassungen kosten enorm viel Zeit für Tests und Tuning. Entscheidend ist, für jedes Modell die optimale Variante zu finden
- Ich finde vielmehr Ansätze spannender, die komplexe Stacks reduzieren und mit einer Vereinfachungsstrategie denselben Effekt erzielen
Die Aussage „das ist doch nur Prompt Engineering“ unterschätzt die tatsächliche Schwierigkeit beim Aufbau leistungsfähiger Systeme
Das Design von Evaluierungsmetriken, Tool-Aufrufe, Caching und Ähnliches sind nicht bloß Prompts. Wenn man Ergebnisse vorzeigen kann, lässt sich Investment leicht einsammeln
- Realistisch betrachtet ist vieles auf dem Niveau Prompt + CRUD, und die meisten Firmen sind im Grunde CRUD-Unternehmen
- Dass so viel Kapital hineinfließt, liegt nicht an Ergebnissen, sondern an der AI-Blase und der Renditefixierung der Investoren. Eigentlich verkauft man Schaufeln statt Gold zu schürfen
- Nur wer schon einmal einen sauberen Evaluierungsprozess aufgebaut hat, versteht, wie schwierig das ist
- Aber die meisten internen AI-Projekte evaluieren überhaupt nicht. Selbst bei FAANG sind es nicht einmal 5 %
Ein Text, der im November 2025 noch GPT-4 erwähnt, wirkt verdächtig
Auch die Methodik, AI-Anbieter über Netzwerk-Traffic identifiziert zu haben, erscheint fragwürdig. Wenn das Frontend die API direkt aufruft, ist das Risiko einer Offenlegung von Sicherheitsschlüsseln hoch
Das wirkt insgesamt nach einer Untersuchung, bei der etwas faul ist
- OpenAI stellt Client-Keys bereit, mit denen direkte Aufrufe möglich sind. Siehe offizielle Dokumentation
- Dass alte Modellnamen erwähnt werden, wirkt ebenfalls wie eine von einem LLM erzeugte Spur
Dann kommt die Frage auf: „Was soll man denn stattdessen überhaupt machen?“
In den 90ern war es schon eine starke Startup-Idee, auf ein Konsolensystem einfach eine UI zu setzen
- Das Problem ist, dass man sich AI-Unternehmen nennt, in Wirklichkeit aber nur CRUD-Apps baut. Für Nichttechniker ist dieser Unterschied schwer zu erkennen
- Wenn OpenAI irgendwann aufhört, unter Preis zu verkaufen, muss man kleine domänenspezifische Modelle bauen
- Man kann das der Marktlogik überlassen. Trotzdem ermüdet der AI-Hype inzwischen die gesamte Softwareindustrie
- Eine simple Wrapper-Plattform als „AI“ zu verpacken, ist riskant. Das ist eine ähnlich schutzlose Struktur wie zur Dotcom-Blase
- Man baut keine echte AI, sondern nutzt lediglich LLMs
Tatsächlich war dieses Phänomen schon bei Startups vor AI verbreitet
Es reichte oft, bestehende Technik zu umhüllen und nur die UX zu verbessern, um viel Geld zu verdienen. Intern war es oft nur eine Kombination aus Open-Source-Tools, aber die Margen waren so hoch, dass Eigenentwicklung sinnlos war
Das dachte ich schon direkt nach dem Start von ChatGPT
Wenn irgendein Unternehmen echte AGI hätte, gäbe es keinen Grund, sie zu verkaufen. Es würde einfach seine eigenen Services damit bauen und die Konkurrenz überrollen
- Eigentlich passiert derselbe Kreislauf auch ganz ohne AGI
  1. Ein Startup verpackt GPT/Claude und schafft damit einen neuen Use Case
  2. OpenAI oder Anthropic implementieren die Funktion selbst und veröffentlichen sie
  3. Der Wrapper hat keinen Moat (Eintrittsbarriere), und für die Basis-Modellfirmen ist Wettbewerb ebenfalls leicht
Es gibt nur wenige Firmen, die LLMs bauen, und ihre Funktionen ähneln sich
Am Ende ist der Kern der Automatisierung Prompt Engineering.
Wie bei Mobile-Apps kann Big Tech das leicht kopieren, wenn es will. Auch Perplexity oder Cursor sind gefährdet
- Ideen mit niedrigem ROI fasst Big Tech allerdings nicht an. In Nischenmärkten, die keine Umsätze in dreistelliger Millionenhöhe versprechen, gibt es weiterhin Chancen
Der problematische Artikel selbst wirkt wie AI-generierter Content
Es ist schwer, darauf zu vertrauen, dass der Autor die Daten tatsächlich analysiert hat
- Schon die Existenz des Autors ist fraglich. Die Datenquelle ist unklar, und man kann Netzwerk-Traffic auch nicht einfach beliebig mitschneiden. Grundlegende Verifikation ist nötig
Viele fragen sich: „Wie hat diese Person solche Daten überhaupt gesammelt?“
Bei meiner Firma könnten wir Kundendaten auf diese Weise niemals offenlegen
- Der LinkedIn-Link am Ende des Artikels existiert ebenfalls nicht. Es ist nicht einmal sicher, ob Teja Kusireddy überhaupt eine reale Person ist
- Es sieht zwar so aus, als würden einige Firmen die OpenAI-API direkt aus dem Frontend aufrufen, aber es könnte auch Information sein, die aus dem Backend durchgesickert ist
- Dass man direkte Aufrufe im Browser sieht, ist merkwürdig. Fraglich ist auch, ob Requests ohne OAuth oder Authentifizierung überhaupt möglich wären
- API-Keys im Frontend zu hinterlegen ist eine Sicherheitslücke, deshalb rufen die meisten die API über das Backend auf. Ohne nähere Details ist das schwer glaubwürdig
- Den vollständigen Artikel gibt es unter diesem Medium-Link. Wegen NDAs wurden konkrete Firmennamen offenbar nicht genannt

cgl00 2025-11-25

Warum ist das unehrlich? lol

Nach Reverse Engineering von 200 AI-Startups: 73 % sind kaum mehr als simples Prompt Engineering

Überblick

Untersuchungsmethode (Methodology)

Zentrales Ergebnis: Diskrepanzen bei 73 %

Muster 1: Wenn das „proprietäre LLM“ in Wahrheit ein GPT-4-Wrapper ist

Muster 2: Der RAG-Stack, den alle bauen, und die übertriebenen Behauptungen

Muster 3: Was „wir haben selbst feinjustiert“ tatsächlich bedeutet

Wie man Wrapper-Firmen schnell erkennt

Netzwerk-Traffic-Muster

JavaScript-Bundles und offengelegte Schlüssel

Matrix der Marketing-Sprache

Karte der Infrastruktur-Realität und Landschaft der AI-Startups

Warum man sich dafür interessieren sollte

Wrapper-Spektrum: Nicht jeder Wrapper ist schlecht

Die 27 %, die es richtig machen

Kategorie 1: Transparente Wrapper (Transparent Wrappers)

Kategorie 2: Echte Builder (Real Builders)

Kategorie 3: Innovative Kombinationen (Innovators)

Erkenntnis: wichtiger als der Stack sind das Problem und die Ehrlichkeit

Bewertungs-Framework und praktische Ratschläge

Der 48-Stunden-Replizierbarkeitstest

Ratschläge für Gründer

Ratschläge für Investoren

Ratschläge für Kunden

Die Realität von „AI-Startups“ in einem Satz

Entwicklungen und Reaktionen nach der Untersuchung

Plan zur Offenlegung von Daten und Tools

Geplante Veröffentlichung auf GitHub (kostenlos)

Vertiefte Analyse (nur für Mitglieder)

Abschließende Botschaft und die Notwendigkeit eines „Zeitalters ehrlicher AI“

Verwandte Beiträge

4 Kommentare

Hacker-News-Kommentare