14 Punkte von darjeeling 2026-03-31 | 1 Kommentare | Auf WhatsApp teilen

Shopify hat vom One-Shot-LLM-Ansatz auf eine spezialisierte Multi-Agent-Architektur auf Basis von DSPy umgestellt, um Millionen unstrukturierter Commerce-Daten (Shop-Seiten, Richtlinien usw.) in strukturierte Daten umzuwandeln. Dabei setzte das Unternehmen statt großer Modelle auf GPT-4/5-Niveau selbst gehostete Qwen-Modelle (32B/72B-Klasse) und den Japa-Optimierer von DSPy ein und erzielte eine 75-fache Kostensenkung bei gleichzeitig doppelt so hoher Qualität der Datenextraktion. Besonders deutlich wird, dass eine auf bestimmte Zwecke spezialisierte Sub-Agent-Struktur (Betrugserkennung, Shop-Profiling usw.) entscheidend für die Leistungssteigerung war – mehr als ein einzelner Agent.


second Zusammenfassung

Tiefenanalyse (Deep Dive)

1. Problemhintergrund: die Flut unstrukturierter Daten

Shopify bietet Merchants ein Höchstmaß an Flexibilität. Das bedeutet, dass sich HTML-Strukturen, Sprachen und die Darstellung von Richtlinien von Shop zu Shop stark unterscheiden. Selbst auf einfache Fragen wie „Verkauft dieser Shop Mobiltelefone?“ oder „Wie lautet die Rückgaberichtlinie?“ war es äußerst schwierig, unternehmensweit standardisierte Antworten zu erhalten.

2. Entwicklung des Lösungsansatzes
  • Phase 1: One-Shot LLM (früher Ansatz)
    • Der Text der wichtigsten Shop-Seiten wurde extrahiert und an GPT-4 (später 5) übergeben, mit der Bitte um Schema-Extraktion.
    • Grenzen: Wegen der Beschränkung des Kontextfensters konnten nicht alle Seiten gesendet werden (wenn etwa die Seite mit den Rückgaberichtlinien fehlte, war keine Antwort möglich). Mit jedem zusätzlichen Feld wurde der Prompt fragiler und die Kosten stiegen exponentiell.
  • Phase 2: agentischer Ansatz und Einführung von DSPy
    • Statt dem LLM alle Daten zu geben, wurde auf eine ReAct-Agentenstruktur umgestellt, die dem Modell „Werkzeuge“ (Browsing, Investigation) gibt, damit es den Shop erkundet und benötigte Informationen selbst findet.
    • In diesem Prozess wurde DSPy eingeführt, um statt manueller Prompt-Abstimmung eine programmatische Optimierung zu versuchen.
  • Phase 3: spezialisierte Sub-Agents (Specialized Sub-Agents)
    • Anstatt dass ein einzelner Agent alle Zwecke (Betrug, Steuern, Profiling) abdeckt, wurde die Architektur in drei spezialisierte Agenten aufgeteilt.
    • Fraud Agent: nutzt Suchwerkzeuge für externe Bewertungsseiten.
    • Profile Agent: konzentriert sich auf das Parsen interner Richtlinien.
    • Jeder Agent wird unabhängig über DSPy optimiert, wodurch sich die Leistung ohne gegenseitige Interferenzen verbessern lässt.
3. Technische Lösung: Eval Reliability & Snapshotting

Wenn Agenten Websites in Echtzeit crawlen, leidet bei Änderungen der Seiteninhalte die Verlässlichkeit des Bewertungsdatensatzes (Golden Dataset). Um dieses Problem zu lösen, baute Shopify einen Snapshot-Service namens „ShopNap“.

  • Der Zustand des Shops zum Zeitpunkt des Labelings wird statisch fixiert (Frozen context).
  • Der DSPy-Optimierer läuft auf diesen fixierten Snapshots und gewährleistet dadurch reproduzierbare Evaluation und Training.
4. Infrastrukturarchitektur

Für eine effiziente Verarbeitung wird der Betrieb in drei Schichten organisiert.

  • Batch Layer (Flink): verwaltet täglich mehr als 150.000 Anfragen zur Verarbeitung von Shops.
  • Agent Layer (Kubernetes): führt Agentenlogik, HTML-Parsing und Tool-Aufrufe in einem CPU-basierten Cluster aus.
  • LLM Layer (GPU Cluster): stellt über vLLM usw. selbst gehostete Qwen-Modelle bereit.

Wichtige Daten und Benchmarks

Dies sind die von Shopify genannten Werte zum Vergleich von Leistung und Kosten vor und nach dem Architekturwechsel.

Punkt One-Shot (geschätzt GPT-5) Agentic + DSPy + Qwen
Kosten (Cost) Referenzwert (hoch) auf 1/75 gesenkt
Qualität (Quality) Referenzwert etwa 2x (100 % Verbesserung)
Shop-Abdeckung teilweise (wegen Kosten beschränkt) alle Shops (Full Coverage)
Skalierbarkeit bei neuen Feldern ist eine vollständige Revalidierung nötig durch Hinzufügen von Sub-Agents leicht erweiterbar
Zentrale Lehren
  1. Monolithic vs specialized: Je komplexer die Aufgabe, desto vorteilhafter sind Sub-Agents mit Separation of Concerns gegenüber einem einzelnen Agenten [21:59].
  2. Architecture over Tuning: Statt einzelne Prompt-Formulierungen zu korrigieren, gewährleistet eine passende Systemarchitektur mit automatisierter Optimierung (DSPy) nachhaltige Leistung [23:24].
  3. Small Models Win: Bei domänenspezifischen Aufgaben können optimierte mittelgroße oder kleinere Modelle (Self-hosted) sowohl bei Preis-Leistung als auch bei der Performance allgemeine große Modelle übertreffen [23:54].

1 Kommentare

 
roxie 27 일 전

Ich höre gelegentlich von DSPy – gibt es hier noch mehr Leute, die es schon benutzt haben? Mich würden eure Erfahrungen interessieren.