21 Punkte von narubrown 2026-01-01 | 9 Kommentare | Auf WhatsApp teilen

96 % geringere Kosten für Bild-Labeling: Dieser praxisnahe Engineering-Fall zeigt, wie sich selbst in Umgebungen mit knappem Budget und wenig Zeit Kernfunktionen umsetzen lassen, indem repetitive menschliche Arbeit durch eine Software-Pipeline ersetzt wird.

Kernzusammenfassung
• Problemerkennung: Es gab kein bestehendes Modell, das sich für die automatische Erkennung und Registrierung von Plüschfiguren bekannter Charaktere eignete, und menschliches Labeling stieß bei Kosten, Geschwindigkeit und Skalierbarkeit klar an Grenzen.
• Ansatz: Nicht „mehr Menschen einsetzen“, sondern den menschlichen Entscheidungsprozess in ein System zerlegen und als Pipeline abbilden.

Entwurf einer 4-stufigen Automatisierungs-Pipeline
1. CLIP-Filterung – große Mengen bedeutungsloser Bilder entfernen, um LLM-Kosten zu senken
2. YOLO-Erkennung – nur das Hauptobjekt zuschneiden, um den Analyseumfang zu verkleinern
3. LVM-Labeling – ein leistungsstarkes VLM nur auf bereinigte Daten anwenden
4. LVM-Verifizierung – zusätzliche Verringerung der Aufrufzahl durch bedingte Verifizierung auf Basis der Zuverlässigkeit

Ergebnis:
• Kosten für menschliches Labeling ca. 2,16 Millionen Won → 90.000 Won
• ca. 95,7 % Kostenersparnis, Bearbeitungszeit von mehreren Tagen → wenige Stunden
• Wesentlicher Wert: nicht nur eine einmalige Einsparung, sondern der Aufbau eines wiederverwendbaren Systems

Die Grenzen des Kapitals lassen sich mit Technologie überwinden, und Software erweist sich als Werkzeug, das Kostenprobleme in Strukturprobleme verwandeln kann.

9 Kommentare

 
chickendreamtree 2026-01-09

Danke fürs Teilen des guten Inhalts.

 
winterjung 2026-01-02

Oh, das war sehr interessant zu lesen. Sie schrieben, dass Sie anhand der Zuverlässigkeit entscheiden, ob eine zusätzliche Validierung durchgeführt wird. Mich würde auch interessieren, wie dieser Zuverlässigkeitswert gemessen wurde.

Übrigens sind beim Modell gpt-4o-mini die Eingabe-Token bei Bildeingaben übermäßig teuer, daher würde ich empfehlen, auch andere leichte Modelle in Betracht zu ziehen!

 
narubrown 2026-01-04

Hallo winterjung, vielen Dank für Ihr Interesse an meiner Arbeit. Für die Zuverlässigkeit verwende ich den Confidence-Wert, den das VLM (GPT-4o) direkt zurückgibt. Wie Sie erwähnt haben, gibt es die Einschränkung, dass die Grundlage für die Berechnung der Confidence von GPT-4o unklar und nicht reproduzierbar ist. Aus praktischer Sicht habe ich es jedoch so umgesetzt, dass im letzten Verifizierungsschritt (Verifier) auf Basis eines Schwellenwerts entschieden wird, ob eine Verifizierung durchgeführt wird, unter der Annahme, dass die vom VLM zurückgegebene Confidence bis zu einem gewissen Grad korrekt ist.

Ich wusste überhaupt nicht, dass beim Modell got-4o-mini die Tokens für Bildeingaben übermäßig teuer sind. Danke für den Hinweis. Ich habe das sofort im Code berücksichtigt. haha

 
yeorinhieut 2026-01-03

Ich frage mich wirklich, warum 4o mini so bepreist ist. Soweit ich weiß, ist das normale 4o günstiger, lol.

 
crawler 2026-01-02

Ein Artikel, der das Problem mit VLM gut gelöst hat – ich habe ihn mit Interesse gelesen.

Beim Lesen ist bei mir eine Frage aufgekommen:

  1. YOLO-Erkennung – nur das Hauptobjekt zuschneiden, um den Analysebereich zu verkleinern

Mich würde interessieren, wie Sie diesen Schritt eingebaut haben.

Beim Lesen dachte ich, dass VLM wahrscheinlich eine bessere Leistung als YOLO hat. Wenn man also zuschneidet, könnte es nicht sein, dass das YOLO-Modell eine falsche Entscheidung trifft und dadurch wichtige Informationen verloren gehen, noch bevor sie an das VLM weitergegeben werden?

Aus welchem Problem heraus sind Sie auf die Idee mit dem Zuschneiden gekommen, und wie haben Sie die Genauigkeit überprüft und diesen Schritt schließlich eingeführt?

 
narubrown 2026-01-04

Hallo, vielen Dank, dass Sie den Artikel mit Interesse gelesen haben!

Ich stimme dem von Ihnen angesprochenen Punkt zu. Dass ein VLM zwar leistungsfähiger als YOLO ist, durch Fehlklassifikationen von YOLO aber wichtige Informationen verloren gehen können, ist ein berechtigter Einwand. Trotzdem haben wir uns aus den folgenden Gründen für einen Crop-Schritt entschieden.

Erstens die Kostenfrage. Wenn man dem VLM das gesamte Bild direkt übergibt, steigen die Kosten durch die Verarbeitung hochauflösender Bilder stark an. Das war der wichtigste Grund für die Einführung des Croppings.

Zweitens die Verarbeitungsgeschwindigkeit.
Um große Datensätze in einer realistischen Zeit zu verarbeiten, war diese Geschwindigkeitssteigerung unverzichtbar.

Drittens die Verbesserung der Genauigkeit.
Cropping erhöht im Gegenteil sogar die Urteilsgenauigkeit des VLM. Ein Gesamtbild enthält oft zugleich komplexe Hintergründe, mehrere Charaktere, Text und Deko-Objekte, wodurch das VLM verwirrt sein kann, welches Objekt es eigentlich beurteilen soll. Es kann zum Beispiel unklar sein, ob es sich um einen Charakter auf einem Poster im Hintergrund, die Hauptfigur als Plüschtier oder einen anderen daneben stehenden Charakter handelt. Mit Cropping hingegen wird nur das Zielobjekt klar isoliert, sodass sich das VLM bei seiner Beurteilung ausschließlich auf dieses Objekt konzentrieren kann.

Natürlich werden Probleme wie übersehene Erkennungen oder False Positives von YOLO dadurch nicht vollständig gelöst. Wir haben dieses Problem jedoch abgeschwächt, indem wir den confidence threshold von YOLO auf 0.5 gesetzt haben, um den Recall zu erhöhen, und anschließend False Positives in den Schritten CLIP-Filtering und Verifier-Validierung herausfiltern. Außerdem konnten wir durch die Verarbeitung großer Datenmengen statistisch genügend hochwertige Daten sichern, selbst wenn es vereinzelt zu übersehenen Erkennungen kam.

Letztlich war das Ziel, einen praktischen Pipeline-Ansatz zu entwickeln, der Kosten, Geschwindigkeit und Genauigkeit in ein ausgewogenes Verhältnis bringt, und der Crop-Schritt hatte in allen drei Punkten einen positiven Effekt.

 
crawler 2026-01-05

Vielen Dank für Ihre Antwort.

Ich hatte auch sofort an die Kosten gedacht, und offenbar unterscheiden sie sich je nach Auflösung der Eingabebilder tatsächlich stark. Außerdem hatte ich über den Zusammenhang zwischen der Größe der Eingabebilder und der Verarbeitungsgeschwindigkeit überhaupt nicht nachgedacht – das ist wirklich interessant. Wenn man zuschneidet, wird also sogar die Verarbeitung schneller.

Und die Verbesserung der Genauigkeit ist wirklich beeindruckend!
Obwohl die Leistung von VLMs stark besser geworden ist, kommen sie dennoch bislang noch nicht an die Leistung eines YOLO-Modells heran, das für einen einzigen Zweck trainiert wurde?

Vielen Dank, dass Sie Ihre in der Praxis gewonnenen Erfahrungen und Ihr Know-how schriftlich festgehalten haben.
Falls ich auf ein ähnliches Problem stoßen sollte, werde ich mir Ihre Methoden auf jeden Fall als Referenz ansehen.

 
skageektp 2026-01-02

Es wirkt auf mich weniger so, als wäre das Problem durch die Umstellung auf ein Strukturproblem gelöst worden, sondern eher so, als hätten Sie ein neues Modell entwickelt.

 
narubrown 2026-01-04

Vielen Dank für den guten Hinweis!

Die Formulierung „Umwandlung in ein Strukturproblem“ war wohl etwas abstrakt.
Was ich in dem Beitrag sagen wollte, ist:

Before: „Labeling = Personaleinsatz = Kosten proportional zum Aufwand“
After: „Labeling = Pipeline = nach dem initialen Aufbau minimale variable Kosten“

Das heißt, ich habe ein einmaliges Kostenproblem in ein Problem des Systemaufbaus verwandelt.
Die Formulierung „ein neues Arbeitsmodell geschaffen“ trifft es auch!
Genauer gesagt könnte man sagen, dass „menschliche Arbeit durch eine Software-Pipeline ersetzt“ wurde, haha