Vier Vibe-Coding-Agenten mit demselben Prompt vergleichen (Lovable, Gemini, Rork, Flowith)

(stdy.blog)

13 Punkte von spilist2 2025-05-26 | 2 Kommentare | Auf WhatsApp teilen

Ich habe einige neu entdeckte Services getestet und mit vier Agenten mit unterschiedlichen Stärken Vibe Coding ausprobiert. (Früher hatte ich schon einmal AI-Prototyping-Services (v0, Lovable, Replit, Bolt, Tempo, Mocha) per Deep Research und durch eigenes Ausprobieren verglichen; diesmal habe ich sie mit demselben Prompt implementieren lassen und verglichen)

Lovable: Einer der Vorreiter unter den AI-Prototyping-Services. Setzt elegante UIs schnell um. Sofortige öffentliche Bereitstellung möglich
Gemini App Build: Nutzung in Google AI Studio. Man kann Apps erstellen, die kostenlos die Gemini API aufrufen. Keine Begrenzung der Chat-Anzahl
Rork: Der erste Vibe-Coding-Service mit integriertem Mobile-App-Simulator. Apps lassen sich auf dem Smartphone testen
Flowith Neo: Ein Super-Agent, der 24 Stunden durchläuft. Kann mit Multi-Agenten verschiedene Aufgaben inklusive Coding erledigen

Alle bekamen dieselbe Aufgabe: Ich habe das Handout eines Workshops zum Training von Hilfegesuchs-Skills, das ich gemeinsam mit Bekannten selbst entwickelt und durchgeführt hatte, eingefügt und darum gebeten, „eine Simulations-App zu bauen, mit der man allein trainieren kann“.

Die einzelnen Services habe ich anhand der folgenden 7 Kriterien (maximal 70 Punkte) rein subjektiv bewertet:

Implementierungsprozess
- Effizienz: Wie wenig musste ich eingreifen, bis eine funktionierende App entstand?
- Komfort: Wie einfach sind Testen und Debugging?
- Geschwindigkeit: Wie schnell erfolgt die Umsetzung?
- Kosten: Wie gering sind die Implementierungskosten?
Implementierungsergebnis
- Funktionalität: Erfüllt die Funktion den Erwartungen und ist sie umfangreich genug?
- Nutzbarkeit: Ist die UI/UX der entstandenen App intuitiv und ansprechend?
- Wirksamkeit: Hilft sie tatsächlich beim Training von Hilfegesuchs-Skills?

Zusammenfassung der Bewertungsergebnisse

(Ein als Tabelle zusammengefasstes Bild sowie detaillierte Ablaufansichten für jeden Service gibt es im Blog)

Insgesamt:

Implementierungsprozess: Lovable > Gemini >> Rork >>>> Flowith
Implementierungsergebnis: Lovable ~= Flowith > Gemini = Rork

In wie vielen Turns war es fertig?

Lovable und Gemini waren beide im ersten Turn fertig (Gemini hat einen Bug selbst einmal gefixt und war dann fertig)
Rork war nach 3 Turns fertig, nachdem ich zweimal Bugs behoben hatte (durch Einfügen von Fehlermeldungen)
Flowith konnte trotz mehrfacher manueller Eingriffe und eigener Reparaturversuche nicht fertiggestellt werden. Allerdings gab es unterwegs ständig Previews, sodass Zwischenergebnisse sichtbar waren

Eindruck

Vielleicht spielt ein wenig persönliche Voreingenommenheit mit hinein, aber insgesamt war Lovable klar überlegen. Trotzdem hatte jeder Dienst deutliche eigene Stärken
- Gemini: Das Erlebnis, LLM-Aufrufe direkt testen zu können, ist besonders
- Rork: Weil man die Mobile-App direkt auf dem Handy testen kann, kommt echtes App-Feeling auf
- Flowith: Hat zusätzliche Recherche ordentlich gemacht. Wenn es nur auch fertig geworden wäre ...
Vom erwartungsvoll betrachteten Flowith waren die Zwischenergebnisse zwar beeindruckend, aber als Haupttool für Vibe Coding ist es meiner Meinung nach noch überhaupt nicht geeignet. Vor allem, weil es nicht auf Chat-Nachrichten-, sondern auf Credit-Basis abrechnet, wird es allein dadurch viel zu teuer
Zur Einordnung: Den Implementierungsprozess habe ich nicht nur für dieses eine Mal, sondern auf Basis meiner gesamten Erfahrung bewertet. Rork war neu für mich, Lovable habe ich mehrfach genutzt, und mit Gemini und Flowith habe ich jeweils drei Dinge gebaut

Detaillierte Bewertung

🥇 Platz 1 Lovable - 63 Punkte (im ersten Turn fertig)

Implementierungsprozess

Effizienz: 9
Komfort: 9
Geschwindigkeit: 10
Kosten: 7

Kann einfach alles gut. Die Umsetzung im ersten Turn war am schnellsten und saubersten. Automatisches Bugfixing auf Basis von Fehlermeldungen ist praktisch. Kostenloses visuelles Editieren und Bugfixing sind gut. Code-Änderungen sind kostenpflichtig direkt dort möglich oder kostenlos über GitHub-Integration. Auch die sofortige öffentliche Bereitstellung ist stark.

Implementierungsergebnis

Funktionalität: 9
Nutzbarkeit: 10
Wirksamkeit: 9

Die UI ist erwartungsgemäß schön und kaum zu bemängeln. Die Funktionalität ist zwar nicht besonders umfangreich, aber das Handout wurde kreativ interpretiert, alles war intuitiv, und die nötigen Funktionen waren alle vorhanden.

Ein Nachteil ist, dass man immer alle drei Schritte des Hilfegesuchs befolgen muss. Auch die Simulation war nur einfach regelbasiert, aber passend. Hier müsste man nur noch die guten Punkte aus anderen Services hinzufügen, einschließlich eines LLM.

🥈 Platz 2 Gemini App Build - 56 Punkte (im ersten Turn fertig, nachdem es selbst einen Bug gefixt hatte)

Implementierungsprozess

Effizienz: 7
Komfort: 8
Geschwindigkeit: 8
Kosten: 10

Die besonderen Stärken sind kostenloser Chat und kostenlose Gemini-Aufrufe. Im ersten Turn hat es ziemlich gut geliefert, und die direkt danach auftretenden Bugs hat es selbst behoben.

In Multi-Turn-Situationen ist es eher schwach. Automatisches Bugfixing auf Basis von Fehlermeldungen ist zwar möglich, aber genau diesen Bug konnte es letztlich nicht komplett beheben, sodass ich am Ende manuell eingreifen musste. Es gibt kein visuelles Editieren, aber Code-Änderungen sind hier am bequemsten. Der Nachteil ist, dass man für die Bereitstellung Cloud Run braucht.

Implementierungsergebnis

Funktionalität: 8
Nutzbarkeit: 6
Wirksamkeit: 9

Die UI ist eindeutig etwas steif. Sie erinnert an Google-Tools, und der Inhalt des Handouts wurde ohne kreative Interpretation ziemlich direkt übernommen. Dass man immer alle drei Schritte durchlaufen muss, ist etwas unpraktisch.

Trotzdem gab es zusätzliche Punkte, weil die Erfahrung, in der Simulation zu chatten und Antworten von einer AI zu bekommen, sehr einzigartig und effektiv war. Das konnte nur dieses Tool liefern.

🥉 Platz 3 Rork - 46 Punkte (im dritten Turn fertig)

Implementierungsprozess

Effizienz: 7
Komfort: 5
Geschwindigkeit: 7
Kosten: 4

Dass daraus eine Mobile-App wird, ist seine besondere Stärke. Es lief sowohl auf Android als auch auf iPhone, nachdem es über die Expo Go App auf dem Handy installiert worden war. Auch das Implementierungsmodell lässt sich wählen, darunter Claude Sonnet 4. Automatisches Bugfixing ist vorhanden und behebt Bugs tatsächlich gut.

Code kann man nicht direkt bearbeiten, visuelles Editieren gibt es nicht, und vor allem ist es ein Problem, dass Bugfixing kostenpflichtig ist. Ganz ehrlich: Sollte das Beheben der Bugs in der fehlerhaften App, die es selbst im ersten Turn gebaut hat, nicht kostenlos sein?

Implementierungsergebnis

Funktionalität: 8
Nutzbarkeit: 7
Wirksamkeit: 8

Es war das einzige, das alles auf Englisch erstellt hat. Die UI war steif und nicht besonders schön. Große Teile des Handout-Inhalts wurden recht direkt übernommen. Trotzdem war alles Nötige vorhanden, und es war praktisch, dass sich die drei Funktionen einzeln ausführen ließen.

Die Simulation arbeitet mit Multiple-Choice und bewertet die Antworten, was sich für Anfänger gut zum Training eignet. Allerdings war der Text insgesamt zu lang.

4. Platz Flowith Neo - 35 Punkte (nach n Turns unvollendet)

Implementierungsprozess

Effizienz: 1
Komfort: 3
Geschwindigkeit: 3
Kosten: 1

Zusätzliche Planung über Websuche ist gut. Es arbeitet zwar enorm viel, hat aber beim Erstellen von drei Apps kein einziges Mal etwas fertiggestellt. Nach eigenen Durchläufen plante es erneut und versuchte Bugfixes, konnte sie aber nicht lösen. Weil nicht pro Nachricht, sondern anders abgerechnet wird, hat es durch wiederholte eigene Versuchs- und Fehlschläge massenhaft Credits verbraucht, was mich verärgert hat.

In jedem Zwischenstand wird eine Version unter einer öffentlichen URL bereitgestellt. Allerdings war manchmal eine frühere Version besser. Wenn die Implementierung zwischendurch scheitert, muss man manuell neu starten. Den Code kann man nur sehen, wenn man ihn herunterlädt, und bearbeiten kann man ihn natürlich ebenfalls nur per Prompt. Visuelles Editieren ist nicht möglich.

Implementierungsergebnis

Funktionalität: 9
Nutzbarkeit: 10
Wirksamkeit: 7

Die erste Planung und die Zwischen-Previews waren sehr beeindruckend. Am Ende wurde es zwar nicht fertig, und es unterschied sich je nach Version, aber es gab viele Elemente, die man aus anderen Apps übernehmen könnte. Zum Beispiel eine strengere Vorab-Bewertung oder Training mit verschiedenen Szenarien und Schwierigkeitsgraden. Auch die UI war schön, abgesehen von einigen merkwürdigen Teilen, und insgesamt am sorgfältigsten gestaltet.

2 Kommentare

princox 2025-05-28

Ich nutze bolt.new; mich würde interessieren, wie es im Vergleich dazu abschneidet.

spilist2 2025-05-29

Ich werde im Juni wegen des Bolt-Hackathons (Gesamtpreisgeld 1 Mio. US-Dollar) wohl auch viel Bolt nutzen: https://www.stdy.blog/registered-at-vibe-coding-hackathon/ Danach sollte ich es mal vergleichen, haha.

Vier Vibe-Coding-Agenten mit demselben Prompt vergleichen (Lovable, Gemini, Rork, Flowith)

Zusammenfassung der Bewertungsergebnisse

Detaillierte Bewertung

🥇 Platz 1 Lovable - 63 Punkte (im ersten Turn fertig)

🥈 Platz 2 Gemini App Build - 56 Punkte (im ersten Turn fertig, nachdem es selbst einen Bug gefixt hatte)

4. Platz Flowith Neo - 35 Punkte (nach n Turns unvollendet)

Verwandte Beiträge

2 Kommentare