Qwen3.6-35B-A3B erzeugt ein besseres Pelikan-Bild als Claude Opus 4.7
(simonwillison.net)- Beim Vergleich von Qwen3.6-35B-A3B und Claude Opus 4.7 zur Erzeugung eines Bildes eines „fahrradfahrenden Pelikans“ lieferte Qwen die ausgereiftere Illustration
- Das Qwen-Modell ist die neueste Version von Alibaba; ausgeführt wurde das von Unsloth bereitgestellte 20,9-GB-quantisierte Modell lokal auf einem MacBook Pro M5 mit LM Studio
- Claude Opus 4.7 zeigte Fehler bei der Darstellung des Fahrradrahmens, und selbst mit der Option
thinking_level: maxverbesserte sich die Qualität kaum - Der „Pelikan-Benchmark“ war ursprünglich ein satirischer Test zum Modellvergleich, doch dieses Ergebnis zeigt, dass lokale LLMs kommerzielle Modelle übertreffen können
- Qwen3.6-35B-A3B ist ein Beispiel dafür, dass große, lokal ausführbare Modelle wettbewerbsfähig sein können
Vergleichstest zwischen Qwen3.6-35B-A3B und Claude Opus 4.7
- Es wurde ein Vergleichstest mit den beiden Modellen Qwen3.6-35B-A3B und Claude Opus 4.7 durchgeführt, bei dem ein Bild eines „fahrradfahrenden Pelikans“ erzeugt werden sollte
- Das Qwen-Modell ist die neueste von Alibaba veröffentlichte Version; verwendet wurde das 20,9-GB-quantisierte Modell von Unsloth
- Lokale Ausführung auf einem MacBook Pro M5 über LM Studio und das llm-lmstudio-Plugin
- Bei Claude Opus 4.7 wurde das neueste Cloud-Modell von Anthropic verwendet
- Als Ergebnis erzeugte Qwen3.6-35B-A3B das überzeugendere Pelikan-Bild
- Bei Claude Opus 4.7 trat ein Fehler auf, bei dem der Fahrradrahmen falsch dargestellt wurde
- Ein erneuter Versuch mit der zusätzlichen Option
thinking_level: maxbrachte kaum eine Qualitätsverbesserung
- Einige vermuteten, dass die Modelle auf diesen „Pelikan-Benchmark“ hin trainiert worden seien
- Der Autor wies das zurück und führte zur Überprüfung der Aussagekraft zusätzlich einen neuen Test mit einem „Flamingo auf einem Einrad“ durch
- Qwen3.6-35B-A3B lieferte erneut das bessere Ergebnis; besonders auffällig seien die „“-Kommentare im SVG-Code gewesen
Bedeutung und Grenzen des Pelikan-Benchmarks
- Der „Pelikan-auf-dem-Fahrrad-Benchmark“ begann ursprünglich als scherzhafter Test, der die Absurdität von Modellvergleichen satirisch kommentieren sollte
- In der Praxis zeigte sich jedoch immer wieder eine gewisse Korrelation zwischen der Qualität der Pelikan-Zeichnung und der allgemeinen Modellleistung
- Die ersten Ergebnisse aus dem Oktober 2024 waren grob, doch später erzeugten die Modelle zunehmend Illustrationen auf tatsächlich nutzbarem Niveau
- In diesem Experiment brach diese Korrelation erstmals zusammen
- Das Qwen-Modell lieferte zwar ein besseres Ergebnis, doch daraus lasse sich nicht ableiten, dass die 21-GB-quantisierte Version stärker sei als das neueste kommerzielle Modell von Anthropic
- Wenn man jedoch ein SVG eines fahrradfahrenden Pelikans erzeugen muss, ist aktuell das lokal ausführbare Qwen3.6-35B-A3B die bessere Wahl
- Insgesamt wird dieser Vergleich als Beispiel dafür gesehen, wie weit sich lokale LLMs entwickelt haben und wie der Abstand zu großen kommerziellen Modellen kleiner wird
- Besonders bemerkenswert ist, dass damit die praktische Ausführbarkeit großer Modelle in der LM-Studio-Umgebung demonstriert wurde
1 Kommentare
Hacker-News-Kommentare
Dem Benchmark-Test kann ich nur schwer zustimmen. Opus flamingo stellt die Pedale, den Sattel, die Speichen und sogar den Schnabel eines echten Fahrrads funktional dar. In Sachen Realismus liegt Qwen völlig daneben. Dass jemand Qwens Ergebnis bevorzugt, finde ich eher seltsam. Es wirkt vielmehr, als hätte Qwen auf Pelikan-Daten überangepasst (overfitting)
Nach Coding-Leistung gemessen hat Qwen 3.6 35b a3b 11 von 98 Power-Ranking-Aufgaben gelöst. Qwen 3.5 derselben Größe schaffte 10, Qwen 3.5 27b dense 26 und Opus 95. Qwen 3.6 zeigt also nur eine sehr kleine Verbesserung
Ich verstehe den Spaßfaktor des „Pelikan-Tests“, aber inzwischen weiß ich nicht mehr, was dieser Test eigentlich belegen soll. Wenn man sehen will, wie gut sich ein Modell an Situationen außerhalb der Verteilung anpasst, wäre es sinnvoller, andere Tiere mit anderen Aktivitäten zu kombinieren (z. B. ein Wal auf einem Skateboard)
Ich habe heute mit Gemini versucht, ein Diagramm in einer Präsentation zu ändern, habe dabei Zeit verloren und schließlich aufgegeben. Etwas auf Anhieb lustig zu machen klappt gut, aber feine Änderungen wie „ändere nur diesen Teil leicht“ sind fast unmöglich. Ich habe die Lücke zwischen Spielzeug und Werkzeug schmerzlich gespürt
Wenn auf HN von „meinem Laptop“ die Rede ist, scheint damit immer ein leistungsstarkes MacBook gemeint zu sein. Das ist stärker als die meisten Computer
Fragt man Opus direkt „Bist du gut in Bilderzeugung?“, antwortet es mit „Nein“. Es wurde ursprünglich nie als Modell für Bildgenerierung vermarktet
Sprache ist von Natur aus reich an räumlichen Metaphern (spatial metaphor). Man sagt zum Beispiel nicht nur, dass Geld „zunimmt“, sondern dass es „nach oben geht“. Solche metaphorischen Strukturen könnten sich auch in der Struktur des Gewichtsraums eines Modells widerspiegeln. Je komplexere Strategien ein Modell lernt, desto tiefer könnten diese Muster verankert sein. Ich würde künftig gern einmal die Aktivierungsgeometrie älterer und neuerer Modelle vergleichen
Opus und Sonnet zeigen seit Version 4.1 bei Nicht-Coding-Aufgaben zunehmend schlechtere Leistung
Ich weiß nicht, was solche Demos eigentlich beweisen sollen. LLMs sind stark bei Aufgaben, auf denen sie trainiert wurden, oder bei ähnlichen Aufgaben. SVG-Erzeugung ist ursprünglich keine solche Aufgabe. Früher konnten sie das nicht, weil es im Trainingsmaterial zu wenige Beispiele gab; später wurden für Marketingzwecke Beispiele ergänzt, sodass es halbwegs funktionierte. Praktisch nützlich ist es aber immer noch nicht. Solche Verbesserungen führen nicht zu anderen Fähigkeitszuwächsen. Jetzt, da das Wachstum der Modellgröße stagniert, steht die Optimierung auf bestimmte Aufgaben im Mittelpunkt. Wenn es geheime Aufgaben gäbe, die nicht im Training enthalten waren, könnte man damit echte Generalisierungsleistung bewerten, aber das ist kein solcher Test
Ich bin eine Leguan, und ich muss mein Fahrrad zur Waschanlage bringen. Ich überlege, ob ich zu Fuß gehe oder den Bus nehme