6 Punkte von GN⁺ 12 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Beim Vergleich von Qwen3.6-35B-A3B und Claude Opus 4.7 zur Erzeugung eines Bildes eines „fahrradfahrenden Pelikans“ lieferte Qwen die ausgereiftere Illustration
  • Das Qwen-Modell ist die neueste Version von Alibaba; ausgeführt wurde das von Unsloth bereitgestellte 20,9-GB-quantisierte Modell lokal auf einem MacBook Pro M5 mit LM Studio
  • Claude Opus 4.7 zeigte Fehler bei der Darstellung des Fahrradrahmens, und selbst mit der Option thinking_level: max verbesserte sich die Qualität kaum
  • Der „Pelikan-Benchmark“ war ursprünglich ein satirischer Test zum Modellvergleich, doch dieses Ergebnis zeigt, dass lokale LLMs kommerzielle Modelle übertreffen können
  • Qwen3.6-35B-A3B ist ein Beispiel dafür, dass große, lokal ausführbare Modelle wettbewerbsfähig sein können

Vergleichstest zwischen Qwen3.6-35B-A3B und Claude Opus 4.7

  • Es wurde ein Vergleichstest mit den beiden Modellen Qwen3.6-35B-A3B und Claude Opus 4.7 durchgeführt, bei dem ein Bild eines „fahrradfahrenden Pelikans“ erzeugt werden sollte
    • Das Qwen-Modell ist die neueste von Alibaba veröffentlichte Version; verwendet wurde das 20,9-GB-quantisierte Modell von Unsloth
    • Lokale Ausführung auf einem MacBook Pro M5 über LM Studio und das llm-lmstudio-Plugin
    • Bei Claude Opus 4.7 wurde das neueste Cloud-Modell von Anthropic verwendet
  • Als Ergebnis erzeugte Qwen3.6-35B-A3B das überzeugendere Pelikan-Bild
    • Bei Claude Opus 4.7 trat ein Fehler auf, bei dem der Fahrradrahmen falsch dargestellt wurde
    • Ein erneuter Versuch mit der zusätzlichen Option thinking_level: max brachte kaum eine Qualitätsverbesserung
  • Einige vermuteten, dass die Modelle auf diesen „Pelikan-Benchmark“ hin trainiert worden seien
    • Der Autor wies das zurück und führte zur Überprüfung der Aussagekraft zusätzlich einen neuen Test mit einem „Flamingo auf einem Einrad“ durch
    • Qwen3.6-35B-A3B lieferte erneut das bessere Ergebnis; besonders auffällig seien die „“-Kommentare im SVG-Code gewesen

Bedeutung und Grenzen des Pelikan-Benchmarks

  • Der „Pelikan-auf-dem-Fahrrad-Benchmark“ begann ursprünglich als scherzhafter Test, der die Absurdität von Modellvergleichen satirisch kommentieren sollte
    • In der Praxis zeigte sich jedoch immer wieder eine gewisse Korrelation zwischen der Qualität der Pelikan-Zeichnung und der allgemeinen Modellleistung
    • Die ersten Ergebnisse aus dem Oktober 2024 waren grob, doch später erzeugten die Modelle zunehmend Illustrationen auf tatsächlich nutzbarem Niveau
  • In diesem Experiment brach diese Korrelation erstmals zusammen
    • Das Qwen-Modell lieferte zwar ein besseres Ergebnis, doch daraus lasse sich nicht ableiten, dass die 21-GB-quantisierte Version stärker sei als das neueste kommerzielle Modell von Anthropic
    • Wenn man jedoch ein SVG eines fahrradfahrenden Pelikans erzeugen muss, ist aktuell das lokal ausführbare Qwen3.6-35B-A3B die bessere Wahl
  • Insgesamt wird dieser Vergleich als Beispiel dafür gesehen, wie weit sich lokale LLMs entwickelt haben und wie der Abstand zu großen kommerziellen Modellen kleiner wird
    • Besonders bemerkenswert ist, dass damit die praktische Ausführbarkeit großer Modelle in der LM-Studio-Umgebung demonstriert wurde

1 Kommentare

 
GN⁺ 12 일 전
Hacker-News-Kommentare
  • Dem Benchmark-Test kann ich nur schwer zustimmen. Opus flamingo stellt die Pedale, den Sattel, die Speichen und sogar den Schnabel eines echten Fahrrads funktional dar. In Sachen Realismus liegt Qwen völlig daneben. Dass jemand Qwens Ergebnis bevorzugt, finde ich eher seltsam. Es wirkt vielmehr, als hätte Qwen auf Pelikan-Daten überangepasst (overfitting)

    • Qwens Flamingo ist künstlerisch deutlich interessanter. Es ist ein einäugiger Flamingo mit Sonnenbrille und Fliege, der raucht. Opus dagegen zeichnet einen langweiligen und irgendwie unbeholfenen Flamingo. Auch Himmel und Boden im Hintergrund sind bei Qwen interessanter. Physikalisch plausibel ist das Ergebnis von Opus aber deutlich näher dran
    • Qwen zeichnet zumindest einen vollständigen Fahrradrahmen. Der Rahmen von Opus sieht aus, als würde er in der Mitte durchbrechen, und lenken könnte man damit auch nicht
    • Qwen hat dem Hintergrund zusätzliche Details gegeben, aber der Pelikan selbst sieht eher wie ein Storch mit gebogenem Schnabel aus, und die Beine sind abgeschnitten. Für ein lokales Modell ist das beeindruckend, aber kein Sieger
    • Das ist ein 3B-Modell. Dass die Ergebnisse überhaupt so nah beieinander liegen, ist schon erstaunlich. Die Debatte über Kunst ist hier nicht der Kernpunkt
  • Nach Coding-Leistung gemessen hat Qwen 3.6 35b a3b 11 von 98 Power-Ranking-Aufgaben gelöst. Qwen 3.5 derselben Größe schaffte 10, Qwen 3.5 27b dense 26 und Opus 95. Qwen 3.6 zeigt also nur eine sehr kleine Verbesserung

    • Dieser Benchmark hat wie das Brokk Power Ranking das Problem, dass Trainingsdaten und Benchmark-Daten sich überschneiden
    • Die Geschwindigkeit ist definitiv gestiegen. Auf einem M1 Max erreicht Qwen 3.6 35b a3b bei Bildbeschreibungen 34 Token pro Sekunde, Qwen 3.5 27b 10 Token pro Sekunde, und Qwen 3.5 35b a3b unterstützt keine Bildeingabe
    • Es ist unfair, ein kleines Modell für lokale Inferenz mit einem teuren Frontier-Modell zu vergleichen. Man sollte es mit Modellen in ähnlicher Preisklasse oder mit kleinen Frontier-Modellen wie Haiku, Flash oder GPT Nano vergleichen
  • Ich verstehe den Spaßfaktor des „Pelikan-Tests“, aber inzwischen weiß ich nicht mehr, was dieser Test eigentlich belegen soll. Wenn man sehen will, wie gut sich ein Modell an Situationen außerhalb der Verteilung anpasst, wäre es sinnvoller, andere Tiere mit anderen Aktivitäten zu kombinieren (z. B. ein Wal auf einem Skateboard)

    • Deshalb habe ich einen Flamingo auf einem Einrad ausprobiert. Kurz hatte ich den Verdacht, der Modellanbieter hätte gezielt auf Pelikane hin trainiert, aber nach dem Flamingo-Ergebnis war ich sicher, dass das nicht der Fall ist
    • Je populärer ein Benchmark ist, desto eher wird er beim Training speziell berücksichtigt. Ich würde gern Prompts wie „ein Elefant, der Auto fährt“ oder „ein Löwe, der im Bett schläft“ testen
    • Wenn man den Artikel liest, steht dort ausdrücklich, dass dieser Test mit humorvoller Absicht erstellt wurde. Er hat nur locker Leistungstrends von Modellen verfolgt, und das aktuelle Ergebnis zeigt, dass dieser Trend nun gebrochen ist
    • Die Modelle erkennen den Test vielleicht, aber etwas wie „eine Schildkröte, die auf einem Skateboard einen Kickflip macht“ werden sie wohl nicht trainiert haben. Wie auch Jeff Deans Tweet zeigt, ist eher das Scheitern von Opus 4.7 beim Pelikan ein Beleg dafür
    • Der Witz hat seine Lebensdauer bereits überschritten. Trotzdem gibt es im Umfeld des überdrehten Hypes der KI-Branche noch immer Leute, die das ernst nehmen. Es wiederholt sich ständig, dass ein gutes Pelikan-Bild als Beweis für die Überlegenheit eines Modells angeführt wird
  • Ich habe heute mit Gemini versucht, ein Diagramm in einer Präsentation zu ändern, habe dabei Zeit verloren und schließlich aufgegeben. Etwas auf Anhieb lustig zu machen klappt gut, aber feine Änderungen wie „ändere nur diesen Teil leicht“ sind fast unmöglich. Ich habe die Lücke zwischen Spielzeug und Werkzeug schmerzlich gespürt

  • Wenn auf HN von „meinem Laptop“ die Rede ist, scheint damit immer ein leistungsstarkes MacBook gemeint zu sein. Das ist stärker als die meisten Computer

  • Fragt man Opus direkt „Bist du gut in Bilderzeugung?“, antwortet es mit „Nein“. Es wurde ursprünglich nie als Modell für Bildgenerierung vermarktet

    • In letzter Zeit frage ich mich, ob OpenAI HN-Kommentare manipuliert, um die Richtung der Diskussion zu verändern. Zu bestimmten Themen sehe ich wiederholt Kommentare, die nur OpenAI verteidigen oder andere Modelle übermäßig kritisieren
    • Claude ist sehr gut in der SVG-Erzeugung. Ich nutze Claude oft, um kleine Icons zu erstellen. Aber eine SVG-Illustration eines Pelikans auf einem Fahrrad ist realistisch betrachtet nutzlos. Pelikane können schließlich nicht Fahrrad fahren
  • Sprache ist von Natur aus reich an räumlichen Metaphern (spatial metaphor). Man sagt zum Beispiel nicht nur, dass Geld „zunimmt“, sondern dass es „nach oben geht“. Solche metaphorischen Strukturen könnten sich auch in der Struktur des Gewichtsraums eines Modells widerspiegeln. Je komplexere Strategien ein Modell lernt, desto tiefer könnten diese Muster verankert sein. Ich würde künftig gern einmal die Aktivierungsgeometrie älterer und neuerer Modelle vergleichen

  • Opus und Sonnet zeigen seit Version 4.1 bei Nicht-Coding-Aufgaben zunehmend schlechtere Leistung

  • Ich weiß nicht, was solche Demos eigentlich beweisen sollen. LLMs sind stark bei Aufgaben, auf denen sie trainiert wurden, oder bei ähnlichen Aufgaben. SVG-Erzeugung ist ursprünglich keine solche Aufgabe. Früher konnten sie das nicht, weil es im Trainingsmaterial zu wenige Beispiele gab; später wurden für Marketingzwecke Beispiele ergänzt, sodass es halbwegs funktionierte. Praktisch nützlich ist es aber immer noch nicht. Solche Verbesserungen führen nicht zu anderen Fähigkeitszuwächsen. Jetzt, da das Wachstum der Modellgröße stagniert, steht die Optimierung auf bestimmte Aufgaben im Mittelpunkt. Wenn es geheime Aufgaben gäbe, die nicht im Training enthalten waren, könnte man damit echte Generalisierungsleistung bewerten, aber das ist kein solcher Test

  • Ich bin eine Leguan, und ich muss mein Fahrrad zur Waschanlage bringen. Ich überlege, ob ich zu Fuß gehe oder den Bus nehme

    • Es gab den Vorschlag, den Pelikan mit dem Fahrrad zu schicken, damit er es stattdessen waschen lässt
    • Es gab auch den Rat: „Das ist zu weit. Buche bei $PartnerRideshareCo“