„Der Akt, mit den Händen physische Dinge zu erschaffen, bringt eine innere Transformation mit sich“

 

Ich habe eine RTX Pro 6000 (96GB, effektiv 94GB), aber das 122B-Modell lässt sich mit ollama nicht laden. Ich vermute, das liegt daran, dass es ein Vision-Modell ist und an dem Teil, in dem der Vision-Transformer enthalten ist. Das GPT OSS 120b-Modell lässt sich dagegen problemlos laden.

 

Man muss ihn mit einem CUDA-basierten llama.cpp-Server betreiben, damit die Leistung stimmt.

 

Vielen Dank. Ich hatte ein bisschen Angst, weil mit cowork etwas aufgetaucht ist, das sogar als Server fungiert, wenn man nur den PC eingeschaltet lässt, aber das beruhigt mich etwas, und ich kann mir jetzt vorstellen, wie sich das in Zukunft verändern wird, haha.

 

Da auf X darüber gesprochen wurde: Falls man es in Docker verwendet, soll es offenbar auch funktionieren, wenn man die PID des Docker-Daemons erzwungen übergibt.

https://github.com/vercel-labs/portless/issues/61

 

Heißt das, wir können uns jetzt von EADDRINUSE-Fehlern verabschieden?
Wenn man heutzutage über Agenten dieses und jenes entwickelt und ständig irgendwas startet, geraten die Dinger ja dauernd miteinander in Konflikt, haha

 

Aber das Modell selbst verändert sich doch schon innerhalb weniger Monate,
und man muss die Agents an das jeweilige Modell anpassen ...
Ist die Entwicklung einer passenden Agent-Struktur nicht langsamer als die Veränderung des Modells?
Noch bevor sich Menschen an ein Tool gewöhnt haben, hat sich das Tool schon wieder verändert ...

 

Ich bin überhaupt kein Entwickler ... aber aus Spaß am Ausprobieren von AI lasse ich ein bisschen coden, und obwohl ich es gar nicht verlangt habe, hat sie jede Menge Testcode erzeugt und gespeichert — jetzt verstehe ich also, warum.
Als ich gefragt habe, wozu das überhaupt nötig sei, meinte sie, dass sie es beim Schreiben von Code brauche und ich es nicht löschen solle.

 

Gemini wurde auch blockiert. Claude jetzt ebenfalls.
Wenn man aber für die API bezahlt, gibt es kein Problem.

Ich kann den Gedankengang mancher Leute im Ausland nicht nachvollziehen, dass es kein Problem sein soll, sich bei Drittanbietern per OAuth zu authentifizieren und den Dienst dann über ein günstiges Abo billiger zu nutzen.

 

Oh ... ich glaube, das stimmt.

 

Menschen sind ebenfalls nicht gut darin, etwas wirklich zufällig auszuwählen. Es sollte kein Muster geben, aber auch das absichtliche Vermeiden von Mustern kann als ein Muster angesehen werden.

 

Es gibt keine Ergebnisse, bei denen der tatsächliche Token-Verbrauch für eine einzelne Aufgabe gemessen wurde, und es ist letztlich nur die Vermutung, dass sich bei Verwendung von Magpie die Zahl der Wiederholungsversuche in diesem Maß verringern würde.

 

Der Vergleich der Compilation Time wirkt seltsam. Warum vergleicht man ms/token?

 

Ich glaube, dazu wäre eine zeitliche Einordnung der relevanten Entwicklungen nötig. Es heißt auch, OpenAI habe sich mitten in Vertragsverhandlungen befunden, oder?

 

Ich lese Ihre Beiträge immer sehr gerne, vielen Dank.

 

Es scheint Fälle zu geben, in denen das passiert, weil x etwas schwierig zu crawlen geworden ist. Wir werden versuchen, das zu verbessern.

 

Ein Fehler in der Zusammenfassung, dass es keinen Inhalt gibt, ist mir auch zum ersten Mal passiert..

 

Der Bereich, in dem ich arbeite, ist zwar nicht ganz so extrem, aber ich forsche und entwickle im AI-Bereich.
Neben den allgemein viel genutzten Frameworks kommt es auch vor, dass die Zielumgebung, in der das Modell tatsächlich deployt wird, von der Umgebung abweicht, in der es trainiert wurde.
Manche Operationen werden nicht unterstützt, sodass man plattformspezifische Custom-Operationen erstellen muss. In solchen Fällen kann man oft nicht direkt in der Entwicklungsumgebung testen.
Manchmal modelliert man das Modell auch selbst. Dafür kann man zwar mit bestimmten Daten Testcode schreiben, aber je nach Datensatz ändern sich die Werte probabilistisch, und Phänomene wie explodierende Werte zu bestimmten Zeitpunkten lassen sich mit Testcode nur schwer abdecken.
Ich vermute, es gibt wohl einige Umgebungen, in denen Tests noch schwieriger sind als bei mir.

 

Der Ansatz von SQLite ist wirklich beeindruckend. Eine Testsuite, die 590-mal so umfangreich ist wie der Code selbst, nicht öffentlich zu machen, bedeutet letztlich, dass „der wahre Wert von Software in der Verhaltensspezifikation liegt“.

Wenn man heutzutage tatsächlich mit AI-Coding-Tools Projekte baut, kann man mit dem README eines bestehenden Projekts, der API-Dokumentation und dem Testcode die Kernfunktionen erstaunlich schnell nachbauen. Das ist etwas, das ich beim Betrieb von sieben Projekten selbst gespürt habe: Paradoxerweise lassen sich gerade Projekte mit guten Tests auch leichter kopieren.

Allerdings gibt es im Fall Cloudflare vs. Vercel einen Punkt, der übersehen wurde: „Kopieren“ und „Betreiben“ sind völlig unterschiedliche Dinge. Um die Edge Cases von Next.js, das Plugin-Ökosystem und sogar die Abhängigkeit von der Community nachzubilden, reicht Testcode allein nicht aus. Letztlich ist der Burggraben wohl eher die Kombination aus Testcode, Community und Betriebs-Know-how.