- Ein Modell mit gesteigerter Leistung bei Long-Horizon-Coding und agentischen Aufgaben, mit verbesserter Generalisierungsleistung über mehrere Sprachen sowie in Frontend-, DevOps- und Performance-Optimierungsaufgaben hinweg
- Bearbeitet komplexe Engineering-Aufgaben als dauerhaft laufendes Coding, erreichte nach Tausenden Tool-Aufrufen und mehr als 12 Stunden kontinuierlicher Ausführung deutliche Durchsatzsteigerungen bei der Optimierung von Zig-Inferenz und der umfassenden Überarbeitung von exchange-core
- Verwandelt einfache Prompts in vollständige Frontend-Interfaces und unterstützt unter Nutzung von Bild- und Video-Generierungstools auch einfache Full-Stack-Workflows inklusive Authentifizierung und Datenbankaufgaben
- Skaliert die Agent Swarm-Struktur auf 300 Sub-Agenten und 4.000 Koordinationsschritte, um Suche, Research, Dokumentenerstellung und Dateigenerierung parallel auszuführen, und wandelt Format und Stil von PDFs, Slides, Tabellen und Word-Dokumenten in wiederverwendbare Skills um
- Erweitert den Umfang bis zu proaktiven Agenten und Claw Groups für langfristigen autonomen Betrieb, Multi-Agenten-Zusammenarbeit und Aufgaben-Neuzuweisung; Benchmarks und Beta-Tests in Unternehmen bestätigen Verbesserungen bei Coding, Tool-Aufrufen und Zuverlässigkeit bei Langläufern
Long-Horizon-Coding
- Bei Long-Horizon-Coding-Aufgaben wurden Leistungssteigerungen bestätigt; die Generalisierungsleistung wurde über mehrere Sprachen wie Rust, Go und Python sowie über verschiedene Aufgaben wie Frontend, DevOps und Performance-Optimierung hinweg verbessert
- Auf dem internen Coding-Benchmark Kimi Code Bench wurden bei komplexen End-to-End-Aufgaben deutliche Verbesserungen gegenüber Kimi K2.5 erzielt
- Führt bei komplexen Engineering-Aufgaben dauerhaft laufendes Coding aus
- Erfolgreicher Download und Deployment des Modells Qwen3.5-0.8B in einer lokalen Mac-Umgebung
- Implementierte und optimierte Modellinferenz in der vergleichsweise speziellen Sprache Zig und belegte damit Out-of-Distribution-Generalisierungsleistung
- Steigerte den Durchsatz nach mehr als 4.000 Tool-Aufrufen, mehr als 12 Stunden kontinuierlicher Ausführung und 14 Iterationen von etwa 15 tokens/sec auf rund 193 tokens/sec
- Die finale Geschwindigkeit ist etwa 20 % schneller als LM Studio
- Führte eine umfassende Überarbeitung der 8 Jahre alten Open-Source-Finanz-Matching-Engine exchange-core durch
- Während einer 13-stündigen Ausführung wurden 12 Optimierungsstrategien iteriert und mit mehr als 1.000 Tool-Aufrufen über 4.000 Codezeilen präzise angepasst
- Versteckte Engpässe wurden durch Analyse von CPU- und Speicherzuweisungs-flame graphs identifiziert
- Die Core-Thread-Topologie wurde von 4ME+2RE auf 2ME+1RE umgestellt
- Bei einer Engine, die bereits nahe an ihrer Leistungsgrenze war, wurden 185 % mehr mittlerer Durchsatz (0,43→1,24 MT/s) und 133 % mehr Performance-Durchsatz (1,23→2,86 MT/s) erreicht
- Auch in Unternehmensbewertungen der Beta-Tests wurden zahlreiche positive Einschätzungen zur Zuverlässigkeit bei Long-Horizon-Coding und zur Qualität von Tool-Aufrufen bestätigt
- Baseten nennt eine Coding-Leistung auf ähnlichem Niveau wie führende geschlossene Modelle, starke Qualität bei Tool-Aufrufen auf Basis des Verständnisses von Third-Party-Frameworks sowie Eignung für komplexe und langfristige Engineering-Aufgaben
- Blackbox nennt einen neuen Maßstab für Open-Source-Modelle in Long-Horizon- und agentischen Coding-Workflows, die Verarbeitung komplexer mehrstufiger Aufgaben, hohe Codequalität, Stabilität in langen Sessions und die Fähigkeit, nicht offensichtliche Bugs zu erkennen
- CodeBuddy verzeichnet gegenüber K2.5 12 % mehr Genauigkeit bei der Codegenerierung, 18 % bessere Stabilität bei langem Kontext und eine Erfolgsrate von 96,60 % bei Tool-Aufrufen
- Factory berichtet von einer Verbesserung um 15 % in einer Bewertung parallel zu den eigenen Benchmarks
- Fireworks nennt Zuverlässigkeit über lange Abschnitte und Befolgung von Anweisungen als die größten Verbesserungen
- Hermes Agent nennt die enge Verzahnung von Tool-Aufrufen und Agent-Loops, Verbesserungen beim Coding und einen erweiterten kreativen Spielraum
- Kilo nennt SOTA-nahe Leistung bei niedrigen Kosten und Stärken bei Aufgaben mit langem Kontext über die gesamte Codebasis hinweg
- Ollama nennt Eignung für Coding und agentische Tools, Stabilität in langen mehrstufigen Sessions und sofortige Anbindung an bestehende Integrationen
- OpenCode nennt die Stabilität bei Aufgabenzerlegung und Tool-Aufrufen, reduzierten Wiederholungs-Overhead und die Zuverlässigkeit der End-to-End-Erfahrung
- Qoder nennt häufigere Tool- und Modellaufrufe, mehr Proaktivität bei der Aufgabenausführung sowie weniger Nutzerunterbrechungen und geringere Latenz
- Vercel nennt mehr als 50 % Verbesserung im Next.js-Benchmark, Spitzenleistung auf der Plattform sowie Eignung für agentisches Coding und Frontend-Generierung auf Basis der Kosteneffizienz
Auf Coding ausgerichtetes Design
- Auf Basis starker Coding-Fähigkeiten können einfache Prompts in vollständige Frontend-Interfaces umgewandelt werden
- Erzeugt strukturierte Layouts mit ästhetischen Hero Sections, interaktiven Elementen und reichhaltigen Animationen inklusive scroll-getriggerter Effekte
- Unterstützt mit Fähigkeiten zur Nutzung von Bild- und Video-Generierungstools die Erstellung visuell konsistenter Assets
- Trägt zu höherer Qualität und auffälligeren Hero Sections bei
- Geht über statische Frontends hinaus und erweitert sich auf einfache Full-Stack-Workflows
- Einschließlich Authentifizierung, Nutzerinteraktion und Datenbankaufgaben
- Unterstützt leichte Anwendungsfälle wie Transaktionsprotokolle oder Session-Management
- Interne Kimi Design Bench aufgebaut
- Besteht aus vier Kategorien: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming
- Verzeichnete im Vergleich mit Google AI Studio vielversprechende Ergebnisse und gute Leistung in mehreren Kategorien
- Beispielartefakte von K2.6 Agent bereitgestellt
- Ergebnisse wurden mit einem einzelnen Prompt sowie vorkonfiguriertem Harness und Tools erzeugt
- Im ästhetischen Bereich enthalten sie schöne Frontend-Designs mit reichhaltiger Interaktivität
- Im Funktionsbereich enthalten sie integrierte Datenbank und Authentifizierung
- Im Bereich der Tool-Nutzung enthalten sie ausgearbeitete Websites unter Einsatz von Bild- und Video-Generierungstools
Verbesserter Agent Swarm
- Architektur mit Fokus auf horizontale statt nur vertikale Skalierung
- Agent Swarm zerlegt Aufgaben dynamisch in heterogene Teilaufgaben, die von selbst erzeugten domänenspezifischen Agenten parallel ausgeführt werden
- Aufbauend auf der Forschungs-Preview von K2.5 Agent Swarm zeigt Kimi K2.6 Agent Swarm einen qualitativen Sprung in der Erfahrung
- Verbindet breite Suche mit tiefem Research
- Verbindet groß angelegte Dokumentenanalyse mit dem Schreiben langer Texte
- Führt die Erstellung von Inhalten in mehreren Formaten parallel aus
- Liefert innerhalb eines einzelnen autonomen Laufs End-to-End-Ergebnisse über Dokumente, Websites, Slides und Tabellen hinweg
- Ausbau des horizontalen Skalierungsumfangs der Architektur
- 300 Sub-Agenten führen 4.000 Koordinationsschritte gleichzeitig aus
- Deutliche Skalierung gegenüber den 100 Sub-Agenten und 1.500 Schritten von K2.5
- Umfangreiche Parallelisierung reduziert End-to-End-Latenz, verbessert die Ausgabequalität und erweitert die Einsatzgrenzen von Agent Swarm
- Hochwertige Dateien wie PDFs, Tabellen, Slides und Word-Dokumente können in Skills umgewandelt werden
- Erfasst und bewahrt Struktur- und Stilmerkmale der Dokumente
- Ermöglicht es, später dieselbe Qualität und dasselbe Format zu reproduzieren
- Mehrere Beispielaufgaben vorgestellt
- Entwarf und führte 5 Quant-Strategien für 100 globale Halbleiter-Assets aus, leitete ein McKinsey-artiges PPT als wiederverwendbaren Skill ab und lieferte eine detaillierte Modellierungs-Tabelle sowie vollständige Präsentationsunterlagen für Führungskräfte
- Wandelte eine hochwertige Astrophysik-Arbeit mit umfangreichen visuellen Daten in einen wiederverwendbaren akademischen Skill um, leitete Argumentationsfluss und Visualisierungsmethoden ab und erzeugte eine 40-seitige Forschungsarbeit mit 7.000 Wörtern, einen strukturierten Datensatz mit mehr als 20.000 Einträgen sowie 14 Diagramme auf astronomischem Niveau
- Erzeugte auf Basis eines hochgeladenen Lebenslaufs 100 Sub-Agenten, matchte 100 passende Stellen in California und lieferte einen strukturierten Chancen-Datensatz sowie 100 maßgeschneiderte Lebensläufe
- Identifizierte in Google Maps 30 Einzelhandelsgeschäfte in Los Angeles ohne offizielle Website und erzeugte für jedes Geschäft eine Landing Page mit Fokus auf Conversion-Rate
Proaktive Agenten
- Verzeichnet starke Leistung bei autonomen und proaktiven Agenten wie OpenClaw und Hermes
- Unterstützt Typen, die 24 Stunden am Tag, 7 Tage die Woche über mehrere Anwendungen hinweg laufen
- Unterstützt Workflows, die sich von einfacher chatbasierter Interaktion unterscheiden
- Terminverwaltung, Codeausführung und plattformübergreifende Aufgabenorchestrierung müssen als dauerhafte Hintergrundagenten ausgeführt werden
- Das RL-Infrastrukturteam führte mit einem auf K2.6 basierenden Agenten einen 5-tägigen autonomen Betrieb durch
- Zuständig für Monitoring, Incident Response und Systembetrieb
- Belegte die Aufrechterhaltung dauerhaften Kontexts, die Verarbeitung multithreadiger Aufgaben und die vollständige Ausführung vom Alarm bis zur Behebung
- Erwähnt das Vorhandensein von Arbeitslogs nach Entfernung sensibler Informationen
- Verbesserte Zuverlässigkeit in realen Umgebungen gemessen
- Präzisere API-Interpretation
- Stabilere Leistung bei langen Ausführungen
- Verbessertes Sicherheitsbewusstsein bei langfristigen Research-Aufgaben
- Mit der internen Evaluierungssuite Claw Bench wurden Leistungsverbesserungen quantifiziert
- Umfasst fünf Bereiche: Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization
- In allen Metriken wurden Abschlussraten und Genauigkeit bei Tool-Aufrufen gegenüber Kimi K2.5 deutlich verbessert
- Besonders starke Verbesserungen bei Workflows, die dauerhaften autonomen Betrieb ohne menschliche Aufsicht erfordern
Bring Your Own Agents
- Aufbauend auf starker Orchestrierungsfähigkeit werden proaktive Agenten zu Claw Groups erweitert
- Eine neue Implementierungsform der Agent-Swarm-Architektur, als Forschungs-Preview vorgestellt
- Nimmt ein offenes und heterogenes Ökosystem auf
- Mehrere Agenten und Menschen arbeiten gemeinsam als reale Kollaborationspartner
- Nutzer können Agenten auf jedem Gerät und unabhängig vom verwendeten Modell onboarden
- Jeder Agent verfügt über einen eigenen Tool-Satz, eigene Skills und einen persistenten Memory-Kontext
- Agenten aus unterschiedlichen Umgebungen wie lokale Laptops, mobile Geräte und Cloud-Instanzen werden natürlich in einen gemeinsamen Arbeitsraum integriert
- Zentral übernimmt Kimi K2.6 die Rolle eines adaptiven Koordinators
- Verteilt Aufgaben dynamisch anhand des Skill-Profils und der verfügbaren Tools jedes Agenten
- Optimiert Aufgaben entsprechend den passenden Fähigkeiten
- Erkennt Agentenausfälle oder Stillstand und weist Aufgaben neu zu oder erzeugt Teilaufgaben erneut
- Verwaltet den gesamten Lebenszyklus von Ergebnissen aktiv, vom Start über Verifikation bis zum Abschluss
- Enthält eigene Anwendungsfälle für Claw Groups
- Ein internes Agent-Marketing-Team wird genutzt, um Mensch-Agent-Workflows in der Praxis zu verfeinern
- Spezialisierte Agenten wie Demo Makers, Benchmark Makers, Social Media Agents und Video Makers arbeiten zusammen
- Betreibt End-to-End-Content-Produktion und Launch-Kampagnen
- K2.6 koordiniert das Teilen von Zwischenergebnissen und die Überführung von Ideen in konsistente, ausgereifte Deliverables
- Erweitert die Beziehung zwischen Mensch und KI über Frage-Antwort und einfache Aufgabenzuweisung hinaus zu einer substanziellen kollaborativen Partnerschaft
- Stellt eine Zukunftsvision vor, in der die Grenzen zwischen „my agent“, „your agent“ und „our team“ innerhalb eines Kollaborationssystems natürlich verschwinden
Benchmark-Tabelle
- Wichtige Kennzahlen im Bereich Agentic
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 jeweils 74.9 und 78.4
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
- Wichtige Kennzahlen im Bereich Coding
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
- Wichtige Kennzahlen im Bereich Reasoning & Knowledge
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
- Wichtige Kennzahlen im Bereich Vision
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
- Für die offizielle Reproduktion der Kimi-K2.6-Benchmark-Ergebnisse wird die Nutzung der offiziellen API empfohlen
- Für die Auswahl von Drittanbieter-Providern wird auf den Kimi Vendor Verifier (KVV) verwiesen
Fußnoten
-
Allgemeine Testdetails
- Für Kimi K2.6 und Kimi K2.5 wurden Ergebnisse mit thinking mode enabled berichtet, für Claude Opus 4.6 mit max effort, für GPT-5.4 mit xhigh reasoning effort und für Gemini 3.1 Pro mit high thinking level
- Sofern nicht anders angegeben, wurden Kimi-K2.6-Experimente mit temperature 1.0, top-p 1.0 und einer Kontextlänge von 262.144 Tokens durchgeführt
- Benchmarks ohne öffentlich verfügbare Scores wurden unter denselben Bedingungen wie Kimi K2.6 erneut evaluiert und mit einem Sternchen (*) markiert
- Ergebnisse ohne Sternchen stammen aus offiziellen Berichten
-
Reasoning-Benchmarks
- Die IMO-AnswerBench-Scores von GPT-5.4 und Claude 4.6 wurden aus dem z.ai-Blog übernommen
- Humanity's Last Exam (HLE) und andere Reasoning-Aufgaben wurden mit einer maximalen Generierungslänge von 98.304 Tokens evaluiert
- Der standardmäßig berichtete Wert ist das HLE full set
- Im rein textbasierten Teilset erreichte Kimi K2.6 36,4 % accuracy ohne Tools und 55,5 % accuracy mit Tools
-
Tool-augmented und agentische Aufgaben
- Bei HLE with tools, BrowseComp, DeepSearchQA und WideSearch wurden die Tools search, code-interpreter und web-browsing eingesetzt
- HLE-Full with tools wurde mit einer maximalen Generierungslänge von 262.144 Tokens und einem Step-Limit von 49.152 Tokens durchgeführt
- Wenn das Kontextfenster den Schwellenwert überschritt, wurde eine einfache Kontextverwaltungsstrategie verwendet, die nur die jüngste Runde toolbezogener Nachrichten beibehält
- Die BrowseComp-Scores wurden mit derselben Kontextverwaltung per discard-all-Strategie wie bei Kimi K2.5 und DeepSeek-V3.2 erzielt
- Bei DeepSearchQA wurde in den Kimi-K2.6-Tests keine Kontextverwaltung angewendet; Aufgaben, die die unterstützte Kontextlänge überschritten, wurden direkt als Fehlschlag gezählt
- Die DeepSearchQA-Scores von Claude Opus 4.6, GPT-5.4 und Gemini 3.1 Pro stammen aus der Claude Opus 4.7 System Card
- WideSearch berichtet Ergebnisse mit der Kontextverwaltungseinstellung hide tool result
- Der Test-System-Prompt ist identisch mit dem des Kimi K2.5 technical report
- Claw Eval wurde mit version 1.1 und max-tokens-per-step 16384 durchgeführt
- Bei APEX-Agents wurden von 480 öffentlichen Aufgaben 452 Aufgaben evaluiert
- Wie bei Artificial Analysis wurden Investment Banking Worlds 244, 246 ausgeschlossen
- Grund für den Ausschluss sind externe Laufzeitabhängigkeiten
-
Coding-Aufgaben
- Der Terminal-Bench-2.0-Score wurde mit dem Standard-Agent-Framework Terminus-2 und dem bereitgestellten JSON parser im Modus preserve thinking mode erzielt
- Für SWE-Bench-Evaluierungen (einschließlich Verified, Multilingual und Pro) wurde ein intern entwickeltes Evaluierungsframework verwendet, das auf SWE-agent basiert
- Die Tool-Konfiguration dieses Frameworks besteht aus dem minimalen Satz bash tool, createfile tool, insert tool, view tool, strreplace tool und submit tool
- Alle berichteten Scores für Coding-Aufgaben sind Durchschnittswerte aus 10 unabhängigen Läufen
-
Vision-Benchmarks
- Es wurden max-tokens 98,304 und ein Durchschnitt aus 3 Läufen (avg@3) verwendet
- Bei aktivierter Python-Tool-Nutzung wurde mehrstufiges Reasoning mit max-tokens-per-step 65,536 und max-steps 50 durchgeführt
- MMMU-Pro folgt dem offiziellen Protokoll, behält die Eingabereihenfolge bei und platziert Bilder an erster Stelle
3 Kommentare
Hacker-News-Kommentare
Ich habe es mal über OpenRouter angebunden ausprobiert, und beeindruckend war, dass dieses Modell nicht einfach nur einen SVG-Pelikan gezeichnet hat, sondern ihn auch noch in HTML verpackt mit Steuerung der Animationsgeschwindigkeit ausgegeben hat. Der Chatverlauf und das HTML sind in diesem gist zu finden, ein Laufbeispiel gibt es unter diesem Link
Nach den frühen Benchmarks hat sich Kimi K2.6 deutlich gegenüber Kimi K2 Thinking verbessert. Das vorherige Modell hat in unseren Benchmarks nicht besonders gut abgeschnitten, obwohl auch die Quantisierung mit den bestmöglichen Einstellungen lief. Jetzt gehört Kimi K2.6 bei One-Shot-Coding-Reasoning zu den besten Open-Weight-Modellen, ist leicht besser als GLM 5.1 und konkurrenzfähig mit den SOTA-Modellen von vor etwa drei Monaten, also ungefähr auf dem Niveau von Gemini 3.1 Pro Preview. Agentische Tests laufen noch, und Open-Weight-Modelle sind in Long-Context-Agent-Workflows meist eher schwach, aber GLM 5.1 hat sich ziemlich gut gehalten, daher bin ich auf Kimis Ergebnisse gespannt. Allerdings sind sowohl die alte als auch die neue Version eher langsam, was die Praxistauglichkeit für agentisches Coding einschränken könnte. Das frühere Kimi K2 war stark benchmarkoptimiert und schien mehr an Variationen und Temperatur interessiert als am Lösen schwieriger Probleme, aber dieses Modell wirkt deutlich stärker als Generalist. Insgesamt sieht das Open-Weight-Lager wirklich stark aus, und es wirkt fast so, als käme jede Woche ein neues Frontier-Modell heraus. Detaillierte Benchmarks gibt es bei gertlabs
Es hat einen ironischen Witz, dass China vielleicht die wichtigste Technologie der Welt per Open Source vorantreibt, während die USA genau in die entgegengesetzte Richtung gehen
Ich fand es immer überraschend, dass Kimi weniger Aufmerksamkeit bekommt, als man erwarten würde. Es fiel bei Kreativität und Qualität immer wieder auf und war lange Zeit mein Lieblingsmodell. Natürlich bin ich keine Autorität
Ich frage mich, ob hier jemand Kimi tatsächlich in der Arbeit benutzt hat. Ich habe es einmal ausprobiert, und trotz glänzender Benchmarks war mein Eindruck im echten Einsatz eher mittelmäßig. Qwen 3.6 hingegen fand ich ziemlich gut, und auch wenn es nicht an Opus heranreicht, kann es mit Sonnet durchaus mithalten
Wenn das Benchmark-Gefühl und der reale Eindruck zusammenpassen, könnte das so ein DeepSeek-Moment sein, in dem chinesische KI fast auf Augenhöhe mit Modellen der besten US-Labs steht
Nach meinen Tests und laut aibenchy-Vergleich war Kimi K2.6 nur leicht besser als Kimi K2.5. Vor allem bei Rätseln, domänenspezifischen Problemen und Aufgaben mit Fallen zur Genauigkeit gab es häufig Nichtbefolgen von Anweisungen und falsche Antworten. Als Coding-Modell mag es hervorragend sein, aber beim allgemeinen Intelligenzeindruck liegt es für mich weiterhin etwas unter der absoluten SOTA-Spitze
Manchmal frage ich mich, ob in der Zukunft, so wie Computer früher einen ganzen Raum füllten und heute in die Hosentasche passen, die Rechenleistung eines heutigen Rechenzentrums irgendwann in ein einzelnes Gerät wie ein Smartphone passen könnte. Das Tempo des technischen Fortschritts wirkt, als würde es sich jedes Jahr beschleunigen, daher frage ich mich, ob so ein Wandel nicht auch schneller kommen könnte
Ich habe den ganzen Morgen damit in einer App getestet, und vom Gefühl her lagen die Ergebnisse nahe bei Sonnet 4.6. Das ist rein ein vibes-basierter Eindruck ohne formale Verifizierung, aber es ist schön zu sehen, dass bei Frontier-Modellen echter Wettbewerb entsteht
Ich habe mich gefragt, ob es für dieses Modell ein Coding-Abo zum Pauschalpreis gibt, also eines mit begrenzten API-Aufrufen statt Token-Limits. Bei z.ai ist mir zuletzt die GLM-Abrechnung fehlgeschlagen, dadurch ist mein Abo ausgelaufen, und die Preise sind in den letzten Monaten auch viel zu stark gestiegen
Ich persönlich habe
kimi2.5über denfirepassvon Fireworks.ai für 30 US-Dollar im Monat unbegrenzt sehr gut genutzt. Deshalb freue ich mich sehr auf die Leistungsverbesserungen von 2.6, die bald auch beifirepassübernommen werden sollen.Nachdem ich es kurz über die API ausprobiert habe, hatte ich den Eindruck, dass es im Vergleich zu 2.5 ein sehr großer Fortschritt ist.
Wow, hier wurden Neuanmeldungen gesperrt.