13 Punkte von GN⁺ 2024-05-30 | 1 Kommentare | Auf WhatsApp teilen
  • Ein KI-Modell, das auf mehr als 80 Programmiersprachen trainiert wurde
  • Unterstützt nicht nur populäre Sprachen wie Python, Java, C, C++, JavaScript und Bash, sondern auch spezifische Sprachen wie Swift und Fortran und kann Entwickler so in unterschiedlichen Coding-Umgebungen und Projekten unterstützen

Neuer Maßstab für die Leistung bei der Codegenerierung

  • Erzielt im Vergleich zu früheren Modellen bessere Leistung und geringere Latenz
  • Python
    • Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
    • CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
  • SQL (Spider)
    • Codestral 63.5%, CodeLlama 37%
  • Durchschnitt über mehrere Sprachen
    • HumanEval-Durchschnitt : Codestral 61.5%, CodeLlama 51.9%

Erste Schritte mit Codestral

  • Codestral kann unter der Mistral AI Non-Production License zu Forschungs- und Testzwecken verwendet und über HuggingFace heruntergeladen werden
  • Nutzung über den neuen Endpunkt codestral.mistral.ai. Verwaltet mit einem persönlichen API-Schlüssel und während einer kostenlosen Beta-Phase von 8 Wochen verfügbar
  • Nutzung auch über den Endpunkt api.mistral.ai möglich, Abrechnung pro Token
  • Über Le Chat lässt sich natürlich mit Codestral interagieren

Unterstützung für die Nutzung von Codestral in der bevorzugten Coding-Umgebung

  • Application Frameworks: In LlamaIndex und LangChain integriert.
  • VSCode/JetBrains-Integration: Über Continue.dev und Tabnine kann Codestral in VSCode- und JetBrains-Umgebungen verwendet werden.

Feedback aus der Entwickler-Community

  • Nate Sesti (Continue.dev CTO): Dies sei das erste offene Autocomplete-Modell, das sowohl Geschwindigkeit als auch Qualität biete, und werde für Entwickler einen großen Wandel bringen.
  • Vladislav Tankov (Leiter von JetBrains AI): Große Erwartungen an Mistrals Fähigkeiten mit starkem Fokus auf Code und Entwicklerunterstützung.
  • Mikhail Evtikhiev (Forscher bei JetBrains): Zeigt im Kotlin-HumanEval-Benchmark eine bessere Leistung als GPT-4-Turbo und GPT-3.5-Turbo.
  • Meital Zilberstein (Tabnine R&D Lead): Zeigt hervorragende Leistung bei Codegenerierung, Testgenerierung und Dokumentation und steigert die Produkteffizienz deutlich.
  • Quinn Slack (Sourcegraph CEO): Liefert Entwicklern echten Mehrwert, indem es die Latenz bei der Code-Autovervollständigung reduziert und gleichzeitig die Qualität beibehält.
  • Jerry Liu (LlamaIndex CEO): Erzeugt auch bei komplexen Aufgaben präzisen und funktionalen Code.
  • Harrison Chase (LangChain CEO): Bietet eine schnelle und vorteilhafte Context Window und unterstützt den Einsatz von Tools.

Meinung von GN⁺

  • Fortschritt bei KI-gestützter Codegenerierung: Codestral unterstützt viele verschiedene Sprachen und bietet starke Leistung, was für Entwickler sehr hilfreich sein kann.
  • Benutzerfreundlichkeit: Durch verschiedene Integrationsoptionen und dedizierte Endpunkte bequem nutzbar.
  • Leistungsbewertung: Zeigt in mehreren Benchmarks starke Ergebnisse und wirkt dadurch vertrauenswürdig.
  • Konkurrenzmodelle: Liefert auch im Vergleich mit GPT-4-Turbo und GPT-3.5-Turbo starke Leistung.
  • Aspekte für die Einführung: Bei der Entscheidung für eine Einführung sollten Leistung und Nutzbarkeit des Modells berücksichtigt werden.

1 Kommentare

 
GN⁺ 2024-05-30
Hacker-News-Diskussion

Zusammenfassung der Hacker-News-Kommentare

  • Lizenzbeschränkungen: Das Modell und seine Ausgaben dürfen weder für kommerzielle Aktivitäten noch unter „Live“-Bedingungen verwendet werden. Die Nutzung von Code-Ausgaben als Teil der Entwicklung ist ausgenommen, aber selbst die interne Nutzung im Kontext der Geschäftstätigkeit eines Unternehmens ist untersagt. Dadurch wird ein Vergleich mit anderen Open-Weight-Modellen unfair.

  • Tests von Programmiermodellen: Ein Programmiermodell wurde gebeten, eine bestimmte Python-ASGI-Middleware zu schreiben, aber kein Modell konnte die Aufgabe korrekt ausführen.

  • Unterschiede in der LLM-Philosophie: Es gibt philosophische Unterschiede zwischen Llama-artigen LLMs und OpenAI/GPT-artigen LLMs. GPT hat sich mit starkem Fokus auf Code weiterentwickelt, während Llama-/Mistral-Modelle zuerst als allgemeine Sprachmodelle veröffentlicht wurden und erst durch zusätzliches Code-Training zu CodeLlama/Codestral wurden.

  • VSCode-Integration: Es wird gefragt, ob es eine Möglichkeit gibt, das in VSCode ähnlich wie Copilot zu nutzen, sodass „Shadow Code“ erscheint. Die Qualität solcher Tools hängt davon ab, wie gut man clientseitig passende Prompts entwerfen kann.

  • Nutzungsbeschränkungen: Mistral-Modelle und ihre Derivate dürfen nur zu Test-, Forschungs-, privaten oder Evaluierungszwecken verwendet werden, nicht für kommerzielle Aktivitäten.

  • Praktikabilitätsproblem: Wenn es sich nicht in praktischen Fällen der Code-Vervollständigung einsetzen lässt, hat es aus Sicht mancher keinen Sinn. GH Copilot sei bereits das beste Modell.

  • Huggingface-Link: Link zur Huggingface-Seite

  • Demokratisierung von Code: Unter Verweis auf die Probleme bei der Demokratisierung von Kunst wird die Sorge geäußert, dass es durch KI erzeugte, unzuverlässige Bibliotheken in großer Zahl geben könnte.

  • RAM-Anforderungen: Es wird nach den RAM-Anforderungen für die lokale Nutzung des bei Huggingface herunterladbaren 44-GB-Modells gefragt. Außerdem wird gefragt, ob für GPUs und den „Unified“-RAM von Apple Silicon dieselben Anforderungen gelten.

  • VSCode-Erweiterungen: Es wird gefragt, ob es eine VSCode-Erweiterung gibt, mit der sich verschiedene Modelle als Plug-ins verwenden lassen. Das ständige Einrichten sei mühsam.