Mistral AI veröffentlicht Early Access für erste KI-Endpunkte

(mistral.ai)

2 Punkte von GN⁺ 2023-12-12 | 1 Kommentare | Auf WhatsApp teilen

Mistral AI hat die Beta von la plateforme geöffnet, mit der Entwickler offene generative Modelle in Produktion bereitstellen und anpassen können
Die anfängliche Konfiguration umfasst drei Chat-Endpunkte für Textanweisungen sowie einen Embedding-Endpunkt; sie unterscheiden sich jeweils im Kompromiss zwischen Performance und Preis
mistral-tiny und mistral-small basieren auf öffentlich verfügbaren offenen Modellen, während mistral-medium ein Prototypmodell bereitstellt, das derzeit in einer Deployment-Umgebung getestet wird
Die API folgt einer weit verbreiteten Spezifikation für Chat-Interfaces und unterstützt Python- und JavaScript-Clients sowie die Anpassung der Ausgabe über einen system prompt
Jeder kann sich registrieren und die API nutzen, die Kapazität wird jedoch schrittweise ausgebaut; bis zum vollständigen Self-Service können noch raue Kanten bestehen

Beta von la plateforme und Endpunkt-Konfiguration

Mistral AI stellt Entwicklern offene generative Modelle bereit und bietet zugleich Möglichkeiten für Deployment und Anpassung für den Produktionseinsatz
Der erste Plattformdienst wurde als Beta veröffentlicht; die Startkonfiguration ist einfach
- Drei Chat-Endpunkte für Generierung auf Basis von Textanweisungen
- Ein Embedding-Endpunkt, ausgelegt für den Einsatz in Suchanwendungen
- Jeder Endpunkt bietet einen anderen Kompromiss zwischen Performance und Preis
Generierungs-Endpunkte
- mistral-tiny
  - Der kosteneffizienteste Endpunkt; bietet derzeit Mistral 7B Instruct v0.2
  - Unterstützt nur Englisch und erreicht einen MT-Bench-Score von 7,6
  - Das instruction-getunte Modell kann auf Hugging Face heruntergeladen werden
- mistral-small
  - Stellt das neueste Modell Mixtral 8x7B bereit
  - Deckt Englisch, Französisch, Italienisch, Deutsch, Spanisch sowie Code ab
  - MT-Bench-Score: 8,3
  - Details zum Modell finden sich im Blogbeitrag zu Mixtral
- mistral-medium
  - Der Endpunkt mit der höchsten Qualität; stellt ein Prototypmodell bereit, das derzeit in einer Deployment-Umgebung getestet wird
  - Gehört nach gängigen Benchmarks zu den derzeit angebotenen Spitzenmodellen
  - Deckt Englisch, Französisch, Italienisch, Deutsch, Spanisch sowie Code ab
  - MT-Bench-Score: 8,6
Modellausrichtung und Embeddings
- Um instruction-following Modelle besser kontrollierbar und einfacher nutzbar zu machen, wird effizientes Fine-Tuning mit direkter Präferenzoptimierung kombiniert
- Die Modelle werden zunächst mit Daten aus dem offenen Web vortrainiert und anschließend einem annotationsbasierten Instruction-Fine-Tuning unterzogen
- mistral-embed ist ein Embedding-Endpunkt, der ein Modell für 1024-dimensionale Embeddings bereitstellt
- Das Embedding-Modell wurde für Suchfunktionen entwickelt und erzielt einen MTEB-Retrieval-Score von 55,26

API-Zugriff und Beta-Betrieb

Die API folgt einer weit verbreiteten Spezifikation für Chat-Interfaces
Endpunkte können über Python- und JavaScript-Clientbibliotheken aufgerufen werden
Wenn die Ausgabesteuerung in einer Anwendung wichtig ist, lassen sich Modellantworten über einen system prompt stärker anpassen
Jeder kann sich registrieren und die API nutzen; Mistral AI baut die Kapazität schrittweise aus
Das Business-Team kann dabei helfen, Anforderungen der Nutzer zu verstehen und den Zugriff zu beschleunigen
Bis die Plattform als vollständiger Self-Service stabilisiert ist, können noch raue Kanten bestehen
NVIDIA unterstützt die Integration mit TensorRT-LLM und Triton sowie Arbeiten zur TRT-LLM-Kompatibilität von sparse mixture of experts

1 Kommentare

GN⁺ 2023-12-12

Meinungen auf Hacker News

Ich bin überrascht, dass diese Meldung nicht den ganzen Tag ganz oben auf HN angepinnt ist
Ein kleines Unternehmen mit offenbar um die 30 Mitarbeitenden wurde mit 2 Milliarden US-Dollar bewertet und hat das leistungsstärkste 7B-Modell sowie ein 7B×8-MoE-Modell herausgebracht, das Performance auf 70B-Niveau liefert, aber bei den Inferenzkosten eher auf 14B-Niveau liegt
Es wirkt so, als könnte es für OpenAI eine größere potenzielle Bedrohung werden als Google oder Anthropic. Dank der jüngsten großen Investition dürfte es in naher Zukunft auf ein vernünftiges Traffic-Volumen skalieren und Spitzenforscher anziehen können, die von der Selbstdarstellung und dem Drama genervt sind, die in der Branche derzeit so offen ausgetragen werden
- Weil es bereits mehrere ziemlich große Threads dazu gab
  Mixtral of experts - https://news.ycombinator.com/item?id=38598559 - Dezember 2023, 272 Kommentare
  Mistral-8x7B-Chat - https://news.ycombinator.com/item?id=38594578 - Dezember 2023, 69 Kommentare
  Mistral AI Valued at $2B - https://news.ycombinator.com/item?id=38593616 - Dezember 2023, 221 Kommentare
  Mistral's mixtral-8x7B-32kseqlen on Vercel - https://news.ycombinator.com/item?id=38584179 - Dezember 2023, 30 Kommentare
  French AI startup Mistral secures €2B valuation - https://news.ycombinator.com/item?id=38580758 - Dezember 2023, 76 Kommentare
  Mistral "Mixtral" 8x7B 32k model [magnet] - https://news.ycombinator.com/item?id=38570537 - Dezember 2023, 236 Kommentare
  Es ist nicht exakt dieselbe Meldung, aber die Diskussion verläuft weitgehend ähnlich, daher kann man alle oder die meisten davon als Quasi-Duplikate ansehen
- Das ist mit Abstand das beeindruckendste Unternehmen, das aus der aktuellen AI-Welle hervorgegangen ist
  In etwa 6 Monaten haben sie den Benchmark für 7B-Modelle vorgelegt und steigen schnell in größere Dimensionen auf
  Ich habe die Finanzierungsrunde im März als Hype-Signal belächelt, weil sie mit einem Dreierteam und einer Idee 300 Millionen Dollar bekommen sollten, aber offensichtlich kannte ich die Details nicht. Ihre Umsetzung ist wirklich hervorragend
  Sie könnten alle Use Cases übernehmen, die keine GPT-4-Leistung brauchen, und offenbar bald auch den Bereich großer Modelle ins Visier nehmen
- Selbst nach dem Blogpost und der Homepage ist es etwas schwer zu verstehen, was genau das ist
  Daher dürften wohl nur Leute, die sich recht gut mit AI auskennen, die Relevanz erkennen. Die obige Erklärung hilft aber definitiv
- Mistral sitzt in Frankreich, und die EU ist gerade dabei, mit AI-Regulierung eher Wasser in den Wein zu gießen. Langfristig dürfte das ein Nachteil sein
- Die französische Ausbildung in Ingenieurwesen und Informatik legt wirklich großen Wert auf Mathematik und Theorie. Das ist ein Vorteil in der AI
Wenn sich die Benchmarks in reale Performance übersetzen, ist das sehr beeindruckend [1]
mistral-medium liegt bei den verfügbaren Vergleichsbenchmarks deutlich vor GPT-3.5 und Googles aktuellem bestem öffentlich verfügbarem Modell Gemini Pro: https://screenbud.com/shot/c0d904e3-24a3-4c23-a1e4-2f18bc021...
[1] Wenn Mistral 7B der Maßstab ist, erwarte ich, dass der tatsächliche Leistungsabstand noch größer ist. Dass Sicherheitsfilter optional sind, ist selbst für sichere Anwendungen ein großer Vorteil
- Wenn Googles nächstes großes AI-Modell schon von einem kleinen Unternehmen mit viel weniger Ressourcen abgehängt wird, wäre das für Google ziemlich bitter
- Der Winogrande-Score liegt höher als bei GPT-4. Das ist überraschend, weil die anderen Metriken eher in der Nähe von GPT-3 zu liegen scheinen
- Ich bin mir nicht sicher, ob Gemini Pro wirklich „verfügbar“ ist
  Ich vertraue keinen Marketing-Benchmarks, bevor ein Modell veröffentlicht ist. Das schwankt zu stark, je nachdem, wie sehr die Performance vor der Veröffentlichung aus Sicherheitsgründen gedrosselt werden muss
- Wenn sie das neue Modell als Open Source veröffentlichen, wäre das wirklich spannend
- Ich habe ein Video gesehen, und Mixtral selbst war bei unterschiedlichen Aufgaben erstaunlich gut. Es gab auch Bereiche, in denen GPT-4 nicht immer genauso gut war
https://docs.mistral.ai/platform/pricing
Auch die Preise wurden veröffentlicht.
Pro 1 Million Output-Token kostet Mistral-medium 8 Dollar, Mistral-small 1,94 Dollar, gpt-3.5-turbo-1106 2 Dollar, gpt-4-1106-preview 30 Dollar, gpt-4 60 Dollar und gpt-4-32k 120 Dollar.
Dieser Preis wirkt wie ein Zeichen dafür, dass Mistral ziemlich überzeugt ist, dass mistral-medium deutlich besser ist als gpt-3.5.
- Ich frage mich, ob es Schätzungen zum Energiebedarf dieser Modelle gibt.
  Überschlägig gerechnet dürfte Inferenz eines 30B-Modells auf einer GTX 4090 etwa 30 Token pro Sekunde schaffen [1], also rund 100.000 Token pro Stunde.
  Wenn man annimmt, dass so ein System etwa 1 kW verbraucht, wären das etwa 10 kWh pro 1 Million Token.
  Bei den aktuellen Strompreisen dürfte es schwer sein, bei einem 30B-Modell unter 2–4 Dollar pro 1 Million Token zu kommen.
  [1] https://old.reddit.com/r/LocalLLaMA/comments/13j5cxf/how_man...
- Wenn man auch Input-Token berücksichtigt, liegt es insgesamt eher bei ungefähr 5,25 Euro gegenüber 1,5 Euro pro 1 Million Token.
  Mistral-small scheint das Modell zu sein, das am direktesten mit gpt-3.5 konkurriert, und ist günstiger. Es liegt bei etwa 1,2 Euro pro 1 Million Token.
  Zur Einordnung: Ich habe angenommen, dass Input- und Output-Token gleich gewichtet werden, und Dollarpreise konnte ich nicht sehen.
- Diese Annahme ist noch nicht belastbar. Es ist weiterhin ein beschränkter Release und liest sich praktisch wie „nur auf Einladung“. Erst wenn es in gewissem Umfang allgemein verfügbar ist, lässt es sich testen und verifizieren.
- Ich frage mich, ob Mistral und GPT denselben Tokenizer verwenden.
- Medium scheint eher mit Anthropics Claude konkurrieren zu wollen als mit den Produkten von OpenAI.
  https://www-files.anthropic.com/production/images/model_pric...
„Der Endpoint ist als Early Access verfügbar“ heißt in der Praxis: „Es gibt eine Warteliste unbekannter Länge für den Early Access zum Endpoint.“
Wenn man versucht, darauf zuzugreifen, erscheint: „Access to our API is currently invitation-only, but we'll let you know when you can subscribe to get access to our best models.“
- Wenn man sieht, dass die E-Mail-Verifizierung in der letzten Stunde auf mehrere Arten kaputt war, waren sie wohl nicht ganz so gut auf die PR vorbereitet, wie gedacht.
„Mistral-embed, our embedding endpoint, serves an embedding model with a 1024 embedding dimension. Our embedding model has been designed with retrieval capabilities in mind. It achieves a retrieval score of 55.26 on MTEB.“
Ich frage mich, ob es Informationen dazu gibt, ob dieses Embedding-Modell Open Source ist oder künftig Open Source werden soll.
„Mistral-Medium outperforms GPT-4 in Winogrande benchmark 88% vs 87.5%“
Quelle: https://twitter.com/yupiop12/status/1734137238177698106
Interessant ist, dass mehrere Plattformen wie Lemonfox.ai Mistral-Fine-Tuning-Modelle zu niedrigeren Preisen anbieten.
Sie haben auch schon eine Mistral 8x7B API angekündigt. Wenn sie monetarisieren wollen, frage ich mich, ob sie Modelle wie die Medium-Version künftig weiterhin als Open Source veröffentlichen werden.
- Ohne offengelegte Gewichte frage ich mich, warum sich Leute dafür interessieren sollten. Wenn sie so weit sind, mit GPT-4 konkurrieren zu können, ist wahrscheinlich schon GPT-5 erschienen.
Zufällig habe ich gesehen, dass Fabrice Bellards TextSynth-Server neu das Mistral-7B-Modell unterstützt.
„2023-10-21: CUDA support in the Windows version, mistral model support. Speculative sampling is supported. BNF grammar and JSON schema sampling.“
„mistral_7B_instruct_q4 - 3.9GB - Mistral 7B chat model“
https://bellard.org/ts_server/
„Mistral-medium. Our highest-quality endpoint currently serves a prototype model, that is currently among the top serviced models available based on standard benchmarks.“
Interessant. Dieses Modell liegt vor ChatGPT 3.5. Ich weiß nicht, um welche Art von Modell es sich handelt, und Open Source ist es nicht.
- Ah, dann ist das, was in ollama verwendet wird, wohl die Tiny-Version.
  „Mistral-tiny. Our most cost-effective endpoint currently serves Mistral 7B Instruct v0.2, a new minor release of Mistral 7B Instruct. Mistral-tiny only works in English. It obtains 7.6 on MT-Bench. The instructed model can be downloaded here.“

Mistral AI veröffentlicht Early Access für erste KI-Endpunkte

Beta von la plateforme und Endpunkt-Konfiguration

Generierungs-Endpunkte

Modellausrichtung und Embeddings

API-Zugriff und Beta-Betrieb

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News