- Um den 28. Januar veröffentlichte der Nutzer "Miqu Dev" auf HuggingFace, einer Open-Source-Plattform zum Teilen von AI-Modellen und Code, einen neuen Dateisatz für ein Open-Source-Large-Language-Model (LLM) namens "miqu-1-70b"
- Dieses Modell verwendet dasselbe "Prompt format" wie Mixtral 8x7b von Mistral, das derzeit als eines der leistungsstärksten Open-Source-AI-Modelle gilt
- Am selben Tag veröffentlichte ein anonymer Nutzer auf 4chan einen Link zu den Dateien von miqu-1-70b
- Einige Nutzer stellten fest, dass dieses Modell bei allgemeinen LLM-Aufgaben hervorragende Leistungen zeigt und an OpenAIs GPT-4 heranreicht
Mistral-Quantisierung?
- Forschende im Bereich Machine Learning (ML) zeigten auf LinkedIn Interesse an der Frage, ob "miqu" für "MIstral QUantized" steht
- Quantisierung ist eine Technik, bei der lange Zahlenfolgen in der Modellarchitektur durch kürzere ersetzt werden, damit AI-Modelle auf weniger leistungsfähigen Computern und Chips laufen können
- Arthur Mensch, Mitgründer und CEO von Mistral, erklärte, dass das Modell "Miqu" von einem allzu enthusiastischen Mitarbeiter eines Early-Access-Kunden von Mistral geleakt wurde
- Mistral habe dieses Modell auf Basis von Llama 2 weitertrainiert und das Pretraining am Tag des Releases von Mistral 7B abgeschlossen; seither mache es gute Fortschritte
- Interessanterweise hinterließ Mensch unter dem unrechtmäßigen HuggingFace-Post keinen Löschantrag, sondern einen Kommentar, man könne "eine Namensnennung in Betracht ziehen"
Ein bedeutender Moment für Open-Source-AI und darüber hinaus?
- Die Veröffentlichung eines Open-Source-Modells mit Leistung auf GPT-4-Niveau könnte ein bedeutender Moment nicht nur für generative Open-Source-AI, sondern für das gesamte Feld der AI und Informatik sein
- OpenAI kann seinen Wettbewerbsvorteil mit GPT-4 Turbo und GPT-4V (Vision) womöglich behalten, doch die Open-Source-AI-Community holt schnell auf
Meinung von GN⁺
- Das Auftauchen des Modells "Miqu" zeigt neue Möglichkeiten im Bereich Open-Source-AI auf, die mit kommerziellen AI-Produkten konkurrieren können
- Dieser Vorfall unterstreicht die Innovationskraft der Open-Source-Community und die schnelle technologische Entwicklung
- Fortschritte bei Open-Source-Modellen könnten verändern, wie Unternehmen AI einsetzen, und damit erhebliche Auswirkungen auf die gesamte Tech-Industrie haben
1 Kommentare
Hacker-News-Kommentare
Ein Nutzer beobachtet die Seite von TheBloke und wartet darauf, das quantisierte Modell Miqu Q5 auf seinem MacBook ausführen zu können. Er nutzt Mixtral täglich und würde sein OpenAI-Abonnement kündigen, falls dieses Modell (oder eine neue offizielle Version) an GPT-4 herankommt. Er meint, dass Mistrals kleines Team die Konkurrenz übertrifft und so aussieht, wie „Open"AI sein sollte.
Ein Nutzer merkt an, dass es trotz fast eines Jahres seit der Veröffentlichung von GPT-4 sehr ermüdend wirke, wie kollektiv versucht werde, GPT-4 ohne besonderen Geheimtrick einzuholen. Das gelte umso mehr, da OpenAI jederzeit etwas deutlich Besseres herausbringen könnte.
Ein anderer Nutzer weist zur Behauptung, man sei nahe an GPT-4, darauf hin, dass Leaderboards eine große Lücke zwischen GPT4-0314 und GPT4-Turbo zeigen. Wenn man also nur knapp an GPT4-0314 herankomme, liege man gegenüber dem Stand der Technik immer noch etwa ein Jahr zurück.
Ein weiterer Nutzer erwähnt, dass das geleakte Modell in ein paar Monaten wahrscheinlich keine Bedeutung mehr haben werde. Nach Erscheinen des offiziellen Modells würden bessere Modelle veröffentlicht werden, und spannender als das Modell selbst sei für ihn das hohe Entwicklungstempo.
Ein Nutzer stellt infrage, warum dieses Modell als Open-Source-Modell bezeichnet werde. Es sei ein proprietäres Modell, das ins Internet geleakt wurde, und bleibe das so, bis Mistral es offiziell veröffentliche. Für die private Nutzung wäre ihm das wie bei Llama 1 egal, aber kein Unternehmen werde dieses Modell verwenden.
Ein anderer Nutzer sagt, Mistral erinnere ihn an die guten alten Tech-Unternehmen aus der Zeit vor 2015.
Ein Nutzer fragt sich, wie man sich eine Welt vorstellen könne, in der GPT so alltäglich wie die aktuelle Version von Apache oder MySQL geworden ist und wir zu Hunderttausenden Webhosts zurückkehren würden — Verzeihung, AI-Hosts.
Abschließend erwähnt ein Nutzer, dass GPT-4 vor fast einem Jahr veröffentlicht wurde und das hohe Tempo, mit dem OpenAI jeden Monat neue bahnbrechende Technologie herauszubringen schien, offenbar nachgelassen habe. Er fragt sich, was bei OpenAI gerade vor sich geht, ob das jüngste Chaos zu Verzögerungen im Unternehmen geführt hat oder ob dort an irgendeiner „Superwaffe“ gearbeitet wird.