- Um die nachhaltige Weiterentwicklung des Local-AI-Ökosystems zu sichern, schließt sich ggml.ai, das Gründungsteam von
llama.cpp, Hugging Face an
ggml und llama.cpp werden weiterhin Open Source- und Community-zentriert betrieben, und das Team wird sie in Vollzeit weiter pflegen und unterstützen
- Hugging Face plant, die langfristige Nachhaltigkeit des Projekts zu sichern und sich auf ein besseres Nutzererlebnis sowie eine verbesserte Integration mit
transformers zu konzentrieren
- Durch die Zusammenarbeit sollen Zugänglichkeit und Bereitstellungskomfort für lokale Inferenz (Local Inference) verbessert und die Unterstützung verschiedener Modellarchitekturen ausgebaut werden
- Beide teilen die langfristige Vision, Open-Source-Superintelligenz in einer Form aufzubauen, die weltweit zugänglich ist
Ankündigung des Beitritts von ggml.ai zu Hugging Face
- ggml.ai, das Gründungsteam von
llama.cpp, schließt sich Hugging Face an, um die Zukunft der KI wirklich offen zu halten
- Ziel ist es, die Communities von
ggml und llama.cpp auszubauen und zu unterstützen sowie das nachhaltige Wachstum von Local AI zu fördern
- Die Projekte von
ggml-org bleiben wie bisher Open Source und Community-getrieben
- Das ggml-Team wird
ggml, llama.cpp und verwandte Open-Source-Projekte in Vollzeit pflegen und betreuen
- Die neue Partnerschaft sichert die langfristige Nachhaltigkeit der Projekte und eröffnet Nutzern und Mitwirkenden neue Möglichkeiten
- Durch eine verbesserte Integration mit der
transformers-Bibliothek von Hugging Face soll die Qualität der Modellunterstützung steigen
Hintergrund und Verlauf der Zusammenarbeit
- Seit seiner Gründung im Jahr 2023 unterstützt ggml.ai die Entwicklung und Verbreitung der Machine-Learning-Bibliothek
ggml
- In den vergangenen drei Jahren hat ein kleines Team die Open-Source-Community ausgebaut und
ggml als Standard für effiziente lokale AI-Inferenz etabliert
- Dabei war Hugging Face der stärkste Kooperationspartner
- HF-Ingenieure haben zu
ggml und llama.cpp Kernfunktionen beigetragen, Multimodal-Unterstützung ergänzt, Inference Endpoints integriert und die Kompatibilität mit dem GGUF-Format verbessert
- Die Zusammenarbeit auf beiden Seiten war effizient, und da die gesamte Community davon profitierte, führt dieser Schritt nun zu einer Formalisierung der Kooperation
Veränderungen bei Open-Source-Projekten und Community
- An der Arbeitsweise von
ggml und llama.cpp ändert sich nichts
- Das Team bleibt der Pflege der Projekte verpflichtet, und die Community behält ihre Autonomie bei technischen und strukturellen Entscheidungen
- Hugging Face stellt nachhaltige Ressourcen bereit und erhöht damit das Wachstumspotenzial der Projekte
- Die Projekte bleiben weiterhin zu 100 % Open Source, und auch die Unterstützung für Quantisierung (quantization) nach Modellveröffentlichungen dürfte schneller werden
Technischer Fokus
- Die künftigen gemeinsamen Ziele konzentrieren sich auf zwei Kernrichtungen
- One-Click-Integration mit Hugging Face
transformers
transformers hat sich als Standard für die Definition von AI-Modellen etabliert, und eine bessere Kompatibilität zwischen beiden Ökosystemen ist entscheidend für breitere Modellunterstützung und Qualitätssicherung
- Verbesserung von Packaging und Nutzererlebnis für auf ggml basierende Software
- Da sich lokale Inferenz als Alternative zur Cloud-Inferenz etabliert, muss die Bereitstellung und Zugänglichkeit von Modellen für allgemeine Nutzer vereinfacht werden
- Ziel ist es,
llama.cpp allgemein und überall nutzbar zu machen
Langfristige Vision
- ggml.ai und Hugging Face verfolgen gemeinsam das Ziel, Open-Source-Superintelligenz aufzubauen, die weltweit zugänglich ist
- Gemeinsam mit der Local-AI-Community wollen sie den effizienten Inferenz-Stack weiterentwickeln, damit auch auf persönlichen Geräten maximale Leistung erreicht werden kann
Reaktionen aus der Community
- Mitglieder der Hugging Face- und ggml-Community hinterließen zahlreiche Botschaften voller Glückwünsche und Erwartungen
- Positive Reaktionen wie „ein großer Fortschritt für das Local-AI-Ökosystem“ und „wichtige Neuigkeiten für ein offenes AI-Ökosystem“ wurden vielfach geäußert
- Einige Nutzer baten um eine klarere Erklärung zur Unabhängigkeit des Projekts und zum Eigentum am Code
- Andere äußerten Bedenken hinsichtlich veränderter Zuständigkeiten durch eine Unternehmensübernahme und der Transparenz von Open Source
- Insgesamt bewertet die Community diese Zusammenarbeit als Grundlage für das nachhaltige Wachstum von Local AI
1 Kommentare
Hacker-News-Kommentare
Ich denke, HuggingFace ist das, was „Open AI“ im eigentlichen Sinn sein sollte
Für mich sind sie einer der wenigen stillen Helden, die On-Premises-AI unter die Leute gebracht haben
Ich erinnere mich noch an die Zeit, als Traffic-Kosten teuer waren, deshalb ist es erstaunlich, dass sie so viele Modelle kostenlos hosten
Hoffentlich haben sie ein nachhaltiges Geschäftsmodell. Dieses Ökosystem wäre ohne sie deutlich ärmer
Um Kimi oder GLM intern laufen zu lassen, braucht man zwar immer noch preislich vernünftige Hardware, aber zumindest Gewichte und Distribution sind gelöst
Die Dokumentation ist hervorragend, und hochwertige Quantisierungen in den wichtigsten Formaten kommen schnell. Ich halte sie für eine vertrauenswürdige Marke
Ich lade häufig Modelle mit mehreren hundert GB herunter; für die souveräne AI-Community ist das ein riesiger Dienst
Für Berechnungen über Nacht ist das völlig brauchbar, und mit mehr Rechenressourcen wird es zunehmend besser
Es gibt zwar hf-torrent oder hf_transfer, aber sie sind nicht so zugänglich wie direkt im Web-UI nutzbare Links
Der Einfluss von Georgi Gerganov und llama.cpp auf das lokale Modell-Ökosystem kann gar nicht hoch genug eingeschätzt werden
Im März 2023 begann die Revolution, als LLaMA auf Consumer-Laptops lief
Damals stand im README, das Ziel sei, „Modelle mit 4-Bit-Quantisierung auf einem MacBook laufen zu lassen“
So wie Hugging Face Transformers gut gepflegt hat, hoffe ich, dass GGML denselben Weg gehen wird
Der zugehörige Artikel ist hier zusammengefasst
Es ist erstaunlich, dass HuggingFace der Welt so viel Gutes tut und dabei profitabel ist
Ich frage mich, wie solide das Geschäftsmodell wirklich ist, ob es langfristig tragfähig ist und ob irgendwann die Möglichkeit besteht, dass sie „verkauft werden“
Link zum Artikel
Die Community wächst kostenlos, und an Unternehmen wird eine private Version verkauft. Sie sind bereits profitabel
Ich denke, das ist eine ziemlich solide Grundlage
Es ist schon etwas ironisch, dass Investoren wie AMD, Nvidia, Intel, IBM und Qualcomm angeblich für die Autonomie der Nutzer kämpfen
Ich wusste nicht, für welchen Dienst das war, und habe deshalb mein Konto gekündigt. Dieser intransparente Bezahlprozess war unerquicklich
HuggingFace ist der stille GOAT im AI-Bereich
Die Community und die Plattform sind großartig
Hoffentlich stimmt die Aussage, dass „die Community autonom betrieben wird und zu 100 % Open Source bleibt“
Aber am Ende werden wahrscheinlich doch die Geschäftsinteressen gewinnen
Llama.cpp ist zum De-facto-Standard für lokale Inferenz geworden, und viele Projekte hängen davon ab
Wenn ein bestimmtes Unternehmen das kontrolliert, kontrolliert es das gesamte lokale LLM-Ökosystem
Hugging Face wirkt jetzt sympathisch, aber das galt früher auch für Google
Um Lock-in-Effekte zu vermeiden, bräuchte es eine unabhängige Non-Profit-Organisation als Träger oder konkurrierende Projekte
„Kontrolle“ bedeutet höchstens, die Entwicklung bestimmter Funktionen zu unterstützen
Ich bin dem ggml-Team wirklich dankbar, dass es die Quantisierungstechnik für alle offengelegt hat
Ihre Arbeit hat viel verändert
Ich unterstütze ggml/llama.cpp/Georgi seit 2023 über GitHub, und ich freue mich, dass sie jetzt offenbar ein gutes Zuhause gefunden haben
Deshalb werde ich meine Unterstützung wohl beenden
Die Verbindung von HuggingFace und GGML wirkt wie eine perfekte Kombination
Eigentlich hätte das meiner Meinung nach schon früher passieren müssen
Gerade ist noch die Talsohle der lokalen AI, aber ich erwarte in den nächsten 2 bis 3 Jahren ein explosives Wachstum
HF-Mitglieder wie @ngxson sind wichtige Mitwirkende an llama.cpp
Ich suche nach einer effizienten Möglichkeit, Modelle auf schwacher Hardware wie einem MacBook M1 8GB mit Docker laufen zu lassen
Modelle wie Cybersecurity-BaronLLM sehen toll aus, aber am Ende wird mein Notebook nur zum Heizkörper
Muss ich mir stärkere Hardware kaufen?
Empfohlen werden Modelle wie Whisper, SmolVLM, Phi-3-mini und Gemma3
Siehe das Beispiel home-llm
Auf dem Mac sind Ollama oder MLX sinnvoll, und mit Docker Desktop oder Colima kann man eine VM aufsetzen
Mit 8 GB sind etwa 5 bis 10 Token pro Sekunde möglich, mit 32 GB etwa 50 Token. Das Problem ist also zu wenig RAM
Man kann kleine Modelle oder quantisierte Modelle verwenden oder stärkere Hardware kaufen beziehungsweise mieten
Es kann auch sinnvoll sein, ohne Docker erst einmal mit LM Studio anzufangen
Das ist nicht perfekt, aber meiner Meinung nach besser als bloß mehr Parameter
Langsam und mit geringer Qualität, aber es geht
Ich überlege, wie ich praktisch in die AI-Entwicklung einsteigen kann
In der Firma nutze ich nur Copilot, deshalb fühle ich mich vom AI-Entwicklungsökosystem etwas abgehängt
Ich habe einen Java/React-Full-Stack-Hintergrund und kann auch etwas Python
Ich überlege, ob ich mit LLM from scratch anfangen, den Google ML Crash Course machen oder ein Nvidia-Zertifikat erwerben soll
Ich bitte um Rat
Nicht direkt mit LLMs anfangen, sondern im eigenen Interessengebiet, etwa Grafik, klein beginnen
Bei Unsloth gibt es gut aufbereitete kostenlose Colab-Anleitungen