ggml.ai schließt sich Hugging Face an, um die langfristige Entwicklung von Local AI zu sichern

(github.com/ggml-org)

1 Punkte von GN⁺ 2026-02-21 | 1 Kommentare | Auf WhatsApp teilen

Um die nachhaltige Weiterentwicklung des Local-AI-Ökosystems zu sichern, schließt sich ggml.ai, das Gründungsteam von llama.cpp, Hugging Face an
ggml und llama.cpp werden weiterhin Open Source- und Community-zentriert betrieben, und das Team wird sie in Vollzeit weiter pflegen und unterstützen
Hugging Face plant, die langfristige Nachhaltigkeit des Projekts zu sichern und sich auf ein besseres Nutzererlebnis sowie eine verbesserte Integration mit transformers zu konzentrieren
Durch die Zusammenarbeit sollen Zugänglichkeit und Bereitstellungskomfort für lokale Inferenz (Local Inference) verbessert und die Unterstützung verschiedener Modellarchitekturen ausgebaut werden
Beide teilen die langfristige Vision, Open-Source-Superintelligenz in einer Form aufzubauen, die weltweit zugänglich ist

Ankündigung des Beitritts von ggml.ai zu Hugging Face

ggml.ai, das Gründungsteam von llama.cpp, schließt sich Hugging Face an, um die Zukunft der KI wirklich offen zu halten
- Ziel ist es, die Communities von ggml und llama.cpp auszubauen und zu unterstützen sowie das nachhaltige Wachstum von Local AI zu fördern
Die Projekte von ggml-org bleiben wie bisher Open Source und Community-getrieben
Das ggml-Team wird ggml, llama.cpp und verwandte Open-Source-Projekte in Vollzeit pflegen und betreuen
Die neue Partnerschaft sichert die langfristige Nachhaltigkeit der Projekte und eröffnet Nutzern und Mitwirkenden neue Möglichkeiten
Durch eine verbesserte Integration mit der transformers-Bibliothek von Hugging Face soll die Qualität der Modellunterstützung steigen

Hintergrund und Verlauf der Zusammenarbeit

Seit seiner Gründung im Jahr 2023 unterstützt ggml.ai die Entwicklung und Verbreitung der Machine-Learning-Bibliothek ggml
In den vergangenen drei Jahren hat ein kleines Team die Open-Source-Community ausgebaut und ggml als Standard für effiziente lokale AI-Inferenz etabliert
Dabei war Hugging Face der stärkste Kooperationspartner
- HF-Ingenieure haben zu ggml und llama.cpp Kernfunktionen beigetragen, Multimodal-Unterstützung ergänzt, Inference Endpoints integriert und die Kompatibilität mit dem GGUF-Format verbessert
Die Zusammenarbeit auf beiden Seiten war effizient, und da die gesamte Community davon profitierte, führt dieser Schritt nun zu einer Formalisierung der Kooperation

Veränderungen bei Open-Source-Projekten und Community

An der Arbeitsweise von ggml und llama.cpp ändert sich nichts
- Das Team bleibt der Pflege der Projekte verpflichtet, und die Community behält ihre Autonomie bei technischen und strukturellen Entscheidungen
Hugging Face stellt nachhaltige Ressourcen bereit und erhöht damit das Wachstumspotenzial der Projekte
Die Projekte bleiben weiterhin zu 100 % Open Source, und auch die Unterstützung für Quantisierung (quantization) nach Modellveröffentlichungen dürfte schneller werden

Technischer Fokus

Die künftigen gemeinsamen Ziele konzentrieren sich auf zwei Kernrichtungen
- One-Click-Integration mit Hugging Face transformers
  - transformers hat sich als Standard für die Definition von AI-Modellen etabliert, und eine bessere Kompatibilität zwischen beiden Ökosystemen ist entscheidend für breitere Modellunterstützung und Qualitätssicherung
- Verbesserung von Packaging und Nutzererlebnis für auf ggml basierende Software
  - Da sich lokale Inferenz als Alternative zur Cloud-Inferenz etabliert, muss die Bereitstellung und Zugänglichkeit von Modellen für allgemeine Nutzer vereinfacht werden
  - Ziel ist es, llama.cpp allgemein und überall nutzbar zu machen

Langfristige Vision

ggml.ai und Hugging Face verfolgen gemeinsam das Ziel, Open-Source-Superintelligenz aufzubauen, die weltweit zugänglich ist
Gemeinsam mit der Local-AI-Community wollen sie den effizienten Inferenz-Stack weiterentwickeln, damit auch auf persönlichen Geräten maximale Leistung erreicht werden kann

Reaktionen aus der Community

Mitglieder der Hugging Face- und ggml-Community hinterließen zahlreiche Botschaften voller Glückwünsche und Erwartungen
- Positive Reaktionen wie „ein großer Fortschritt für das Local-AI-Ökosystem“ und „wichtige Neuigkeiten für ein offenes AI-Ökosystem“ wurden vielfach geäußert
Einige Nutzer baten um eine klarere Erklärung zur Unabhängigkeit des Projekts und zum Eigentum am Code
Andere äußerten Bedenken hinsichtlich veränderter Zuständigkeiten durch eine Unternehmensübernahme und der Transparenz von Open Source
Insgesamt bewertet die Community diese Zusammenarbeit als Grundlage für das nachhaltige Wachstum von Local AI

1 Kommentare

GN⁺ 2026-02-21

Hacker-News-Kommentare

Ich denke, HuggingFace ist das, was „Open AI“ im eigentlichen Sinn sein sollte
Für mich sind sie einer der wenigen stillen Helden, die On-Premises-AI unter die Leute gebracht haben
Ich erinnere mich noch an die Zeit, als Traffic-Kosten teuer waren, deshalb ist es erstaunlich, dass sie so viele Modelle kostenlos hosten
Hoffentlich haben sie ein nachhaltiges Geschäftsmodell. Dieses Ökosystem wäre ohne sie deutlich ärmer
Um Kimi oder GLM intern laufen zu lassen, braucht man zwar immer noch preislich vernünftige Hardware, aber zumindest Gewichte und Distribution sind gelöst
- Unsloth sollte man ebenfalls zu diesen stillen Helden zählen
  Die Dokumentation ist hervorragend, und hochwertige Quantisierungen in den wichtigsten Formaten kommen schnell. Ich halte sie für eine vertrauenswürdige Marke
- Ich kann mir gar nicht vorstellen, wie viel Traffic HF verarbeitet
  Ich lade häufig Modelle mit mehreren hundert GB herunter; für die souveräne AI-Community ist das ein riesiger Dienst
- Wenn man Gewichte von der SSD streamt und den KV-Cache per Swap erweitert, läuft es zwar langsam, aber auf fast jedem Gerät
  Für Berechnungen über Nacht ist das völlig brauchbar, und mit mehr Rechenressourcen wird es zunehmend besser
- Ich verstehe nicht, warum BitTorrent nicht unterstützt wird
  Es gibt zwar hf-torrent oder hf_transfer, aber sie sind nicht so zugänglich wie direkt im Web-UI nutzbare Links
- Torrent ist doch eigentlich der perfekte Anwendungsfall, deshalb frage ich mich immer noch, warum es nicht genutzt wird
Der Einfluss von Georgi Gerganov und llama.cpp auf das lokale Modell-Ökosystem kann gar nicht hoch genug eingeschätzt werden
Im März 2023 begann die Revolution, als LLaMA auf Consumer-Laptops lief
Damals stand im README, das Ziel sei, „Modelle mit 4-Bit-Quantisierung auf einem MacBook laufen zu lassen“
So wie Hugging Face Transformers gut gepflegt hat, hoffe ich, dass GGML denselben Weg gehen wird
Der zugehörige Artikel ist hier zusammengefasst
- Ich frage mich, warum deine Kommentare immer ganz oben fixiert sind
Es ist erstaunlich, dass HuggingFace der Welt so viel Gutes tut und dabei profitabel ist
Ich frage mich, wie solide das Geschäftsmodell wirklich ist, ob es langfristig tragfähig ist und ob irgendwann die Möglichkeit besteht, dass sie „verkauft werden“
- Der jüngste FT-Artikel „Why AI start-up Hugging Face turned down a $500mn Nvidia deal“ ist dazu lesenswert
  Link zum Artikel
- Das Geschäftsmodell ähnelt im Grunde GitHub
  Die Community wächst kostenlos, und an Unternehmen wird eine private Version verkauft. Sie sind bereits profitabel
- Es gibt auch bezahltes Hosting (enterprise) und Beratungsleistungen
  Ich denke, das ist eine ziemlich solide Grundlage
- Dass sie „niemals verkauft werden“, fällt mir schwer zu glauben
  Es ist schon etwas ironisch, dass Investoren wie AMD, Nvidia, Intel, IBM und Qualcomm angeblich für die Autonomie der Nutzer kämpfen
- Ich habe HuggingFace einmal wegen eines Tutorials ausprobiert, musste bei der Anmeldung Kartendaten angeben und bekam einen Monat später eine Rechnung
  Ich wusste nicht, für welchen Dienst das war, und habe deshalb mein Konto gekündigt. Dieser intransparente Bezahlprozess war unerquicklich
HuggingFace ist der stille GOAT im AI-Bereich
Die Community und die Plattform sind großartig
- Es ist beeindruckend, ohne intransparente Verkaufstricks eine offene Plattform aufzubauen und damit trotzdem Geld zu verdienen
Hoffentlich stimmt die Aussage, dass „die Community autonom betrieben wird und zu 100 % Open Source bleibt“
Aber am Ende werden wahrscheinlich doch die Geschäftsinteressen gewinnen
Llama.cpp ist zum De-facto-Standard für lokale Inferenz geworden, und viele Projekte hängen davon ab
Wenn ein bestimmtes Unternehmen das kontrolliert, kontrolliert es das gesamte lokale LLM-Ökosystem
Hugging Face wirkt jetzt sympathisch, aber das galt früher auch für Google
Um Lock-in-Effekte zu vermeiden, bräuchte es eine unabhängige Non-Profit-Organisation als Träger oder konkurrierende Projekte
- Llama.cpp ist Open Source, also kann es jeder forken
  „Kontrolle“ bedeutet höchstens, die Entwicklung bestimmter Funktionen zu unterstützen
Ich bin dem ggml-Team wirklich dankbar, dass es die Quantisierungstechnik für alle offengelegt hat
Ihre Arbeit hat viel verändert
Ich unterstütze ggml/llama.cpp/Georgi seit 2023 über GitHub, und ich freue mich, dass sie jetzt offenbar ein gutes Zuhause gefunden haben
Deshalb werde ich meine Unterstützung wohl beenden
Die Verbindung von HuggingFace und GGML wirkt wie eine perfekte Kombination
Eigentlich hätte das meiner Meinung nach schon früher passieren müssen
Gerade ist noch die Talsohle der lokalen AI, aber ich erwarte in den nächsten 2 bis 3 Jahren ein explosives Wachstum
- Tatsächlich hat HuggingFace das Projekt schon lange unterstützt
  HF-Mitglieder wie @ngxson sind wichtige Mitwirkende an llama.cpp
Ich suche nach einer effizienten Möglichkeit, Modelle auf schwacher Hardware wie einem MacBook M1 8GB mit Docker laufen zu lassen
Modelle wie Cybersecurity-BaronLLM sehen toll aus, aber am Ende wird mein Notebook nur zum Heizkörper
Muss ich mir stärkere Hardware kaufen?
- Mit 8 GB ist komplexe Inferenz schwierig, aber kleine Modelle gehen
  Empfohlen werden Modelle wie Whisper, SmolVLM, Phi-3-mini und Gemma3
  Siehe das Beispiel home-llm
  Auf dem Mac sind Ollama oder MLX sinnvoll, und mit Docker Desktop oder Colima kann man eine VM aufsetzen
  Mit 8 GB sind etwa 5 bis 10 Token pro Sekunde möglich, mit 32 GB etwa 50 Token. Das Problem ist also zu wenig RAM
- Letztlich braucht man ein ausreichend leistungsfähiges System
  Man kann kleine Modelle oder quantisierte Modelle verwenden oder stärkere Hardware kaufen beziehungsweise mieten
  Es kann auch sinnvoll sein, ohne Docker erst einmal mit LM Studio anzufangen
- Mit 8 GB kann man mit starker Quantisierung auf 2-Bit-Niveau sogar Modelle bis 32B laufen lassen
  Das ist nicht perfekt, aber meiner Meinung nach besser als bloß mehr Parameter
- Solche Fragen werden in r/LocalLLM wahrscheinlich besser beantwortet
- Auch mit 8 GB kann man sehr kleine gguf-Modelle per CPU mit llamafile ausführen
  Langsam und mit geringer Qualität, aber es geht
Ich überlege, wie ich praktisch in die AI-Entwicklung einsteigen kann
In der Firma nutze ich nur Copilot, deshalb fühle ich mich vom AI-Entwicklungsökosystem etwas abgehängt
Ich habe einen Java/React-Full-Stack-Hintergrund und kann auch etwas Python
Ich überlege, ob ich mit LLM from scratch anfangen, den Google ML Crash Course machen oder ein Nvidia-Zertifikat erwerben soll
Ich bitte um Rat
- Wenn dein Ziel nicht klar ist, ist es am besten, selbst kleine Projekte zu bauen, die dich interessieren
  Nicht direkt mit LLMs anfangen, sondern im eigenen Interessengebiet, etwa Grafik, klein beginnen
- Ich würde empfehlen, dich mit Modell-Finetuning oder Wissensdestillation (Distillation) zu beschäftigen
  Bei Unsloth gibt es gut aufbereitete kostenlose Colab-Anleitungen

ggml.ai schließt sich Hugging Face an, um die langfristige Entwicklung von Local AI zu sichern

Ankündigung des Beitritts von ggml.ai zu Hugging Face

Hintergrund und Verlauf der Zusammenarbeit

Veränderungen bei Open-Source-Projekten und Community

Technischer Fokus

Langfristige Vision

Reaktionen aus der Community

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare