1 Punkte von GN⁺ 2026-02-21 | 1 Kommentare | Auf WhatsApp teilen
  • Um die nachhaltige Weiterentwicklung des Local-AI-Ökosystems zu sichern, schließt sich ggml.ai, das Gründungsteam von llama.cpp, Hugging Face an
  • ggml und llama.cpp werden weiterhin Open Source- und Community-zentriert betrieben, und das Team wird sie in Vollzeit weiter pflegen und unterstützen
  • Hugging Face plant, die langfristige Nachhaltigkeit des Projekts zu sichern und sich auf ein besseres Nutzererlebnis sowie eine verbesserte Integration mit transformers zu konzentrieren
  • Durch die Zusammenarbeit sollen Zugänglichkeit und Bereitstellungskomfort für lokale Inferenz (Local Inference) verbessert und die Unterstützung verschiedener Modellarchitekturen ausgebaut werden
  • Beide teilen die langfristige Vision, Open-Source-Superintelligenz in einer Form aufzubauen, die weltweit zugänglich ist

Ankündigung des Beitritts von ggml.ai zu Hugging Face

  • ggml.ai, das Gründungsteam von llama.cpp, schließt sich Hugging Face an, um die Zukunft der KI wirklich offen zu halten
    • Ziel ist es, die Communities von ggml und llama.cpp auszubauen und zu unterstützen sowie das nachhaltige Wachstum von Local AI zu fördern
  • Die Projekte von ggml-org bleiben wie bisher Open Source und Community-getrieben
  • Das ggml-Team wird ggml, llama.cpp und verwandte Open-Source-Projekte in Vollzeit pflegen und betreuen
  • Die neue Partnerschaft sichert die langfristige Nachhaltigkeit der Projekte und eröffnet Nutzern und Mitwirkenden neue Möglichkeiten
  • Durch eine verbesserte Integration mit der transformers-Bibliothek von Hugging Face soll die Qualität der Modellunterstützung steigen

Hintergrund und Verlauf der Zusammenarbeit

  • Seit seiner Gründung im Jahr 2023 unterstützt ggml.ai die Entwicklung und Verbreitung der Machine-Learning-Bibliothek ggml
  • In den vergangenen drei Jahren hat ein kleines Team die Open-Source-Community ausgebaut und ggml als Standard für effiziente lokale AI-Inferenz etabliert
  • Dabei war Hugging Face der stärkste Kooperationspartner
    • HF-Ingenieure haben zu ggml und llama.cpp Kernfunktionen beigetragen, Multimodal-Unterstützung ergänzt, Inference Endpoints integriert und die Kompatibilität mit dem GGUF-Format verbessert
  • Die Zusammenarbeit auf beiden Seiten war effizient, und da die gesamte Community davon profitierte, führt dieser Schritt nun zu einer Formalisierung der Kooperation

Veränderungen bei Open-Source-Projekten und Community

  • An der Arbeitsweise von ggml und llama.cpp ändert sich nichts
    • Das Team bleibt der Pflege der Projekte verpflichtet, und die Community behält ihre Autonomie bei technischen und strukturellen Entscheidungen
  • Hugging Face stellt nachhaltige Ressourcen bereit und erhöht damit das Wachstumspotenzial der Projekte
  • Die Projekte bleiben weiterhin zu 100 % Open Source, und auch die Unterstützung für Quantisierung (quantization) nach Modellveröffentlichungen dürfte schneller werden

Technischer Fokus

  • Die künftigen gemeinsamen Ziele konzentrieren sich auf zwei Kernrichtungen
    • One-Click-Integration mit Hugging Face transformers
      • transformers hat sich als Standard für die Definition von AI-Modellen etabliert, und eine bessere Kompatibilität zwischen beiden Ökosystemen ist entscheidend für breitere Modellunterstützung und Qualitätssicherung
    • Verbesserung von Packaging und Nutzererlebnis für auf ggml basierende Software
      • Da sich lokale Inferenz als Alternative zur Cloud-Inferenz etabliert, muss die Bereitstellung und Zugänglichkeit von Modellen für allgemeine Nutzer vereinfacht werden
      • Ziel ist es, llama.cpp allgemein und überall nutzbar zu machen

Langfristige Vision

  • ggml.ai und Hugging Face verfolgen gemeinsam das Ziel, Open-Source-Superintelligenz aufzubauen, die weltweit zugänglich ist
  • Gemeinsam mit der Local-AI-Community wollen sie den effizienten Inferenz-Stack weiterentwickeln, damit auch auf persönlichen Geräten maximale Leistung erreicht werden kann

Reaktionen aus der Community

  • Mitglieder der Hugging Face- und ggml-Community hinterließen zahlreiche Botschaften voller Glückwünsche und Erwartungen
    • Positive Reaktionen wie „ein großer Fortschritt für das Local-AI-Ökosystem“ und „wichtige Neuigkeiten für ein offenes AI-Ökosystem“ wurden vielfach geäußert
  • Einige Nutzer baten um eine klarere Erklärung zur Unabhängigkeit des Projekts und zum Eigentum am Code
  • Andere äußerten Bedenken hinsichtlich veränderter Zuständigkeiten durch eine Unternehmensübernahme und der Transparenz von Open Source
  • Insgesamt bewertet die Community diese Zusammenarbeit als Grundlage für das nachhaltige Wachstum von Local AI

1 Kommentare

 
GN⁺ 2026-02-21
Hacker-News-Kommentare
  • Ich denke, HuggingFace ist das, was „Open AI“ im eigentlichen Sinn sein sollte
    Für mich sind sie einer der wenigen stillen Helden, die On-Premises-AI unter die Leute gebracht haben
    Ich erinnere mich noch an die Zeit, als Traffic-Kosten teuer waren, deshalb ist es erstaunlich, dass sie so viele Modelle kostenlos hosten
    Hoffentlich haben sie ein nachhaltiges Geschäftsmodell. Dieses Ökosystem wäre ohne sie deutlich ärmer
    Um Kimi oder GLM intern laufen zu lassen, braucht man zwar immer noch preislich vernünftige Hardware, aber zumindest Gewichte und Distribution sind gelöst

    • Unsloth sollte man ebenfalls zu diesen stillen Helden zählen
      Die Dokumentation ist hervorragend, und hochwertige Quantisierungen in den wichtigsten Formaten kommen schnell. Ich halte sie für eine vertrauenswürdige Marke
    • Ich kann mir gar nicht vorstellen, wie viel Traffic HF verarbeitet
      Ich lade häufig Modelle mit mehreren hundert GB herunter; für die souveräne AI-Community ist das ein riesiger Dienst
    • Wenn man Gewichte von der SSD streamt und den KV-Cache per Swap erweitert, läuft es zwar langsam, aber auf fast jedem Gerät
      Für Berechnungen über Nacht ist das völlig brauchbar, und mit mehr Rechenressourcen wird es zunehmend besser
    • Ich verstehe nicht, warum BitTorrent nicht unterstützt wird
      Es gibt zwar hf-torrent oder hf_transfer, aber sie sind nicht so zugänglich wie direkt im Web-UI nutzbare Links
    • Torrent ist doch eigentlich der perfekte Anwendungsfall, deshalb frage ich mich immer noch, warum es nicht genutzt wird
  • Der Einfluss von Georgi Gerganov und llama.cpp auf das lokale Modell-Ökosystem kann gar nicht hoch genug eingeschätzt werden
    Im März 2023 begann die Revolution, als LLaMA auf Consumer-Laptops lief
    Damals stand im README, das Ziel sei, „Modelle mit 4-Bit-Quantisierung auf einem MacBook laufen zu lassen“
    So wie Hugging Face Transformers gut gepflegt hat, hoffe ich, dass GGML denselben Weg gehen wird
    Der zugehörige Artikel ist hier zusammengefasst

    • Ich frage mich, warum deine Kommentare immer ganz oben fixiert sind
  • Es ist erstaunlich, dass HuggingFace der Welt so viel Gutes tut und dabei profitabel ist
    Ich frage mich, wie solide das Geschäftsmodell wirklich ist, ob es langfristig tragfähig ist und ob irgendwann die Möglichkeit besteht, dass sie „verkauft werden“

    • Der jüngste FT-Artikel „Why AI start-up Hugging Face turned down a $500mn Nvidia deal“ ist dazu lesenswert
      Link zum Artikel
    • Das Geschäftsmodell ähnelt im Grunde GitHub
      Die Community wächst kostenlos, und an Unternehmen wird eine private Version verkauft. Sie sind bereits profitabel
    • Es gibt auch bezahltes Hosting (enterprise) und Beratungsleistungen
      Ich denke, das ist eine ziemlich solide Grundlage
    • Dass sie „niemals verkauft werden“, fällt mir schwer zu glauben
      Es ist schon etwas ironisch, dass Investoren wie AMD, Nvidia, Intel, IBM und Qualcomm angeblich für die Autonomie der Nutzer kämpfen
    • Ich habe HuggingFace einmal wegen eines Tutorials ausprobiert, musste bei der Anmeldung Kartendaten angeben und bekam einen Monat später eine Rechnung
      Ich wusste nicht, für welchen Dienst das war, und habe deshalb mein Konto gekündigt. Dieser intransparente Bezahlprozess war unerquicklich
  • HuggingFace ist der stille GOAT im AI-Bereich
    Die Community und die Plattform sind großartig

    • Es ist beeindruckend, ohne intransparente Verkaufstricks eine offene Plattform aufzubauen und damit trotzdem Geld zu verdienen
  • Hoffentlich stimmt die Aussage, dass „die Community autonom betrieben wird und zu 100 % Open Source bleibt“
    Aber am Ende werden wahrscheinlich doch die Geschäftsinteressen gewinnen
    Llama.cpp ist zum De-facto-Standard für lokale Inferenz geworden, und viele Projekte hängen davon ab
    Wenn ein bestimmtes Unternehmen das kontrolliert, kontrolliert es das gesamte lokale LLM-Ökosystem
    Hugging Face wirkt jetzt sympathisch, aber das galt früher auch für Google
    Um Lock-in-Effekte zu vermeiden, bräuchte es eine unabhängige Non-Profit-Organisation als Träger oder konkurrierende Projekte

    • Llama.cpp ist Open Source, also kann es jeder forken
      „Kontrolle“ bedeutet höchstens, die Entwicklung bestimmter Funktionen zu unterstützen
  • Ich bin dem ggml-Team wirklich dankbar, dass es die Quantisierungstechnik für alle offengelegt hat
    Ihre Arbeit hat viel verändert

  • Ich unterstütze ggml/llama.cpp/Georgi seit 2023 über GitHub, und ich freue mich, dass sie jetzt offenbar ein gutes Zuhause gefunden haben
    Deshalb werde ich meine Unterstützung wohl beenden

  • Die Verbindung von HuggingFace und GGML wirkt wie eine perfekte Kombination
    Eigentlich hätte das meiner Meinung nach schon früher passieren müssen
    Gerade ist noch die Talsohle der lokalen AI, aber ich erwarte in den nächsten 2 bis 3 Jahren ein explosives Wachstum

    • Tatsächlich hat HuggingFace das Projekt schon lange unterstützt
      HF-Mitglieder wie @ngxson sind wichtige Mitwirkende an llama.cpp
  • Ich suche nach einer effizienten Möglichkeit, Modelle auf schwacher Hardware wie einem MacBook M1 8GB mit Docker laufen zu lassen
    Modelle wie Cybersecurity-BaronLLM sehen toll aus, aber am Ende wird mein Notebook nur zum Heizkörper
    Muss ich mir stärkere Hardware kaufen?

    • Mit 8 GB ist komplexe Inferenz schwierig, aber kleine Modelle gehen
      Empfohlen werden Modelle wie Whisper, SmolVLM, Phi-3-mini und Gemma3
      Siehe das Beispiel home-llm
      Auf dem Mac sind Ollama oder MLX sinnvoll, und mit Docker Desktop oder Colima kann man eine VM aufsetzen
      Mit 8 GB sind etwa 5 bis 10 Token pro Sekunde möglich, mit 32 GB etwa 50 Token. Das Problem ist also zu wenig RAM
    • Letztlich braucht man ein ausreichend leistungsfähiges System
      Man kann kleine Modelle oder quantisierte Modelle verwenden oder stärkere Hardware kaufen beziehungsweise mieten
      Es kann auch sinnvoll sein, ohne Docker erst einmal mit LM Studio anzufangen
    • Mit 8 GB kann man mit starker Quantisierung auf 2-Bit-Niveau sogar Modelle bis 32B laufen lassen
      Das ist nicht perfekt, aber meiner Meinung nach besser als bloß mehr Parameter
    • Solche Fragen werden in r/LocalLLM wahrscheinlich besser beantwortet
    • Auch mit 8 GB kann man sehr kleine gguf-Modelle per CPU mit llamafile ausführen
      Langsam und mit geringer Qualität, aber es geht
  • Ich überlege, wie ich praktisch in die AI-Entwicklung einsteigen kann
    In der Firma nutze ich nur Copilot, deshalb fühle ich mich vom AI-Entwicklungsökosystem etwas abgehängt
    Ich habe einen Java/React-Full-Stack-Hintergrund und kann auch etwas Python
    Ich überlege, ob ich mit LLM from scratch anfangen, den Google ML Crash Course machen oder ein Nvidia-Zertifikat erwerben soll
    Ich bitte um Rat

    • Wenn dein Ziel nicht klar ist, ist es am besten, selbst kleine Projekte zu bauen, die dich interessieren
      Nicht direkt mit LLMs anfangen, sondern im eigenen Interessengebiet, etwa Grafik, klein beginnen
    • Ich würde empfehlen, dich mit Modell-Finetuning oder Wissensdestillation (Distillation) zu beschäftigen
      Bei Unsloth gibt es gut aufbereitete kostenlose Colab-Anleitungen