2 Punkte von GN⁺ 3 시간 전 | 2 Kommentare | Auf WhatsApp teilen
  • KI ist eine zivilisatorische Infrastruktur für Arbeit, Bildung, Wissenschaft, Software, Kreativität, öffentliche Dienste und nationale Leistungsfähigkeit, und der Zugang dazu darf nicht von den Bedingungen und Preisen weniger Unternehmen abhängen
  • Die Fähigkeit, intelligente Systeme ohne Genehmigung zu erforschen, zu entwickeln, zu reparieren, zu verbreiten, zu auditieren, anzupassen, zu trainieren, zu bewahren und auszuführen, ist direkt mit der Freiheit des Betriebs verbunden
  • Open-Source-KI muss ihre Nutzbarkeit bewahren, selbst wenn heutige dominante Labore, ausländische Forschungseinrichtungen, Hardware-Anbieter, Cloud-Plattformen oder Anbieter offener Gewichtsmodelle ihren Kurs ändern oder verschwinden
  • Wenn eine kleine Zahl geschlossener Frontier-Labore und Plattformunternehmen die Modelle kontrolliert, besteht die Gefahr, dass die Intelligenzinfrastruktur zu einer Abo-Ökonomie der Kognition wird
  • Die USA dürfen bei der Freiheit, Intelligenzinfrastruktur auszuführen, zu prüfen, zu verändern, zu benchmarken, zu trainieren und zu bewahren, nicht zurückfallen, und eine pragmatische Haltung sollte eine Verbindung aus amerikanischer Leistungsfähigkeit und globalen offenen Standards sein

Open-Source-KI muss gewinnen

  • Wenn Intelligenz zu etwas wird, das nur von wenigen geschlossenen Institutionen geliehen werden kann, verliert die Öffentlichkeit nicht nur die Softwarefreiheit, sondern auch die Freiheit des Betriebs
  • Intelligente Systeme müssen ohne Genehmigung erforscht, entwickelt, repariert, verbreitet, auditiert, angepasst, trainiert, bewahrt und ausgeführt werden können, und diese Fähigkeit ist existenziell wichtig
  • KI wird als zivilisatorische Infrastruktur betrachtet, die Arbeit, Bildung, Wissenschaft, Software, Kreativität, öffentliche Dienste und nationale Leistungsfähigkeit trägt
  • Der Zugang zu KI darf nicht von geschlossenen APIs, Remote-Plattformen, sich ändernden Nutzungsbedingungen, intransparenter Anpassung, Modellverfügbarkeit oder von den Preisen abhängen, die wenige Unternehmen festlegen

Bedingungen, die Open-Source-KI erfüllen muss

  • Open-Source-KI muss nutzbar, verständlich und reproduzierbar sein
  • Open-Source-KI muss lokal bereitstellbar sein, wirtschaftlich tragfähig bleiben und eine Community-Governance ermöglichen
  • Selbst wenn heutige dominante Labore, ausländische Forschungseinrichtungen, Hardware-Anbieter, Cloud-Plattformen oder Anbieter offener Gewichtsmodelle ihren Kurs ändern oder verschwinden, muss Open-Source-KI weiter funktionieren
  • Wenn eine kleine Zahl geschlossener Frontier-Labore und Plattformunternehmen die Modelle kontrolliert, besteht die Gefahr, dass die Intelligenzinfrastruktur zu einer Abo-Ökonomie der Kognition wird
  • Die USA dürfen bei der Freiheit, Intelligenzinfrastruktur auszuführen, zu prüfen, zu verändern, zu benchmarken, zu trainieren und zu bewahren, nicht zurückfallen
  • Eine pragmatische Haltung sollte amerikanische Leistungsfähigkeit und globale offene Standards zusammenführen

2 Kommentare

 
GN⁺ 3 시간 전
Lobste.rs-Meinungen
  • Open-Source-„AI“ existiert nicht. Lokal ausführbare LLMs sind nur undurchsichtige Klumpen, die uns großzügig von Großkonzernen überlassen werden, die für jede Version Hunderte Millionen Dollar fürs Training ausgeben und die Eingabedaten vollständig kontrollieren
    Einzelpersonen, die nicht unabhängig wohlhabend sind, können weder vollständig prüfen, wie ein Modell erstellt wurde, noch das ursprüngliche Trainingsdataset überarbeiten oder es jederzeit von Grund auf neu erstellen
    Auf dem eigenen Rechner zwangsläufig ein vorkompiliertes kostenloses LLM auszuführen, ist eine anerzogene Abhängigkeit von zentralisierter Infrastruktur und kommt unter den heutigen realen Bedingungen eher einer Unterstützung von Technologie gleich, die Einzelpersonen strukturell nicht kontrollieren können. Dann lieber gleich ein Manifest dafür schreiben, dass Kalte Fusion gewinnen muss

    • Im Großen und Ganzen stimmt das, aber tatsächlich gibt es auch Modelle, die mit öffentlichen Geldern gefördert wurden und bei denen Gewichte, Trainingsdaten und Methodik offengelegt sind
      Solche Modelle liegen beim technischen Leistungsstand natürlich meist nicht auf dem Niveau der Frontier-Modelle, und oft ist das auch gar nicht ihr Ziel. Die EU hat zum Beispiel die Entwicklung von Modellen gefördert, die in der EU gesprochene Sprachen besser repräsentieren, etwa für Übersetzungszwecke
      Und ich finde nicht, dass Open-Source-Modelle per Definition zwingend lokal ausführbar sein müssen. Wenn ein Modell wirklich offen ist, sinkt das Risiko erheblich, weil die Grundlage für seine Weiterentwicklung nicht im Unternehmen eingeschlossen bleibt, selbst wenn die Firma dahinter pleitegeht. Open-Source-Software bedeutet nicht zwingend „ich kann das billig auf meiner lokalen Maschine machen“
    • Auch bei lokal ausführbaren LLMs gibt es ein Spektrum an Offenheit. Manche sind undurchsichtige Klumpen mit kaum Informationen zu Trainingsdaten und Methodik, andere veröffentlichen Trainingsdatensätze und Quellcode
      Zu den jüngeren vergleichsweise offenen LLMs gehören NVIDIA-Nemotron-3-Nano-30B-A3B (Open-Source-Code, der Großteil des Trainingsdatensatzes verfügbar) und Olmo-3.1-32B-Think (Open-Source-Code, alle Trainingsdaten auf Hugging Face veröffentlicht)
      Theoretisch kann also jeder ein ähnliches Modell reproduzieren, entscheiden, welche Daten fürs Training verwendet werden, oder das Trainingsrezept anpassen. Es stimmt aber, dass Vortraining für nicht wohlhabende Einzelpersonen weiterhin außer Reichweite ist
    • Vollständig Open-Source-Modelle gibt es eindeutig. Es sind keine Frontier-Modelle, aber sie existieren wirklich
      OLMo wird ausdrücklich als Modell genannt, das den Verifizierungsschritt der OSI bestanden hat, und auch bei Pythia hat die OSI bestätigt, dass es die Anforderungen an ein Open-Source-AI-System erfüllt. Lucie-7B ist eines der frühen mehrsprachigen LLMs, die der OSI-AI-Definition folgen, und die Entwickler erklären ausdrücklich, dass Trainingsdatensätze, Code zur Datenaufbereitung und Modellgewichte alle unter offenen Lizenzen bereitgestellt werden
    • An der Aussage „man kann nicht vollständig prüfen, wie es erstellt wurde, das ursprüngliche Trainingsdataset überarbeiten und es beliebig von Grund auf neu erstellen“ ist der richtige Teil, dass nicht alle als „offen“ vermarkteten Modelle bei Daten, Trainingsverfahren usw. wirklich transparent und offen sind. Das Optimum wäre Reproduzierbarkeit
      Es stimmt auch, dass Training von Grund auf viel Geld kostet. Aber würde man dann die Nutzung des Linux-Kernels ebenfalls als „anerzogene Abhängigkeit“ bezeichnen? Denn dieselben Vorbehalte gelten dort auch
  • „AI ist keine zivilisatorische Infrastruktur für Arbeit, Bildung, Wissenschaft, Software, Kreativität, öffentliche Dienste und staatliche Handlungsfähigkeit.“ Die Leute, die sie kontrollieren, wollen sie dazu machen und drücken das verzweifelt durch, aber in Wirklichkeit ist sie das nicht

  • Man muss sein Denken einfach nicht an ressourcenfressende, urheberrechtsverletzende und halluzinierende Maschinen auslagern 😘
    Natürlich würde es eines der großen Probleme heutiger AI lösen, diese Macht nicht in den Händen einiger weniger Großkonzerne zu konzentrieren, aber die anderen Probleme löst das überhaupt nicht

    • „Ressourcenfressend“ ist korrekt, wenn es um das Training von Frontier-Modellen geht oder darum, dass Hunderte Millionen Menschen Frontier-Modelle nutzen. Wenn man das aber über lokale AI sagt, hat man entweder falsch gerechnet oder vertritt eine ziemlich extreme umweltpolitische Position
      Der kleinste lokal tatsächlich nützliche Coding-Agent ist Qwen3.6 27B, und auf einer leistungsgedrosselten NVIDIA-Karte läuft er problemlos mit ungefähr 280–300 W im sporadischen Einsatz. Der Stromverbrauch für einen Tag Coding dürfte unter dem liegen, was eine Desktop-Gaming-Maschine verbraucht, wenn man ein paar Stunden Subnautica 2 spielt. Das liegt auch daran, dass man bei kleinen Modellen nicht allzu viel Denken auslagern kann, sodass die AI mehr pausiert und der Mensch mehr selbst denkt
      Die Trainingskosten sind höher, aber wenn man nur ein paar Modelle der Größenordnung 27B pro Jahr trainieren will, geht das im Maßstab der gesamten Industriegesellschaft im Rauschen unter. Ich habe das früher mal überschlagen, und es kam ungefähr heraus, dass eine zusätzliche geothermisch betriebene Aluminiumschmelze in Island ausreichen würde, um mehrere 27B-Modelle zu trainieren. Nicht gratis, aber fast ein Rundungsfehler
      Der Stromverbrauch bei der Inferenz liegt unter dem von drei Glühbirnen, und das auch nur dann, wenn das Modell tatsächlich generiert. Der Stromverbrauch fürs Training entspricht dem einer großen Industrieanlage, könnte aber fast vollständig aus erneuerbarer Energie gedeckt werden. Das ist das Gute an Island
      „Urheberrechtsverletzend“ scheint nach der aktuellen US-Rechtsprechung nicht zuzutreffen, und man sollte vorsichtig damit sein, Urheberrechte noch weiter auszuweiten. Ich bin seit den 90ern gegen eine Ausweitung des Urheberrechts, deshalb gefällt mir die Art, wie LLMs trainiert werden, zwar nicht, aber diese Frage scheint den Bereich des Urheberrechts verlassen zu haben und eher in Politik und Gesetzgebung zu fallen. Eine Ausnahme ist allerdings Anthropic, wenn dort Bücher einfach illegal kopiert wurden
      Aber das Auslagern des Denkens entwickelt sich sehr schnell zu einem Desaster. Viele Menschen versuchen, sich selbst zu Fleischpuppen eines Maschinen-Gottes zu machen, und das ist beängstigend
    • Urheberrechtsverletzungen werden oft als Grund genannt, warum LLMs und AI-Unternehmen schlecht sind, aber ich halte es für eine Ablenkung, sich auf genau diesen Punkt zu konzentrieren
      Es ist so, als würde man sagen, Mord sei schlecht, „weil er illegal ist“. Mord ist natürlich schlecht, aber nicht wegen seiner Illegalität. Gesetze können geändert werden. Wenn man die Debatte darauf aufbaut, dass AI wegen Urheberrecht schlecht sei, und das Parlament legalisiert es dann, würden plötzlich alle AI akzeptabel finden? Es gab andere Gegenargumente, die dem eigentlichen Kern der Sorge näherkommen, und es wäre vielleicht produktiver gewesen, sich um diese zu sammeln
      Alexandra Elbakyan ist ebenfalls eine Urheberrechtsverletzerin. Aber sie ist erwachsen, und jede Universität sollte eine Statue von ihr haben
  • Eine wirklich offene und faire Zukunft für Machine Learning und große Sprachmodelle ist ohne Betrachtung der gesamten Lieferkette nicht möglich. https://time.com/6247678/openai-chatgpt-kenya-workers/ ist lesenswert

  • Wir werden bald den Datenhöhepunkt erreichen, und die weitere Entwicklung wird danach wohl größtenteils daraus kommen, aktuelle LLMs agentisch zu bündeln
    Das letzte öffentlich veröffentlichte Open-Source-Modell dürfte in den kommenden Jahren wahrscheinlich als Grundlage für sich ständig verändernde Open-Source-Agenten oder andere Aufbauten darüber dienen

  • Genauer gesagt sollte die Öffentlichkeit die massiven öffentlichen Mittel erkennen, die Big Tech in den letzten 20 Jahren und besonders in jüngster Zeit erhalten hat, und Rechte an der mit Steuergeld bezahlten Infrastruktur einfordern
    Diese Unternehmen hätten ohne gewaltige öffentliche Finanzierung gar nicht existieren können und könnten es auch heute nicht. Zudem stammen die Trainingsdaten zu einem erheblichen Teil direkt aus öffentlichen Gemeingütern
    Diese Modelle sind nicht das Produkt privater Anstrengung, sondern das Endergebnis einer gewaltigen kollektiven Leistung und sollten rechtlich als öffentliches Gemeingut anerkannt werden

  • Ob wichtig oder nicht, ob Blase oder nicht, ob halluzinierender Token-Prädiktor oder nicht: Es ist sehr wichtig, dass alle Staaten einen rechtlichen Rahmen haben, um „Frontier labs“ dazu zu zwingen, alle Modelle außer den neuesten als Open Source zu veröffentlichen
    Die Offenlegung sollte Gewichte, Trainingsdaten und Methodik umfassen, oder alternativ sollte für jedes Modell vorgeschrieben werden, dass es nach 10–15 Jahren Open Source wird. Für den Fortschritt des menschlichen Wissens und um eine Trennung zwischen „denen, die haben“ und „denen, die nicht haben“ zu verhindern, sollte jedes Modell nach einer gewissen Zeit offengelegt werden
    Man kann glauben, dass AGI nicht nah ist, aber die Absicht dieser Frontier-Labore ist, AGI zuerst zu erreichen und dann allein hinter einer Bezahlschranke zu halten. Ob wahrscheinlich oder nicht: Im Interesse der gesamten Menschheit muss das verhindert werden

 
GN⁺ 3 시간 전
Hacker-News-Kommentare
  • Wir denken schon seit einiger Zeit darüber nach, ein verteiltes Modelltrainingssystem mit Maschinen aufzubauen, zu denen wir quasi ehrenamtlich beitragen, aber realistisch gesehen ist der Schwierigkeitsgrad astronomisch hoch.
    Die Kommunikationsgeschwindigkeit ist nicht tragbar, und auch Datenvergiftung von nicht vertrauenswürdigen Knoten ist ein Problem.
    Letzteres ließe sich mit einem selbstheilenden Checkpoint-Rollback-System wohl weitgehend lösen, bei dem nicht alle Ergebnisse hinter den vergifteten Daten verworfen werden müssen, aber das ist kein kleines Projekt, das eine Einzelperson nur mit einer Idee umsetzen kann.
    Wenn nun die gesamte Frontier-Forschung daran gehindert würde, weitere Fortschritte zu machen, könnte diese Richtung interessant werden.
    Die Summe aller GPUs auf der Erde würde ihre Kapazitäten übertreffen, aber es braucht eine Möglichkeit, sie effizient verteilt zu nutzen.
    Auch wenn man Fable nicht so schnell trainieren könnte wie sie, ist es besser, irgendwann Zugang zu haben, als niemals Zugang zu bekommen.

    • Wie ich schon in einer anderen Antwort geschrieben habe: Selbst wenn es eine gute Idee ist, lässt sie sich in der Praxis nur schwer umsetzen.
      AI-spezialisierte Hardware ist nicht nur viel schneller als Consumer-GPUs, sondern auch deutlich energieeffizienter und wesentlich besser vernetzt, und jede dieser drei Achsen bringt die Idee zu Fall.
      Der Unterschied bei der Energieeffizienz ist so groß, dass selbst dann, wenn man alle öffentlich verfügbaren GPUs oder ähnliche Geräte auf der Erde zusammenzieht, die Stromkosten zu hoch wären und es unter dem Strich sogar günstiger sein könnte, mit dem Geld stattdessen ein eigenes Rechenzentrum zu bauen.
      Selbst wenn Strom kostenlos wäre, würde die Zusammenschaltung weltweit verteilter GPUs über Internet-Latenzen das Ganze um Tausende bis Millionen Male verlangsamen, und ob es überhaupt machbar wäre, ist unklar.
      Jedenfalls werden wir fable-oss in diesem Jahrzehnt kaum bekommen, und vielleicht sogar in diesem Jahrhundert nicht.
      Besser wäre es, wenn Regierungen, notfalls in Form eines Bündnisses, Rechenzentren direkt kaufen und besitzen und sie im öffentlichen Interesse betreiben würden; meiner Meinung nach sollten sie das tatsächlich tun.
    • Wenn Menschen an verteiltes Training denken, stellen sie sich meist nicht zuerst riesige Rechenzentren im Besitz derselben Firma vor, die ein Modell über große Distanzen trainieren.
      Stattdessen stellen sie sich Tausende kleiner Rechenzentren oder Privatnutzer vor, die über das Internet freie Rechenleistung bündeln und ein Trainings-Run koordinieren, der größer ist als das, was ein einzelner Akteur leisten könnte.
      Firmen wie Pluralis Research, Prime Intellect und Nous Research verfolgen diese Vision und haben bereits erfolgreich verteiltes Training in relevantem Maßstab durchgeführt, aber internetbasiertes verteiltes Training liegt in der Praxis weit hinter zentralisiertem Training zurück.
      Selbst die größten Modelle, also Pluralis’ 8B Protocol Model, Prime Intellects INTELLECT-1 und Nous’ Consilience 40B, wurden mit 1.000-mal weniger Rechenleistung trainiert als aktuelle Frontier-Modelle wie xAIs Grok 4.
      https://epoch.ai/gradient-updates/how-far-can-decentralized-...
    • Es stimmt nicht, dass die Summe aller GPUs auf der Erde ihre Fähigkeiten übertrifft.
      Das unterschätzt, wie viel Silizium genau an diese Unternehmen gegangen ist und wie viel leistungsfähiger dieses Silizium im Vergleich zu Consumer-Hardware ist.
    • Vor ein paar Jahren gab es mit Petals ein Projekt, das per P2P einen Teil dieses Ziels erreichen wollte: https://github.com/bigscience-workshop/petals
      Auch das BLOOM-Modell war das Ergebnis kollaborativer Entwicklung: https://huggingface.co/docs/transformers/en/model_doc/bloom
    • Mit geeigneten Verfahren lässt sich Gradienteninformation um das 10.000-Fache komprimieren, daher halte ich es für möglich.
      Nous behauptet, das bereits geschafft zu haben: https://github.com/NousResearch/DisTrO
      Auch früher gab es Arbeiten zur Gradientenkompression, die hohe Kompressionsraten berichtet haben.
  • Dafür braucht es auch verteilte LLM-Inferenz.
    Wir sind jetzt an einem Punkt angekommen, an dem es für eine einzelne Person zu teuer ist, Hardware zum Ausführen aktueller Modelle zusammenzustellen.
    Deshalb müssen wir Frameworks schaffen und verbreiten, mit denen Einzelpersonen Ressourcen teilen und aktuelle Modelle verteilt ausführen können.
    Dann wird es für Regierungen auch schwerer, das zu zensieren.
    Die einzige Möglichkeit, zu verhindern, dass ein einzelner Akteur dies zur Waffe macht, besteht darin, allen Zugang zu geben.

    • Ich frage mich, ob es einen Weg gibt, bei dem sich kleine lokale LLMs gegenseitig ergänzen und zusammen ein LLM mit deutlich besserer Gesamtleistung bilden.
    • Ich habe Teale.com gebaut und als Open Source veröffentlicht.
      Es unterstützt vollständig verteilte Inferenz auf Mac, Windows, Linux, Android, iOS und sogar HarmonyOS.
      Open-Source-/Open-Weights-Modelle werden sich weiter verbessern, und irgendwann werden Modelle auf mythos-Niveau sogar auf Smartphone- oder Brillen-Hardware laufen.
      Im Moment ist es allerdings extrem mühsam, Angebot und Nachfrage aufeinander abzustimmen.
      Zum Beispiel bedeutet ein MacBook mit 16 GB RAM als physische Hardware nicht, dass tatsächlich die vollen 16 GB nutzbar sind, und außerdem müssen Modell und Einstellungen (kvcache, context limit, temperature usw.) an die Nachfrage angepasst werden.
      Wir brauchen AI-Inferenz von Menschen für Menschen, Hilfe ist also willkommen.
    • Wenn das Modell verteilt ist, wirkt verteilte LLM-Inferenz angesichts der Datenübertragung zwischen den Modellschichten sehr ineffizient.
      Ein Projekt namens Petals behauptete zwar bei einem 180B-Modell bis zu 4 tok/s, aber das Repository wurde seit 2 Jahren nicht aktualisiert.
      https://petals.dev/
    • Zwischen der Behauptung, die einzige Möglichkeit zu verhindern, dass ein einzelner Akteur dies zur Waffe macht, bestehe darin, allen Zugang zu geben, gibt es einen Mittelweg.
      Im politischen Handlungsraum gibt es auch Ansätze, bei denen der Staat sowohl den Zugang als auch Monopole reguliert.
      Ich bin gegen die Monopolisierung dieser Technologie, aber die Risiken, allen ein jailbroken AGI/ASI zu geben, sollten offensichtlich sein.
      Als spielerisches Beispiel könnte man sich eine universelle Basis-AI vorstellen, bei der der Staat mehrere Forschungslabore (n_quorum) beauftragt und allen ein Token-Budget gibt.
      Der Betrieb einer API müsste allerdings mit Sicherheitskontrollen einhergehen.
      Wenn jeder sein eigenes jailbroken AGI ausführen könnte, wären stabile gesellschaftliche Normen wohl nur durch Massenüberwachung möglich, die beobachtet, wer CBRNE-Bedrohungen erzeugen könnte.
      Aus Sicht der Bürgerrechte wirkt das nicht wie ein klarer Sieg, aber ich verstehe, dass man diese Argumentation vertreten kann.
  • Bei mir zu Hause und in meinem Geschäft hat es von Anfang an gewonnen
    Genauer gesagt waren es offene Gewichte, und diese feine Unterscheidung fühlt sich unangenehm an
    Ich habe nie verstanden, warum man die Funktionsweise oder Entwicklung eines Produkts vollständig von dem geheimen Quellcode eines von zwei großen Startups abhängig machen sollte, deren Rentabilität unklar ist und in die man keinen Einblick hat
    Das widerspricht auch soliden Engineering-Prinzipien
    Deshalb hatte ich nie vor, das so zu machen, und der Grund, warum ich mich jetzt überhaupt mit AI beschäftige, ist, dass ich dank offener Gewichte entschieden habe, dass es sich lohnt, dafür Zeit aufzuwenden
    Unternehmen sind ohnehin oft schon den Richtlinien einer einzigen Zahlungsplattform und zweier US-Kreditkartenanbieter unterworfen, und das allein ist schon schlimm genug
    Vielleicht liegt es an meiner Freelancer-Mentalität, aber ich werde immer unruhig, wenn von mir verlangt wird, zu viel Energie darauf zu verwenden, nicht Basistechnologie, sondern das Produkt eines anderen zu studieren und zu erlernen
    Ich erinnere mich auch noch an die Zeit, als Microsoft Fachbereiche mit dem Versprechen von Zugang zum NT-Quellcode umwarb
    Ich erinnere mich auch daran, wie eine hochrangige Person bei uns sagte, Linux sei nur ein Nebenzweig und Zugang zu NT würde uns erst wirklich bedeutsam machen
    Ich erinnere mich selbst und mein Umfeld immer wieder daran, dass man mehr Kontrolle über das eigene Schicksal braucht und dass bleeding edge vor state of the art liegt
    Fortschritt entsteht an der bleeding edge, aber dort gibt es auch das Risiko von Schäden
    Engineering sollte sich nicht darauf konzentrieren, auf dem Fortschritt anderer mitzufahren, sondern darauf, auf bewährter aktueller Technologie aufzubauen

    • In diesem Zusammenhang hat das Wort Open Source eine unangenehme Nuance
      Werkzeuge wie llama.cpp sind offen, aber ohne Gewichte nutzlos
      Die Gewichte sind extrem teures Kapital, das von großen Organisationen gespendet wird, die miteinander im Krieg liegen
      Ich weiß zum Beispiel nicht, ob archive.org wirklich offene Gewichte erstellen könnte, und außer archive.org kann ich mir kaum vorstellen, dass andere Open-Source-Organisationen wie FreeBSD oder Apache in der Lage wären, wirklich offene Gewichte zu schaffen
      Wenn überhaupt, dann vielleicht Regierungen, Behörden oder Universitäten
      Aber im Moment haben solche Institutionen weder genug Geld noch Macht, Willen oder Interesse, um Geld in die Infrastruktur zum Erstellen von Gewichten zu stecken
    • Ich habe interessanterweise einen anderen Ansatz gewählt
      AI ergänzt die Art, wie wir unser Geschäft entwickeln, und die Engineers bevorzugen es deutlich, Opus 4.8 statt des besten Open-Source-Modells zu verwenden
      Ich glaube, dass Open Source wichtig ist, aber in meinem Geschäft werde ich einfach die besten verfügbaren Werkzeuge verwenden
  • Wenn Open Source einfach freie Software bedeutet, dann heißt das im Grunde nur, dass man eine kostenlose Kopie will
    Worüber wir eigentlich sprechen sollten, ist, dass ein offenes, von der Community betriebenes Projekt das Pretraining und Training gemeinsam durchführt
    Das bedeutet, dass Trainingskorpora öffentlich behandelt und Trainingsarbeit irgendwie koordiniert werden
    Das verändert die Bedeutung des Begriffs vollständig und ähnelt dem Vermischen von Piraterie und Diebstahl
    Es sind unterschiedliche Dinge, also sollte man unterschiedliche Wörter verwenden
    Freie Gewichte, Inferenz-Code und Chat-Templates sind etwas ganz anderes als ein community-betriebenes LLM-Projekt

    • EleutherAI könnte so etwas nahekommen
  • Wer soll das finanzieren?
    Die Trainingskosten sind kaum vorstellbar hoch
    Entweder gibt es das VC-Finanzierungsmodell, das auf Rendite aus ist, oder das Finanzierungsmodell der KPCh, das ein autoritäres chinesisches Gesellschaftsmodell verfestigen will
    Es mag so etwas wie ein 4B-Modell an Universitäten geben, aber weit wird das wohl nicht kommen

    • Ich verstehe diese Sorge, aber es gibt auch heute noch ähnlich große und komplexe Dinge, die Open Source bleiben
      Ich bin jeden Tag erstaunt darüber, dass mein Linux-Rechner nahezu dieselbe Erfahrung bietet wie die Betriebssysteme zweier Billionen-Dollar-Unternehmen
      Er kann sogar Dinge, die diese kommerziellen Alternativen nicht können
      Wenn DeepSeek tatsächlich mit einem Zehntel der Kosten westlicher Konkurrenten und nur einem Bruchteil der Mitarbeiter ein Modell liefern kann, könnte das bedeuten, dass es in diesem Bereich einen Markt für jemanden gibt, der Alternativen anbietet
      Ich denke darüber nach, warum Unternehmen wie IBM bereitwillig zu Linux beitragen und diese Beiträge kostenlos veröffentlichen
      Weil sie Teil einer Gruppe von Unternehmenssponsoren sind, die eine Alternative zu den dominanteren kommerziellen Akteuren im Markt brauchen
      Ähnlich ist es bei Meta, das React praktisch kostenlos veröffentlicht
      Für Meta ist es vorteilhafter, wenn es zum Standard wird und man Leute einstellen kann, die es bereits kennen
      Bei AI-Modellen ist derselbe Ökosystemvorteil schwerer vorstellbar, aber vielleicht existiert er irgendwo
      Ich kann mir vorstellen, dass Datacenter-/VPS-Anbieter so etwas fördern, um die Verhandlungsmacht großer AI-Unternehmen zu verringern
      Natürlich kann dieser Optimismus auch nur Wunschdenken sein
    • Wir brauchen wirklich einen rechtlichen Präzedenzfall dafür, dass Model Distillation eine legale Tätigkeit ist
      Wenn Modellersteller die Arbeit anderer absaugen, sie zum Training verwenden und Informationen als ihre eigenen reinwaschen dürfen, ohne den ursprünglichen Urhebern etwas zurückzugeben, verstehe ich nicht, warum das Destillieren von Modellen illegal sein sollte
      Es ist dasselbe, was die Frontier-Model-Hersteller im weiteren Sinn mit dem geistigen Eigentum anderer tun
    • Hast du dir schon einmal inflationsbereinigt angeschaut, was Computer in den 1960er Jahren gekostet haben?
      Training ist in einem heute schwer vorstellbaren Maß teuer
      Was wäre, wenn mehrere Universitäten Geld zusammenlegen würden?
      Was wäre, wenn mehrere Staaten Geld zusammenlegen würden?
      Irgendwann wird es Durchbrüche und Optimierungen geben
      Die Leute zweifelten auch daran, ob ein Open-Source-Betriebssystem machbar sei, aber Linux ist seit Jahrzehnten eine reale Option auf dem Desktop und von Servern und Smartphone-Betriebssystemen ganz zu schweigen ohnehin weit verbreitet
    • Es ist nicht nur teuer, sondern auch verschwenderisch
      Es hat keinen Wert, veraltete Modelle zu verwenden
      Das Open-Source-AI-Manifest fordert zwar, dass „Open-Source-AI auch wirtschaftlich nachhaltig sein muss“, aber das kommt eher Wunschdenken gleich
    • Ein möglicher Ansatz wäre, dass Labore, die geschlossene Modelle veröffentlichen, auch Open-Source-Modelle mitveröffentlichen müssen
      gpt-oss ist inzwischen veraltet, war aber in dem Moment, als es erschien, ordentlich
      Nemotron ist ebenfalls solide, und insbesondere das jüngste Ultra-Release ist gut
      Nvidia hat insgesamt die deutlich bessere Geschichte zu erzählen, insbesondere im Vergleich zu chinesischen Modellen, weil dort nicht nur das Modell selbst, sondern auch die Vor- und Nachtrainingsdaten offengelegt werden
  • Statt Open-Source-Modelle als Nebenprodukt von Unternehmen zu bekommen, wäre ich sehr wohl bereit, 50 Dollar im Monat zur Unterstützung eines Open-Source-AI-Labors zu zahlen

    • AI-Labore geben Hunderte Milliarden Dollar aus, also bräuchte man sehr viele Abonnenten, um konkurrenzfähig zu sein
    • Ich finde, OpenAI hat Vertrauen zerstört
      Woher weiß man, dass sich so ein Open-Source-AI-Labor nicht irgendwann doch in ein gewinnorientiertes Unternehmen ausgliedert?
    • Soweit ich weiß, hat DeepSeek keine geschlossenen Modelle und veröffentlicht mehr Code/Daten/Papers als die meisten anderen
      Vielleicht sollte ich anfangen, ihre API zu nutzen
      Es ist auch kein Nebenprodukt eines Unternehmens
  • Es könnte sein, dass es bei Open-Weight-KI keinen starken Anreiz gibt, viel Kapital in Training und Forschung zu stecken.
    Es könnten zwar Dinge wie Spendenfonds entstehen, aber sie würden natürlich nicht an das Finanzierungsniveau heranreichen, das Frontier-Labore erhalten.
    Deshalb halte ich es für möglich, dass KI nicht ausschließlich mit Open Weights existieren kann.
    Große Akteure wie OpenAI, Anthropic und Google werden weiter bestehen und wahrscheinlich bessere Modelle haben als Open-Source-Versionen.
    Das könnte wie die Beziehung zwischen Photoshop und GIMP aussehen.
    Photoshop wäre dann das Frontier-Labor und GIMP das Open-Weight-Modell.
    GIMP ist für viele Bildbearbeitungs-Workflows völlig brauchbar, aber Photoshop ist einfach besser.
    Es wäre natürlich großartig, wenn es Open-Weight-Modelle gäbe, die besser sind als die der Frontier-Labore, aber ich halte das nicht für realistisch.

    • Ich sehe das ähnlich, aber selbst wenn es keine Open-Source-Modelle sind, halte ich lokale KI letztlich für unvermeidlich.
      Auch OpenAI und andere könnten On-Premises-Produkte herausbringen.
      Ob das nun Appliance-Racks oder etwas anderes sind: Große Unternehmen werden Inferenz lokal ausführen wollen, um Datensouveränität und Kostenkontrolle zu sichern.
      Das gilt umso mehr, wenn KI in die Fertigungsindustrie oder andere physisch getrennte Netzwerke integriert werden soll.
    • Der Vergleich mit Photoshop und GIMP ist ziemlich gut.
      Im Moment befinden wir uns in einer Art Hyperwachstumsphase, aber sofern sich die Technologie hinter KI nicht wirklich weiterentwickelt, wird es immer schwieriger werden, noch bessere Modelle zu bauen, und es werden sinkende Grenzerträge einsetzen.
      Wenn das GIMP der LLMs 80 % der Leistung eines VC-finanzierten Modells erreicht, ist das für viele Menschen völlig ausreichend nützlich.
      Selbst wenn es stimmt, dass es nicht so gut ist wie ein proprietäres Modell, ist allein die Wahlmöglichkeit, ein Open-Source-Modell zu verwenden, schon ein Sieg.
    • Wenn man einen Schritt zurücktritt, ist es nur eine Frage der Zeit.
      Sobald sich zeigt, dass man Verbraucherinnen und Verbrauchern keine Billionen Dollar abnehmen kann, werden Bewertungen in Billionenhöhe als bedeutungslos gelten.
      In der Zwischenzeit, und ohnehin, werden mit fortlaufender Software-Optimierung und Hardware-Skalierung schon bald Open Weights mit Fähigkeiten, die Fable übertreffen, auf mobilen Geräten laufen.
    • Vielleicht wäre es möglich, wenn es eine Möglichkeit gäbe, Rechenleistung für das Training zu spenden, ähnlich wie bei folding@home.
      Ich weiß allerdings nicht, wie das praktisch funktionieren würde.
    • Es gibt einen noch grundsätzlicheren Grund, warum KI kaum nur mit Open Weights existieren kann.
      Manche KI-Modelle sind so groß, dass sie nur in hochmodernen Hyperscale-Rechenzentren sinnvoll betrieben werden können.
      Solche Modelle als Open Source zu veröffentlichen ist meist bedeutungslos.
      Das liegt weit über der Größenordnung selbst der heute größten öffentlich verfügbaren Modelle und schließt sogar langsame Inferenz auf kleinen, billigen Ad-hoc-Clustern aus.
      Fable könnte diesen Punkt bereits erreicht haben.
  • Ich stimme der Haltung und Mission zu, aber dieses Ziel lässt sich inzwischen nicht mehr von Politik trennen.
    Open Source(tm) verhindert nicht, dass Regierungen oder andere Akteure Kontrolle über Silizium oder über das ausüben, was dieses Silizium leisten kann, und genau das passiert bereits weltweit.
    Selbst wenn ein Modell Open Source ist, löst das weder Regulierung noch ökonomische Anreize.
    Das ist kein Problem, das sich in ein paar Absätzen zusammenfassen lässt.
    KI ist zivilisatorische Infrastruktur, und dafür braucht es nicht nur Quellcode, sondern zivilisatorische Lösungen.

    • Monopolkapitalismus und Finanzkapitalismus beherrschen den Markt seit weit über 100 Jahren, und der Staat dient diesen gewaltigen Interessen.
      Alle wissen, dass KI-Unternehmen für das Training Dinge ohne Erlaubnis übernommen haben, und trotzdem wird nichts passieren.
      Das ist ein offenkundiges Beispiel für die klassenabhängige Anwendung von Gesetzen.
      Der Grund dafür, dass sie ihre eigenen Gesetze nach Belieben anwenden, wird immer nationale Sicherheit sein.
      Weil sie die Infrastruktur besitzen, werden ihre Interessen mit nationaler Sicherheit gleichgesetzt.
      Jedes Mal, wenn Technologie einen großen Sprung macht, kann das zwar das Spielfeld erschüttern, aber der Finanzkapitalismus passt sich schnell an und absorbiert diese Welle.
  • Falls der Text es nicht behandelt hat, ist die Unterscheidung zwischen Open Source und Open Weights wichtig.
    Open-Weight-Modelle sind fast wie eine Einstiegsdroge, bei der die erste Dosis gratis ist.
    Zumindest ohne die ursprünglichen Trainingsdaten ist die Fähigkeit zu sinnvollen Upgrades zu stark begrenzt, sodass sie gegenüber kontinuierlich weiterentwickelten aktuellen Modellen schnell zurückfallen.
    Dann sehnt man sich nach der nächsten Freigabe oder kehrt zur API des Anbieters zurück.
    Schon allein den Wissens-Stichtag nach vorn zu verschieben verbessert die User Experience spürbar, ganz zu schweigen von Inferenz, quantisierungsbewusstem Training und den vielen weiteren Verbesserungen, die noch kommen werden.
    Man kann Forschung zur Verbesserung von Open-Weight-Modellen betreiben, aber das Ergebnis bleibt dasselbe.
    Wenn es nicht Open Source ist, ist der Nutzen für die Allgemeinheit deutlich geringer.

  • Open-Source-AI kann per Definition niemals gewinnen
    Heute kommt AI letztlich Hill-Climbing-Optimierung nahe, und geschlossene Labore können alles absorbieren, was die offene Welt tut, und darauf weiter aufbauen
    Für die meisten Anwendungsfälle ist das kein großes Problem, weil AI nach dem Prinzip der Fähigkeitssättigung funktioniert
    https://www.delanceyukschoolschesschallenge.com/the-rising-t...
    Ausnahmen gibt es nur in Bereichen, die von Natur aus gegen die Natur oder andere Menschen gerichtet sind, wo ein Vorsprung gegenüber der Konkurrenz wichtig ist

    • Wenn bei gewöhnlichen Aufgaben Fähigkeitssättigung erreicht ist, gewinnt Open Source, und genau das passiert bereits
      Der zweite große Sieg wird wahrscheinlich der Moment sein, in dem normale Menschen es auf ihrer eigenen Hardware ausführen können
    • Dasselbe hätte man auch über Linux sagen können
      Microsoft konnte beliebig viel von Linux lernen, aber Linux blieb trotz kommerzieller Konkurrenten nicht nur relevant, sondern ist inzwischen mit großem Abstand das am weitesten verbreitete Betriebssystem geworden, anders als etwa beim heutigen Marktanteil von Firefox
      Die Fähigkeit, aus offenen Systemen alle guten Ideen oder Daten zu absorbieren, scheint also nicht der einzige entscheidende Faktor zu sein
    • Auch geschlossene Labore müssen ihre Investitionen weiterhin rechtfertigen, und je näher sich die Modellfähigkeiten einer Stagnation nähern, desto schwieriger wird das
      Im Moment sind Fable und Mythos State of the Art, aber schon bald werden sie zu Commodities
      Auf jedes Unternehmen wie OpenAI/Anthropic, das mit den neuesten Modellen vorn bleiben will, kommen ungefähr hundert Unternehmen, die die dazugehörigen Komplemente zur Commodity machen wollen
    • AllegroLisp liegt weit hinter SBCL zurück
    • Open-Source-Modelle müssen nicht so gut sein wie Claude Mythos oder Claude Sonnet, um zu gewinnen
      Ein Sieg von Open Source bedeutet schon dann genug, wenn mindestens eine Alternative zu geschlossenen Modellen ungefähr so gut ist wie GPT-4
      Tatsächlich sind wir mit den Google-Gemma-Modellen diesem Punkt bereits ziemlich nahe
      Als Softwareingenieur spüre ich seit Sonnet keinen Produktivitätsunterschied mehr
      Natürlich ist Opus besser und Fable wird besser sein, aber aus Sicht des wirtschaftlichen Nutzens stoßen wir bereits auf abnehmende Erträge
      Als ich in Cursor von einem der frühen GPT-Modelle zu Claude Code und Sonnet gewechselt bin, bedeutete das für mich fast eine 5-fache Produktivitätssteigerung
      Vor Claude Code habe ich AI nur für kleine Codefragmente genutzt, aber mit Claude Code + Sonnet konnte ich ihr ganze Unteraufgaben übertragen
      Trotzdem vertraue ich Opus noch nicht genug, um ihm eine komplette Funktion von Anfang bis Ende zu überlassen
      Ich bin mir nicht sicher, ob das irgendwann so weit kommen wird, und vielleicht muss es das auch gar nicht
      Unternehmen verlangen von Softwareingenieuren ein gewisses recht hohes Talentniveau, aber oberhalb dieses Niveaus interessiert es sie eigentlich überhaupt nicht mehr
      Selbst wenn der Unterschied groß ist, bemerken sie ihn nicht einmal