Open-Source-KI muss gewinnen
(opensourceaimustwin.com)- KI ist eine zivilisatorische Infrastruktur für Arbeit, Bildung, Wissenschaft, Software, Kreativität, öffentliche Dienste und nationale Leistungsfähigkeit, und der Zugang dazu darf nicht von den Bedingungen und Preisen weniger Unternehmen abhängen
- Die Fähigkeit, intelligente Systeme ohne Genehmigung zu erforschen, zu entwickeln, zu reparieren, zu verbreiten, zu auditieren, anzupassen, zu trainieren, zu bewahren und auszuführen, ist direkt mit der Freiheit des Betriebs verbunden
- Open-Source-KI muss ihre Nutzbarkeit bewahren, selbst wenn heutige dominante Labore, ausländische Forschungseinrichtungen, Hardware-Anbieter, Cloud-Plattformen oder Anbieter offener Gewichtsmodelle ihren Kurs ändern oder verschwinden
- Wenn eine kleine Zahl geschlossener Frontier-Labore und Plattformunternehmen die Modelle kontrolliert, besteht die Gefahr, dass die Intelligenzinfrastruktur zu einer Abo-Ökonomie der Kognition wird
- Die USA dürfen bei der Freiheit, Intelligenzinfrastruktur auszuführen, zu prüfen, zu verändern, zu benchmarken, zu trainieren und zu bewahren, nicht zurückfallen, und eine pragmatische Haltung sollte eine Verbindung aus amerikanischer Leistungsfähigkeit und globalen offenen Standards sein
Open-Source-KI muss gewinnen
- Wenn Intelligenz zu etwas wird, das nur von wenigen geschlossenen Institutionen geliehen werden kann, verliert die Öffentlichkeit nicht nur die Softwarefreiheit, sondern auch die Freiheit des Betriebs
- Intelligente Systeme müssen ohne Genehmigung erforscht, entwickelt, repariert, verbreitet, auditiert, angepasst, trainiert, bewahrt und ausgeführt werden können, und diese Fähigkeit ist existenziell wichtig
- KI wird als zivilisatorische Infrastruktur betrachtet, die Arbeit, Bildung, Wissenschaft, Software, Kreativität, öffentliche Dienste und nationale Leistungsfähigkeit trägt
- Der Zugang zu KI darf nicht von geschlossenen APIs, Remote-Plattformen, sich ändernden Nutzungsbedingungen, intransparenter Anpassung, Modellverfügbarkeit oder von den Preisen abhängen, die wenige Unternehmen festlegen
Bedingungen, die Open-Source-KI erfüllen muss
- Open-Source-KI muss nutzbar, verständlich und reproduzierbar sein
- Open-Source-KI muss lokal bereitstellbar sein, wirtschaftlich tragfähig bleiben und eine Community-Governance ermöglichen
- Selbst wenn heutige dominante Labore, ausländische Forschungseinrichtungen, Hardware-Anbieter, Cloud-Plattformen oder Anbieter offener Gewichtsmodelle ihren Kurs ändern oder verschwinden, muss Open-Source-KI weiter funktionieren
- Wenn eine kleine Zahl geschlossener Frontier-Labore und Plattformunternehmen die Modelle kontrolliert, besteht die Gefahr, dass die Intelligenzinfrastruktur zu einer Abo-Ökonomie der Kognition wird
- Die USA dürfen bei der Freiheit, Intelligenzinfrastruktur auszuführen, zu prüfen, zu verändern, zu benchmarken, zu trainieren und zu bewahren, nicht zurückfallen
- Eine pragmatische Haltung sollte amerikanische Leistungsfähigkeit und globale offene Standards zusammenführen
2 Kommentare
Lobste.rs-Meinungen
Open-Source-„AI“ existiert nicht. Lokal ausführbare LLMs sind nur undurchsichtige Klumpen, die uns großzügig von Großkonzernen überlassen werden, die für jede Version Hunderte Millionen Dollar fürs Training ausgeben und die Eingabedaten vollständig kontrollieren
Einzelpersonen, die nicht unabhängig wohlhabend sind, können weder vollständig prüfen, wie ein Modell erstellt wurde, noch das ursprüngliche Trainingsdataset überarbeiten oder es jederzeit von Grund auf neu erstellen
Auf dem eigenen Rechner zwangsläufig ein vorkompiliertes kostenloses LLM auszuführen, ist eine anerzogene Abhängigkeit von zentralisierter Infrastruktur und kommt unter den heutigen realen Bedingungen eher einer Unterstützung von Technologie gleich, die Einzelpersonen strukturell nicht kontrollieren können. Dann lieber gleich ein Manifest dafür schreiben, dass Kalte Fusion gewinnen muss
Solche Modelle liegen beim technischen Leistungsstand natürlich meist nicht auf dem Niveau der Frontier-Modelle, und oft ist das auch gar nicht ihr Ziel. Die EU hat zum Beispiel die Entwicklung von Modellen gefördert, die in der EU gesprochene Sprachen besser repräsentieren, etwa für Übersetzungszwecke
Und ich finde nicht, dass Open-Source-Modelle per Definition zwingend lokal ausführbar sein müssen. Wenn ein Modell wirklich offen ist, sinkt das Risiko erheblich, weil die Grundlage für seine Weiterentwicklung nicht im Unternehmen eingeschlossen bleibt, selbst wenn die Firma dahinter pleitegeht. Open-Source-Software bedeutet nicht zwingend „ich kann das billig auf meiner lokalen Maschine machen“
Zu den jüngeren vergleichsweise offenen LLMs gehören NVIDIA-Nemotron-3-Nano-30B-A3B (Open-Source-Code, der Großteil des Trainingsdatensatzes verfügbar) und Olmo-3.1-32B-Think (Open-Source-Code, alle Trainingsdaten auf Hugging Face veröffentlicht)
Theoretisch kann also jeder ein ähnliches Modell reproduzieren, entscheiden, welche Daten fürs Training verwendet werden, oder das Trainingsrezept anpassen. Es stimmt aber, dass Vortraining für nicht wohlhabende Einzelpersonen weiterhin außer Reichweite ist
OLMo wird ausdrücklich als Modell genannt, das den Verifizierungsschritt der OSI bestanden hat, und auch bei Pythia hat die OSI bestätigt, dass es die Anforderungen an ein Open-Source-AI-System erfüllt. Lucie-7B ist eines der frühen mehrsprachigen LLMs, die der OSI-AI-Definition folgen, und die Entwickler erklären ausdrücklich, dass Trainingsdatensätze, Code zur Datenaufbereitung und Modellgewichte alle unter offenen Lizenzen bereitgestellt werden
Es stimmt auch, dass Training von Grund auf viel Geld kostet. Aber würde man dann die Nutzung des Linux-Kernels ebenfalls als „anerzogene Abhängigkeit“ bezeichnen? Denn dieselben Vorbehalte gelten dort auch
„AI ist keine zivilisatorische Infrastruktur für Arbeit, Bildung, Wissenschaft, Software, Kreativität, öffentliche Dienste und staatliche Handlungsfähigkeit.“ Die Leute, die sie kontrollieren, wollen sie dazu machen und drücken das verzweifelt durch, aber in Wirklichkeit ist sie das nicht
Man muss sein Denken einfach nicht an ressourcenfressende, urheberrechtsverletzende und halluzinierende Maschinen auslagern 😘
Natürlich würde es eines der großen Probleme heutiger AI lösen, diese Macht nicht in den Händen einiger weniger Großkonzerne zu konzentrieren, aber die anderen Probleme löst das überhaupt nicht
Der kleinste lokal tatsächlich nützliche Coding-Agent ist Qwen3.6 27B, und auf einer leistungsgedrosselten NVIDIA-Karte läuft er problemlos mit ungefähr 280–300 W im sporadischen Einsatz. Der Stromverbrauch für einen Tag Coding dürfte unter dem liegen, was eine Desktop-Gaming-Maschine verbraucht, wenn man ein paar Stunden Subnautica 2 spielt. Das liegt auch daran, dass man bei kleinen Modellen nicht allzu viel Denken auslagern kann, sodass die AI mehr pausiert und der Mensch mehr selbst denkt
Die Trainingskosten sind höher, aber wenn man nur ein paar Modelle der Größenordnung 27B pro Jahr trainieren will, geht das im Maßstab der gesamten Industriegesellschaft im Rauschen unter. Ich habe das früher mal überschlagen, und es kam ungefähr heraus, dass eine zusätzliche geothermisch betriebene Aluminiumschmelze in Island ausreichen würde, um mehrere 27B-Modelle zu trainieren. Nicht gratis, aber fast ein Rundungsfehler
Der Stromverbrauch bei der Inferenz liegt unter dem von drei Glühbirnen, und das auch nur dann, wenn das Modell tatsächlich generiert. Der Stromverbrauch fürs Training entspricht dem einer großen Industrieanlage, könnte aber fast vollständig aus erneuerbarer Energie gedeckt werden. Das ist das Gute an Island
„Urheberrechtsverletzend“ scheint nach der aktuellen US-Rechtsprechung nicht zuzutreffen, und man sollte vorsichtig damit sein, Urheberrechte noch weiter auszuweiten. Ich bin seit den 90ern gegen eine Ausweitung des Urheberrechts, deshalb gefällt mir die Art, wie LLMs trainiert werden, zwar nicht, aber diese Frage scheint den Bereich des Urheberrechts verlassen zu haben und eher in Politik und Gesetzgebung zu fallen. Eine Ausnahme ist allerdings Anthropic, wenn dort Bücher einfach illegal kopiert wurden
Aber das Auslagern des Denkens entwickelt sich sehr schnell zu einem Desaster. Viele Menschen versuchen, sich selbst zu Fleischpuppen eines Maschinen-Gottes zu machen, und das ist beängstigend
Es ist so, als würde man sagen, Mord sei schlecht, „weil er illegal ist“. Mord ist natürlich schlecht, aber nicht wegen seiner Illegalität. Gesetze können geändert werden. Wenn man die Debatte darauf aufbaut, dass AI wegen Urheberrecht schlecht sei, und das Parlament legalisiert es dann, würden plötzlich alle AI akzeptabel finden? Es gab andere Gegenargumente, die dem eigentlichen Kern der Sorge näherkommen, und es wäre vielleicht produktiver gewesen, sich um diese zu sammeln
Alexandra Elbakyan ist ebenfalls eine Urheberrechtsverletzerin. Aber sie ist erwachsen, und jede Universität sollte eine Statue von ihr haben
Eine wirklich offene und faire Zukunft für Machine Learning und große Sprachmodelle ist ohne Betrachtung der gesamten Lieferkette nicht möglich. https://time.com/6247678/openai-chatgpt-kenya-workers/ ist lesenswert
Wir werden bald den Datenhöhepunkt erreichen, und die weitere Entwicklung wird danach wohl größtenteils daraus kommen, aktuelle LLMs agentisch zu bündeln
Das letzte öffentlich veröffentlichte Open-Source-Modell dürfte in den kommenden Jahren wahrscheinlich als Grundlage für sich ständig verändernde Open-Source-Agenten oder andere Aufbauten darüber dienen
Genauer gesagt sollte die Öffentlichkeit die massiven öffentlichen Mittel erkennen, die Big Tech in den letzten 20 Jahren und besonders in jüngster Zeit erhalten hat, und Rechte an der mit Steuergeld bezahlten Infrastruktur einfordern
Diese Unternehmen hätten ohne gewaltige öffentliche Finanzierung gar nicht existieren können und könnten es auch heute nicht. Zudem stammen die Trainingsdaten zu einem erheblichen Teil direkt aus öffentlichen Gemeingütern
Diese Modelle sind nicht das Produkt privater Anstrengung, sondern das Endergebnis einer gewaltigen kollektiven Leistung und sollten rechtlich als öffentliches Gemeingut anerkannt werden
Ob wichtig oder nicht, ob Blase oder nicht, ob halluzinierender Token-Prädiktor oder nicht: Es ist sehr wichtig, dass alle Staaten einen rechtlichen Rahmen haben, um „Frontier labs“ dazu zu zwingen, alle Modelle außer den neuesten als Open Source zu veröffentlichen
Die Offenlegung sollte Gewichte, Trainingsdaten und Methodik umfassen, oder alternativ sollte für jedes Modell vorgeschrieben werden, dass es nach 10–15 Jahren Open Source wird. Für den Fortschritt des menschlichen Wissens und um eine Trennung zwischen „denen, die haben“ und „denen, die nicht haben“ zu verhindern, sollte jedes Modell nach einer gewissen Zeit offengelegt werden
Man kann glauben, dass AGI nicht nah ist, aber die Absicht dieser Frontier-Labore ist, AGI zuerst zu erreichen und dann allein hinter einer Bezahlschranke zu halten. Ob wahrscheinlich oder nicht: Im Interesse der gesamten Menschheit muss das verhindert werden
Hacker-News-Kommentare
Wir denken schon seit einiger Zeit darüber nach, ein verteiltes Modelltrainingssystem mit Maschinen aufzubauen, zu denen wir quasi ehrenamtlich beitragen, aber realistisch gesehen ist der Schwierigkeitsgrad astronomisch hoch.
Die Kommunikationsgeschwindigkeit ist nicht tragbar, und auch Datenvergiftung von nicht vertrauenswürdigen Knoten ist ein Problem.
Letzteres ließe sich mit einem selbstheilenden Checkpoint-Rollback-System wohl weitgehend lösen, bei dem nicht alle Ergebnisse hinter den vergifteten Daten verworfen werden müssen, aber das ist kein kleines Projekt, das eine Einzelperson nur mit einer Idee umsetzen kann.
Wenn nun die gesamte Frontier-Forschung daran gehindert würde, weitere Fortschritte zu machen, könnte diese Richtung interessant werden.
Die Summe aller GPUs auf der Erde würde ihre Kapazitäten übertreffen, aber es braucht eine Möglichkeit, sie effizient verteilt zu nutzen.
Auch wenn man Fable nicht so schnell trainieren könnte wie sie, ist es besser, irgendwann Zugang zu haben, als niemals Zugang zu bekommen.
AI-spezialisierte Hardware ist nicht nur viel schneller als Consumer-GPUs, sondern auch deutlich energieeffizienter und wesentlich besser vernetzt, und jede dieser drei Achsen bringt die Idee zu Fall.
Der Unterschied bei der Energieeffizienz ist so groß, dass selbst dann, wenn man alle öffentlich verfügbaren GPUs oder ähnliche Geräte auf der Erde zusammenzieht, die Stromkosten zu hoch wären und es unter dem Strich sogar günstiger sein könnte, mit dem Geld stattdessen ein eigenes Rechenzentrum zu bauen.
Selbst wenn Strom kostenlos wäre, würde die Zusammenschaltung weltweit verteilter GPUs über Internet-Latenzen das Ganze um Tausende bis Millionen Male verlangsamen, und ob es überhaupt machbar wäre, ist unklar.
Jedenfalls werden wir fable-oss in diesem Jahrzehnt kaum bekommen, und vielleicht sogar in diesem Jahrhundert nicht.
Besser wäre es, wenn Regierungen, notfalls in Form eines Bündnisses, Rechenzentren direkt kaufen und besitzen und sie im öffentlichen Interesse betreiben würden; meiner Meinung nach sollten sie das tatsächlich tun.
Stattdessen stellen sie sich Tausende kleiner Rechenzentren oder Privatnutzer vor, die über das Internet freie Rechenleistung bündeln und ein Trainings-Run koordinieren, der größer ist als das, was ein einzelner Akteur leisten könnte.
Firmen wie Pluralis Research, Prime Intellect und Nous Research verfolgen diese Vision und haben bereits erfolgreich verteiltes Training in relevantem Maßstab durchgeführt, aber internetbasiertes verteiltes Training liegt in der Praxis weit hinter zentralisiertem Training zurück.
Selbst die größten Modelle, also Pluralis’ 8B Protocol Model, Prime Intellects INTELLECT-1 und Nous’ Consilience 40B, wurden mit 1.000-mal weniger Rechenleistung trainiert als aktuelle Frontier-Modelle wie xAIs Grok 4.
https://epoch.ai/gradient-updates/how-far-can-decentralized-...
Das unterschätzt, wie viel Silizium genau an diese Unternehmen gegangen ist und wie viel leistungsfähiger dieses Silizium im Vergleich zu Consumer-Hardware ist.
Auch das BLOOM-Modell war das Ergebnis kollaborativer Entwicklung: https://huggingface.co/docs/transformers/en/model_doc/bloom
Nous behauptet, das bereits geschafft zu haben: https://github.com/NousResearch/DisTrO
Auch früher gab es Arbeiten zur Gradientenkompression, die hohe Kompressionsraten berichtet haben.
Dafür braucht es auch verteilte LLM-Inferenz.
Wir sind jetzt an einem Punkt angekommen, an dem es für eine einzelne Person zu teuer ist, Hardware zum Ausführen aktueller Modelle zusammenzustellen.
Deshalb müssen wir Frameworks schaffen und verbreiten, mit denen Einzelpersonen Ressourcen teilen und aktuelle Modelle verteilt ausführen können.
Dann wird es für Regierungen auch schwerer, das zu zensieren.
Die einzige Möglichkeit, zu verhindern, dass ein einzelner Akteur dies zur Waffe macht, besteht darin, allen Zugang zu geben.
Es unterstützt vollständig verteilte Inferenz auf Mac, Windows, Linux, Android, iOS und sogar HarmonyOS.
Open-Source-/Open-Weights-Modelle werden sich weiter verbessern, und irgendwann werden Modelle auf mythos-Niveau sogar auf Smartphone- oder Brillen-Hardware laufen.
Im Moment ist es allerdings extrem mühsam, Angebot und Nachfrage aufeinander abzustimmen.
Zum Beispiel bedeutet ein MacBook mit 16 GB RAM als physische Hardware nicht, dass tatsächlich die vollen 16 GB nutzbar sind, und außerdem müssen Modell und Einstellungen (
kvcache,context limit,temperatureusw.) an die Nachfrage angepasst werden.Wir brauchen AI-Inferenz von Menschen für Menschen, Hilfe ist also willkommen.
Ein Projekt namens Petals behauptete zwar bei einem 180B-Modell bis zu 4 tok/s, aber das Repository wurde seit 2 Jahren nicht aktualisiert.
https://petals.dev/
Im politischen Handlungsraum gibt es auch Ansätze, bei denen der Staat sowohl den Zugang als auch Monopole reguliert.
Ich bin gegen die Monopolisierung dieser Technologie, aber die Risiken, allen ein jailbroken AGI/ASI zu geben, sollten offensichtlich sein.
Als spielerisches Beispiel könnte man sich eine universelle Basis-AI vorstellen, bei der der Staat mehrere Forschungslabore (
n_quorum) beauftragt und allen ein Token-Budget gibt.Der Betrieb einer API müsste allerdings mit Sicherheitskontrollen einhergehen.
Wenn jeder sein eigenes jailbroken AGI ausführen könnte, wären stabile gesellschaftliche Normen wohl nur durch Massenüberwachung möglich, die beobachtet, wer CBRNE-Bedrohungen erzeugen könnte.
Aus Sicht der Bürgerrechte wirkt das nicht wie ein klarer Sieg, aber ich verstehe, dass man diese Argumentation vertreten kann.
Bei mir zu Hause und in meinem Geschäft hat es von Anfang an gewonnen
Genauer gesagt waren es offene Gewichte, und diese feine Unterscheidung fühlt sich unangenehm an
Ich habe nie verstanden, warum man die Funktionsweise oder Entwicklung eines Produkts vollständig von dem geheimen Quellcode eines von zwei großen Startups abhängig machen sollte, deren Rentabilität unklar ist und in die man keinen Einblick hat
Das widerspricht auch soliden Engineering-Prinzipien
Deshalb hatte ich nie vor, das so zu machen, und der Grund, warum ich mich jetzt überhaupt mit AI beschäftige, ist, dass ich dank offener Gewichte entschieden habe, dass es sich lohnt, dafür Zeit aufzuwenden
Unternehmen sind ohnehin oft schon den Richtlinien einer einzigen Zahlungsplattform und zweier US-Kreditkartenanbieter unterworfen, und das allein ist schon schlimm genug
Vielleicht liegt es an meiner Freelancer-Mentalität, aber ich werde immer unruhig, wenn von mir verlangt wird, zu viel Energie darauf zu verwenden, nicht Basistechnologie, sondern das Produkt eines anderen zu studieren und zu erlernen
Ich erinnere mich auch noch an die Zeit, als Microsoft Fachbereiche mit dem Versprechen von Zugang zum NT-Quellcode umwarb
Ich erinnere mich auch daran, wie eine hochrangige Person bei uns sagte, Linux sei nur ein Nebenzweig und Zugang zu NT würde uns erst wirklich bedeutsam machen
Ich erinnere mich selbst und mein Umfeld immer wieder daran, dass man mehr Kontrolle über das eigene Schicksal braucht und dass bleeding edge vor state of the art liegt
Fortschritt entsteht an der bleeding edge, aber dort gibt es auch das Risiko von Schäden
Engineering sollte sich nicht darauf konzentrieren, auf dem Fortschritt anderer mitzufahren, sondern darauf, auf bewährter aktueller Technologie aufzubauen
Werkzeuge wie
llama.cppsind offen, aber ohne Gewichte nutzlosDie Gewichte sind extrem teures Kapital, das von großen Organisationen gespendet wird, die miteinander im Krieg liegen
Ich weiß zum Beispiel nicht, ob archive.org wirklich offene Gewichte erstellen könnte, und außer archive.org kann ich mir kaum vorstellen, dass andere Open-Source-Organisationen wie FreeBSD oder Apache in der Lage wären, wirklich offene Gewichte zu schaffen
Wenn überhaupt, dann vielleicht Regierungen, Behörden oder Universitäten
Aber im Moment haben solche Institutionen weder genug Geld noch Macht, Willen oder Interesse, um Geld in die Infrastruktur zum Erstellen von Gewichten zu stecken
AI ergänzt die Art, wie wir unser Geschäft entwickeln, und die Engineers bevorzugen es deutlich, Opus 4.8 statt des besten Open-Source-Modells zu verwenden
Ich glaube, dass Open Source wichtig ist, aber in meinem Geschäft werde ich einfach die besten verfügbaren Werkzeuge verwenden
Wenn Open Source einfach freie Software bedeutet, dann heißt das im Grunde nur, dass man eine kostenlose Kopie will
Worüber wir eigentlich sprechen sollten, ist, dass ein offenes, von der Community betriebenes Projekt das Pretraining und Training gemeinsam durchführt
Das bedeutet, dass Trainingskorpora öffentlich behandelt und Trainingsarbeit irgendwie koordiniert werden
Das verändert die Bedeutung des Begriffs vollständig und ähnelt dem Vermischen von Piraterie und Diebstahl
Es sind unterschiedliche Dinge, also sollte man unterschiedliche Wörter verwenden
Freie Gewichte, Inferenz-Code und Chat-Templates sind etwas ganz anderes als ein community-betriebenes LLM-Projekt
Wer soll das finanzieren?
Die Trainingskosten sind kaum vorstellbar hoch
Entweder gibt es das VC-Finanzierungsmodell, das auf Rendite aus ist, oder das Finanzierungsmodell der KPCh, das ein autoritäres chinesisches Gesellschaftsmodell verfestigen will
Es mag so etwas wie ein 4B-Modell an Universitäten geben, aber weit wird das wohl nicht kommen
Ich bin jeden Tag erstaunt darüber, dass mein Linux-Rechner nahezu dieselbe Erfahrung bietet wie die Betriebssysteme zweier Billionen-Dollar-Unternehmen
Er kann sogar Dinge, die diese kommerziellen Alternativen nicht können
Wenn DeepSeek tatsächlich mit einem Zehntel der Kosten westlicher Konkurrenten und nur einem Bruchteil der Mitarbeiter ein Modell liefern kann, könnte das bedeuten, dass es in diesem Bereich einen Markt für jemanden gibt, der Alternativen anbietet
Ich denke darüber nach, warum Unternehmen wie IBM bereitwillig zu Linux beitragen und diese Beiträge kostenlos veröffentlichen
Weil sie Teil einer Gruppe von Unternehmenssponsoren sind, die eine Alternative zu den dominanteren kommerziellen Akteuren im Markt brauchen
Ähnlich ist es bei Meta, das React praktisch kostenlos veröffentlicht
Für Meta ist es vorteilhafter, wenn es zum Standard wird und man Leute einstellen kann, die es bereits kennen
Bei AI-Modellen ist derselbe Ökosystemvorteil schwerer vorstellbar, aber vielleicht existiert er irgendwo
Ich kann mir vorstellen, dass Datacenter-/VPS-Anbieter so etwas fördern, um die Verhandlungsmacht großer AI-Unternehmen zu verringern
Natürlich kann dieser Optimismus auch nur Wunschdenken sein
Wenn Modellersteller die Arbeit anderer absaugen, sie zum Training verwenden und Informationen als ihre eigenen reinwaschen dürfen, ohne den ursprünglichen Urhebern etwas zurückzugeben, verstehe ich nicht, warum das Destillieren von Modellen illegal sein sollte
Es ist dasselbe, was die Frontier-Model-Hersteller im weiteren Sinn mit dem geistigen Eigentum anderer tun
Training ist in einem heute schwer vorstellbaren Maß teuer
Was wäre, wenn mehrere Universitäten Geld zusammenlegen würden?
Was wäre, wenn mehrere Staaten Geld zusammenlegen würden?
Irgendwann wird es Durchbrüche und Optimierungen geben
Die Leute zweifelten auch daran, ob ein Open-Source-Betriebssystem machbar sei, aber Linux ist seit Jahrzehnten eine reale Option auf dem Desktop und von Servern und Smartphone-Betriebssystemen ganz zu schweigen ohnehin weit verbreitet
Es hat keinen Wert, veraltete Modelle zu verwenden
Das Open-Source-AI-Manifest fordert zwar, dass „Open-Source-AI auch wirtschaftlich nachhaltig sein muss“, aber das kommt eher Wunschdenken gleich
gpt-oss ist inzwischen veraltet, war aber in dem Moment, als es erschien, ordentlich
Nemotron ist ebenfalls solide, und insbesondere das jüngste Ultra-Release ist gut
Nvidia hat insgesamt die deutlich bessere Geschichte zu erzählen, insbesondere im Vergleich zu chinesischen Modellen, weil dort nicht nur das Modell selbst, sondern auch die Vor- und Nachtrainingsdaten offengelegt werden
Statt Open-Source-Modelle als Nebenprodukt von Unternehmen zu bekommen, wäre ich sehr wohl bereit, 50 Dollar im Monat zur Unterstützung eines Open-Source-AI-Labors zu zahlen
Woher weiß man, dass sich so ein Open-Source-AI-Labor nicht irgendwann doch in ein gewinnorientiertes Unternehmen ausgliedert?
Vielleicht sollte ich anfangen, ihre API zu nutzen
Es ist auch kein Nebenprodukt eines Unternehmens
Es könnte sein, dass es bei Open-Weight-KI keinen starken Anreiz gibt, viel Kapital in Training und Forschung zu stecken.
Es könnten zwar Dinge wie Spendenfonds entstehen, aber sie würden natürlich nicht an das Finanzierungsniveau heranreichen, das Frontier-Labore erhalten.
Deshalb halte ich es für möglich, dass KI nicht ausschließlich mit Open Weights existieren kann.
Große Akteure wie OpenAI, Anthropic und Google werden weiter bestehen und wahrscheinlich bessere Modelle haben als Open-Source-Versionen.
Das könnte wie die Beziehung zwischen Photoshop und GIMP aussehen.
Photoshop wäre dann das Frontier-Labor und GIMP das Open-Weight-Modell.
GIMP ist für viele Bildbearbeitungs-Workflows völlig brauchbar, aber Photoshop ist einfach besser.
Es wäre natürlich großartig, wenn es Open-Weight-Modelle gäbe, die besser sind als die der Frontier-Labore, aber ich halte das nicht für realistisch.
Auch OpenAI und andere könnten On-Premises-Produkte herausbringen.
Ob das nun Appliance-Racks oder etwas anderes sind: Große Unternehmen werden Inferenz lokal ausführen wollen, um Datensouveränität und Kostenkontrolle zu sichern.
Das gilt umso mehr, wenn KI in die Fertigungsindustrie oder andere physisch getrennte Netzwerke integriert werden soll.
Im Moment befinden wir uns in einer Art Hyperwachstumsphase, aber sofern sich die Technologie hinter KI nicht wirklich weiterentwickelt, wird es immer schwieriger werden, noch bessere Modelle zu bauen, und es werden sinkende Grenzerträge einsetzen.
Wenn das GIMP der LLMs 80 % der Leistung eines VC-finanzierten Modells erreicht, ist das für viele Menschen völlig ausreichend nützlich.
Selbst wenn es stimmt, dass es nicht so gut ist wie ein proprietäres Modell, ist allein die Wahlmöglichkeit, ein Open-Source-Modell zu verwenden, schon ein Sieg.
Sobald sich zeigt, dass man Verbraucherinnen und Verbrauchern keine Billionen Dollar abnehmen kann, werden Bewertungen in Billionenhöhe als bedeutungslos gelten.
In der Zwischenzeit, und ohnehin, werden mit fortlaufender Software-Optimierung und Hardware-Skalierung schon bald Open Weights mit Fähigkeiten, die Fable übertreffen, auf mobilen Geräten laufen.
Ich weiß allerdings nicht, wie das praktisch funktionieren würde.
Manche KI-Modelle sind so groß, dass sie nur in hochmodernen Hyperscale-Rechenzentren sinnvoll betrieben werden können.
Solche Modelle als Open Source zu veröffentlichen ist meist bedeutungslos.
Das liegt weit über der Größenordnung selbst der heute größten öffentlich verfügbaren Modelle und schließt sogar langsame Inferenz auf kleinen, billigen Ad-hoc-Clustern aus.
Fable könnte diesen Punkt bereits erreicht haben.
Ich stimme der Haltung und Mission zu, aber dieses Ziel lässt sich inzwischen nicht mehr von Politik trennen.
Open Source(tm) verhindert nicht, dass Regierungen oder andere Akteure Kontrolle über Silizium oder über das ausüben, was dieses Silizium leisten kann, und genau das passiert bereits weltweit.
Selbst wenn ein Modell Open Source ist, löst das weder Regulierung noch ökonomische Anreize.
Das ist kein Problem, das sich in ein paar Absätzen zusammenfassen lässt.
KI ist zivilisatorische Infrastruktur, und dafür braucht es nicht nur Quellcode, sondern zivilisatorische Lösungen.
Alle wissen, dass KI-Unternehmen für das Training Dinge ohne Erlaubnis übernommen haben, und trotzdem wird nichts passieren.
Das ist ein offenkundiges Beispiel für die klassenabhängige Anwendung von Gesetzen.
Der Grund dafür, dass sie ihre eigenen Gesetze nach Belieben anwenden, wird immer nationale Sicherheit sein.
Weil sie die Infrastruktur besitzen, werden ihre Interessen mit nationaler Sicherheit gleichgesetzt.
Jedes Mal, wenn Technologie einen großen Sprung macht, kann das zwar das Spielfeld erschüttern, aber der Finanzkapitalismus passt sich schnell an und absorbiert diese Welle.
Falls der Text es nicht behandelt hat, ist die Unterscheidung zwischen Open Source und Open Weights wichtig.
Open-Weight-Modelle sind fast wie eine Einstiegsdroge, bei der die erste Dosis gratis ist.
Zumindest ohne die ursprünglichen Trainingsdaten ist die Fähigkeit zu sinnvollen Upgrades zu stark begrenzt, sodass sie gegenüber kontinuierlich weiterentwickelten aktuellen Modellen schnell zurückfallen.
Dann sehnt man sich nach der nächsten Freigabe oder kehrt zur API des Anbieters zurück.
Schon allein den Wissens-Stichtag nach vorn zu verschieben verbessert die User Experience spürbar, ganz zu schweigen von Inferenz, quantisierungsbewusstem Training und den vielen weiteren Verbesserungen, die noch kommen werden.
Man kann Forschung zur Verbesserung von Open-Weight-Modellen betreiben, aber das Ergebnis bleibt dasselbe.
Wenn es nicht Open Source ist, ist der Nutzen für die Allgemeinheit deutlich geringer.
Open-Source-AI kann per Definition niemals gewinnen
Heute kommt AI letztlich Hill-Climbing-Optimierung nahe, und geschlossene Labore können alles absorbieren, was die offene Welt tut, und darauf weiter aufbauen
Für die meisten Anwendungsfälle ist das kein großes Problem, weil AI nach dem Prinzip der Fähigkeitssättigung funktioniert
https://www.delanceyukschoolschesschallenge.com/the-rising-t...
Ausnahmen gibt es nur in Bereichen, die von Natur aus gegen die Natur oder andere Menschen gerichtet sind, wo ein Vorsprung gegenüber der Konkurrenz wichtig ist
Der zweite große Sieg wird wahrscheinlich der Moment sein, in dem normale Menschen es auf ihrer eigenen Hardware ausführen können
Microsoft konnte beliebig viel von Linux lernen, aber Linux blieb trotz kommerzieller Konkurrenten nicht nur relevant, sondern ist inzwischen mit großem Abstand das am weitesten verbreitete Betriebssystem geworden, anders als etwa beim heutigen Marktanteil von Firefox
Die Fähigkeit, aus offenen Systemen alle guten Ideen oder Daten zu absorbieren, scheint also nicht der einzige entscheidende Faktor zu sein
Im Moment sind Fable und Mythos State of the Art, aber schon bald werden sie zu Commodities
Auf jedes Unternehmen wie OpenAI/Anthropic, das mit den neuesten Modellen vorn bleiben will, kommen ungefähr hundert Unternehmen, die die dazugehörigen Komplemente zur Commodity machen wollen
Ein Sieg von Open Source bedeutet schon dann genug, wenn mindestens eine Alternative zu geschlossenen Modellen ungefähr so gut ist wie GPT-4
Tatsächlich sind wir mit den Google-Gemma-Modellen diesem Punkt bereits ziemlich nahe
Als Softwareingenieur spüre ich seit Sonnet keinen Produktivitätsunterschied mehr
Natürlich ist Opus besser und Fable wird besser sein, aber aus Sicht des wirtschaftlichen Nutzens stoßen wir bereits auf abnehmende Erträge
Als ich in Cursor von einem der frühen GPT-Modelle zu Claude Code und Sonnet gewechselt bin, bedeutete das für mich fast eine 5-fache Produktivitätssteigerung
Vor Claude Code habe ich AI nur für kleine Codefragmente genutzt, aber mit Claude Code + Sonnet konnte ich ihr ganze Unteraufgaben übertragen
Trotzdem vertraue ich Opus noch nicht genug, um ihm eine komplette Funktion von Anfang bis Ende zu überlassen
Ich bin mir nicht sicher, ob das irgendwann so weit kommen wird, und vielleicht muss es das auch gar nicht
Unternehmen verlangen von Softwareingenieuren ein gewisses recht hohes Talentniveau, aber oberhalb dieses Niveaus interessiert es sie eigentlich überhaupt nicht mehr
Selbst wenn der Unterschied groß ist, bemerken sie ihn nicht einmal