1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Der GitHub-Status ist Open. Im README zu a778c1ec4e21180ee55c3ea016a348e549e75f09 steht, dass das Modell durch das Mergen von Nex-N2-Pro und Qwen3.5-397B-A17B erstellt wurde, anschließend eine On-Policy-Distillation mit einem stärkeren Modell durchlief und dass in einer früheren Version irrtümlich die base merged version statt des finalen distilled Modells hochgeladen wurde
  • Der zentrale Vorwurf ist, dass prefeitura-rio/Rio-3.5-Open-397B als originales, von IplanRIO trainiertes 397B-Modell dargestellt wurde, die Gewichte jedoch eine direkte elementweise Mischung von Nex und Qwen von etwa 0.6/0.4 seien und es keine Belege für ein eigenes Training gebe
  • Nach dem Entfernen des hart codierten System-Prompts „You are Rio“ und dem Senden von 120 Identitätsfragen an rio-397b ergab die Messung angeblich: Nex-Antworten 79.2% (95/120), Nex-AGI-Antworten 73.3% (88/120), Rio-Antworten 0.0% (0/120)
  • Als Antwortbeispiele ohne Prompt-Entfernung wurden unter anderem „I am Nex, from Nex-AGI“, „Nex-AGI is a large-model ecosystem alliance“ und „Shanghai Innovation Institute“ genannt; diese Formulierungen hätten die Organisationsbeschreibung aus den Nex-Identitätsdaten nahezu wörtlich reproduziert
  • Die Gewichtsanalyse maß die Beziehung (Rio − Qwen) = α × (Nex − Qwen) tensorweise und verglich die collinearity anhand des Kriteriums, dass cos_fit bei unabhängigen Modellen ≈ 0, bei Merges jedoch ≈ 1 sei
  • Die gemessenen Werte lagen bei den routed experts bei α = 0.571 ± 0.0016, cos_fit = 0.993, beim lm_head bei α = 0.574, cos_fit = 0.991, bei attention bei α ≈ 0.585, cos_fit ≈ 0.986 und bei linear-attention projections bei α ≈ 0.586, cos_fit ≈ 0.984
  • Nach dem Teilen der README-Änderung fragte 00INDEX nach, ob dieser credit eine Stunde zuvor aktualisiert worden sei, während yhcc meinte, man solle abwarten, ob das Modell am nächsten Tag hochgeladen werde
  • Ob öffentliche Gelder verwendet wurden, entwickelte sich zu einem separaten Streitpunkt. Ein Kommentar teilte einen X-Link mit dem Satz „No public funds were used“, ein anderer verwies auf einen X-Link mit Aussagen des Bürgermeisters; in einem später zitierten Bild stand dann „no public money was spent on this model training“

1 Kommentare

 
GN⁺ 4 시간 전
Hacker-News-Kommentare
  • Ich gehöre keiner der beteiligten Seiten an, aber für mich sieht es so aus: 1) Das offizielle Modell wurde als auf Qwen 397B basierend bezeichnet, und da Nex ebenfalls auf demselben Basismodell aufbaut, ist es gut möglich, dass Nex Pro deshalb gar nicht offengelegt wurde. 2) Die Verbesserung wäre wohl durch eine Gewichtszusammenführung plus On-Policy-Destillation zustande gekommen, aber im hochgeladenen Modell war überhaupt keine Destillation enthalten, was die Verwirrung ausgelöst hat.
    3) Dieses Modell wurde außer durch einen Reddit-Post vor zwei Tagen nicht beworben und verbreitete sich am Wochenende ganz natürlich, weil es mit Brasiliens erstem WM-Spiel zusammenfiel. Der Bürgermeister von Rio hat die kostenlose Aufmerksamkeit zwar genutzt, aber das geschah nicht gemeinsam mit dem Forschungsteam.
    4) Wenn einfach nur zwei Modelle zusammengeführt wurden, gibt es scheinbar keinen Grund, es als auf Qwen 397B basierend zu veröffentlichen, sogar das SwiReasoning-Paper zu erwähnen und nur Nex zu verschweigen.
    5) Wie auch immer: Wenn das richtige Modell hochgeladen wird, lässt sich diese Behauptung leicht überprüfen.

    • Zu Punkt 2 gibt es https://news.ycombinator.com/item?id=48529544
    • Ich hätte wirklich nie gedacht, auf HN einmal einen Titel wie „Ri​o de Janeiros eigenes LLM“ zu sehen, deshalb überrascht mich schon allein, dass das überhaupt passiert ist.
    • Falls das Basismodell mit einem feinabgestimmten Modell eines anderen Forschungslabors zusammengeführt wurde, könnte die Verbesserung teilweise aus den feinabgestimmten Gewichten dieses anderen Modells stammen.
      Wenn wirklich versehentlich ein leistungsfähigeres Modell nicht hochgeladen wurde, hätte man die korrekte Datei inzwischen wohl hochladen können.
    • Ich verstehe nicht, was mit einem WM-Debüt gemeint ist. Brasilien hat doch schon fünfmal gewonnen, oder?
    • So wie ich es verstehe, wurde überhaupt keine Destillation durchgeführt, und alle Gewichte sind einfach ein elementweiser 60/40-Durchschnitt von Qwen und Nex.
      Falls der Rio-Auftragnehmer wie behauptet eigenes Post-Training gemacht hat, frage ich mich, ob das dann überhaupt möglich ist: https://x.com/tenobrus/status/2066243352211996728/photo/1
  • Wenn man den Teil liest, wonach alle Gewichtstensoren von Rio auf dem Niveau von Tausenden Standardabweichungen mit einer 0,6/0,4-Mischung aus Nex und Qwen übereinstimmen – und zwar über 60 Schichten und alle Komponenten des Netzwerks hinweg –, und dass sich anderes Fine-Tuning nicht durch Interpolation erklären lasse, dann ist die heutige Robustheit von Deep-Learning-Modellen wirklich erstaunlich.
    Es heißt letztlich, dass man einfach alle Gewichte linear kombiniert hat und die Leistung nicht zusammengebrochen ist, sondern sich sogar verbessert hat.

    • Bei einigen Benchmarks kann man wohl von einer Verbesserung sprechen.
      Letztlich ist es ein Spiel, bei dem man an den Reglern dreht, bis ein Benchmark einmal besser ausfällt, und dann veröffentlicht man es. Auf HuggingFace gibt es viele Fine-Tuning-Modelle und Chimären-Modelle, die bei bestimmten Tests besser aussehen, bei anderen Anwendungen aber meist schlechter sind.
      Das passiert auch oft bei Modellen, die zum Entfernen von Zensur angepasst wurden. Sie schaffen es dann zwar, zuvor zensierte Ausgaben zu erzeugen, aber die Gesamtqualität der Ausgaben sinkt.
    • Möglich ist das, weil Nex selbst eine feinabgestimmte Version von Qwen3.5 ist: https://huggingface.co/nex-agi/Nex-N2-Pro
      Bei zwei LLMs mit unterschiedlichem Vortraining dürfte diese Methode wohl nicht funktionieren. Selbst wenn doch, müssten interne Aktivierungsformen, Dimensionen, Anzahl der Experten und Token-Vokabular exakt übereinstimmen, sodass das außerhalb von Fine-Tuning oder akademischen Experimenten in der Praxis kaum vorkommen dürfte.
    • Das nennt sich lineare Moduskonnektivität und scheint bei fast allen großen Modellen zu funktionieren.
      Es funktioniert sogar so gut, dass es in vielen Fällen ein expliziter Teil des Trainingsprozesses ist: Man erzeugt mehrere Trainingszweige, führt sie zusammen und trainiert dann weiter.
      Warum das so gut funktioniert, ist noch nicht verstanden.
    • Das ist zwar eine bekannte Idee: https://arxiv.org/abs/2203.05482
      Trotzdem ist es immer noch erstaunlich, dass so ein einfacher Ansatz funktioniert.
    • Interessant ist die Vorstellung, dass es vielleicht geheime Mengen solcher Anpassungen geben könnte, mit denen sich aus diesen Gewichten oder kleineren Modellen eine Intelligenzsimulation bauen ließe, die weit besser ist als so etwas wie Fable.
  • Die Stadtverwaltung von Rio de Janeiro hat über das IT-Unternehmen IplanRIO Rio-3.5-Open-397B veröffentlicht und es als selbst entwickeltes, auf Qwen3.5 feinabgestimmtes Modell vorgestellt, das in Benchmarks ähnliche offene Modelle schlägt.
    Im verlinkten Issue wird dagegen vermutet, dass es sich in Wirklichkeit um eine Gewichtszusammenführung aus etwa 60 % Nex-N2 Pro + etwa 40 % Qwen3.5-397B-A17B handelt, wobei Nex-N2 selbst bereits rund eine Woche früher veröffentlicht worden war.

    • Ich wusste nicht, dass eine solche Modellzusammenführung überhaupt möglich ist. Aus reiner Software-Perspektive natürlich schon, aber dass es tatsächlich wirkt, ist überraschend.
    • Das Problem ist also nicht, dass die Herkunft von Qwen fehlt, sondern dass Nex-N2 Pro nicht erwähnt wurde?
    • Wenn Rio Zeit auf LLMs verwendet, müsste die Stadt eigentlich bereits IT-Infrastruktur und Software auf Weltniveau haben.
      Wirkt wie eine Verschwendung von Steuergeld.
  • Jemand verdient also Profit mit der Arbeit anderer, ohne die Quelle korrekt anzugeben – so etwas aber auch!

    • Das hier ist ein Open-Weights-Modell, das auf anderen Open-Weights-Modellen basiert.
      Der Kern der Kontroverse ist, dass es mit der Behauptung veröffentlicht wurde, durch Post-Training verbessert worden zu sein. In Wirklichkeit stellte sich heraus, dass es nicht das nach dieser Behauptung post-trainierte Modell war.
      Auf der HuggingFace-Seite steht jetzt, dass es sich um eine Modellzusammenführung handelt, vorher stand das dort aber nicht. Sie wollen nun offenbar behaupten, versehentlich das falsche Modell auf HuggingFace hochgeladen zu haben und bald das echte Modell hochzuladen.
      Kurz gesagt: Sie dachten wohl, man könne zwei Open-Weights-Modelle zusammenschweißen und dann behaupten, das Team habe erstaunliche Post-Training-Ergebnisse erzielt – ohne daran zu denken, dass andere Forschende klug genug sind, zu erkennen, dass es überhaupt kein Post-Training gab.
    • Es geht nicht um die Quellenangabe, sondern darum, über die Fähigkeiten des Forschungslabors zu lügen.
    • Ich frage mich, wie man es bewerten würde, wenn eine Regierung oder ein staatlicher Auftragnehmer behauptet, viel Arbeit geleistet zu haben, obwohl in Wirklichkeit gar nichts gemacht wurde.
    • Das ist blanker, steuerfinanzierter Betrug. Was sollte man auch sonst erwarten?
    • Von „ihrer Arbeit“ zu sprechen, ist ohnehin fragwürdig: Zuerst haben die ursprünglichen Ersteller der Inhalte 99,99 % geleistet, dann haben US-Unternehmen das gebündelt und daraus ein LLM auf dem neuesten Stand gemacht, und „sie“ haben dann die „Arbeit“ gemacht, auf Basis dieses US-Modells ihr eigenes Modell zu bauen.
      Wenn damit gemeint ist, dass sie 0,00001 % der Arbeit am eigentlichen Produkt geleistet haben, dann stimmt das vielleicht.
      Es ist eher so, als würde man eine Linux-Distribution forken, ein paar Themes und Fonts hinzufügen und sich dann darüber beschweren, dass jemand diese Distribution erneut forked und noch ein weiteres Theme ergänzt.
  • Das Muster, ein zusammengeführtes Modell nicht offenzulegen und als Eigenentwicklung zu rebranden, ist besorgniserregend
    Es untergräbt das Vertrauen in die Entwicklung von Open-Source-KI, daher braucht die Offenlegung von Modellen eine bessere Nachverfolgbarkeit der Herkunft und höhere Transparenzstandards

  • Es wäre gut, wenn es eine Erklärung oder einen Link dazu gäbe, wie Model Merging funktioniert
    Ich frage mich, ob dabei die Gewichte tatsächlich mathematisch zusammengeführt werden oder ob eher etwas wie Distillation verwendet wird. Wenn es wie im Artikel überhaupt kein Training gab, ist es vermutlich keine Distillation

    • Als Einstieg ist dieses Dokument gut: https://huggingface.co/docs/peft/developer_guides/model_merg...
      Im Allgemeinen bezeichnet Merging eine Technik, bei der die Gewichte verschiedener Modelle direkt mathematisch vermischt werden. Das war vor etwa zwei Jahren sehr populär, und in Ranglisten tauchten viele sogenannte Frankenmodelle auf
      Ich persönlich ordne Merging in dieselbe Kategorie wie Dinge wie „abliteration“ ein. Das sind Techniken, bei denen Modellgewichte ohne klassischen Trainings-/Tuning-Loop chirurgisch verändert werden. Wenn dich dieses Gebiet interessiert, lohnt es sich, Maxime Labonne zu folgen
    • Viel zu lesen gibt es dazu nicht
      Model A: A_1, …, A_n
      Model B: B_1, …, B_n
      C_i = A_i * p + B_i * (1 - p)
      Das heißt, man bildet einfach positionsweise eine lineare Kombination der Gewichte verschiedener Modelle
  • Schon der Versuch, überhaupt ein Modell zu bauen, ist überraschend
    Trotzdem könnte es ein positives Zeichen sein, dass die IT-Abteilung der Stadtverwaltung den Mut hatte, so etwas zu versuchen

    • Merging und Fine-Tuning sind auf einem Niveau, das auch Privatpersonen mit etwas Geld machen können, also ist es für eine Kommunalverwaltung durchaus machbar
    • Wie in der Hypothese im toten Kommentar klingt es plausibler, dass man der Regierung ein riesiges LLM-Trainingsbudget vorgeschlagen, den Großteil des Geldes eingesteckt und dann ein billiges zusammengeführtes Modell veröffentlicht hat, um die Veruntreuung zu rechtfertigen
  • „Nun ja, Steve (Jobs), ich glaube, es ist eher so, dass wir beide einen reichen Nachbarn namens Xerox hatten, und als ich in sein Haus einbrechen wollte, um den Fernseher zu stehlen, habe ich festgestellt, dass du ihn schon gestohlen hattest.“
    — Bill Gates

    • Der erste Teil dieses Zitats ist noch lustiger: „Bill Gates tauchte aus irgendeinem Grund allein auf und war von zehn Apple-Mitarbeitern umringt. … Steve begann Bill anzuschreien und fragte, warum er die Vereinbarung gebrochen habe.“
      Das Ende ist noch interessanter: „Apple reichte 1988 eine große Urheberrechtsklage gegen Microsoft ein, verlor aber letztlich aus technischen Gründen. Der Richter entschied, dass Apple Microsoft im November 1985 fahrlässig eine unbefristete Lizenz für die Benutzeroberfläche des Mac erteilt hatte.“
      Microsoft hat Apples GUI also nicht gestohlen, sondern Apple hat sie praktisch selbst aus der Hand gegeben
    • Ich wünschte, das wäre ein echtes Zitat. Es ist wirklich stark