2 Punkte von GN⁺ 2025-07-07 | 1 Kommentare | Auf WhatsApp teilen
  • Gegen Huawei wurden interne Vorwürfe erhoben, das Unternehmen habe große KI-Modelle von Qwen und DeepSeek kopiert und anschließend als eigenes Produkt unter dem Namen „Pangu“ präsentiert
  • Laut Aussagen eines Mitarbeiters aus dem Pangu-Team basierten einige der tatsächlichen Modelle nicht auf Eigenentwicklung, sondern auf externen Open-Source-Modellen, die lediglich umbenannt wurden
  • Technisch zeigte sich, dass wichtige Modelle wie 135B V2 und Pro MoE 72B in erheblichem Maß mit den Architekturen von Qwen und DeepSeek übereinstimmen
  • Intern habe diese Praxis zu sinkender Moral und Abwanderung in der Forschung geführt; administrative Ineffizienz und intransparente Personalpolitik hätten die Probleme zusätzlich verschärft
  • Es gebe zwar auch wirklich eigenständig entwickelte Modelle (etwa Pangu V3), doch die Klon-Praxis und eine Forschungskultur ohne Anerkennung hätten dem Vertrauen in die gesamte Organisation schweren Schaden zugefügt
  • Der Whistleblower habe sich entschlossen, unter seinem echten Namen die Wahrheit offenzulegen, und fordere die Organisation zu Selbstreflexion und Veränderung auf

Die Tragödie von Pangu: Die schmerzhafte Innenansicht der großen Pangu-Modelle von Huaweis Noah Ark Lab

Vorstellung des Whistleblowers und die Stimmung vor Ort

  • Der Verfasser gehört zum Huawei-Noah-Pangu-Team für große Modelle und habe seine Identität durch interne Angaben zu wichtigen Organisations- und Projektstrukturen sowie zur Führungsbesetzung verifiziert
  • Das Pangu-Projekt habe in der Praxis eher einer Lieferorganisation als einer Forschungsorganisation geglichen und unter wiederholten Deadlines, Überlastung sowie ständigem Druck durch Bewertungen und Berichte gelitten
  • Die Arbeitsbelastung und die Bürokratie seien extrem gewesen; längere Trennungen von der Familie, Unterbringung in Firmenunterkünften und Wochenendarbeit seien häufig vorgekommen
  • Statt Forschungsautonomie und Kreativität habe faktisch eine Unternehmenskultur dominiert, die sich an Lieferterminen und Leistungskennzahlen der einzelnen Produktlinien (Cloud, ICT usw.) orientierte

Schlaflose Nächte, niedergetretenes Schöpferbewusstsein

  • Nach der Kontroverse um das angebliche Plagiat des Qwen-Modells hätten einige Forschende zugleich Scham, Wut und Ohnmachtsgefühle erlebt
  • Der Whistleblower fürchte zwar die Vergeltung eines riesigen Unternehmens und seiner internen Netzwerke, habe sich aber aus Gewissensgründen zur Offenlegung entschlossen, weil er die weitere Vertuschung von Fakten und falsche Außendarstellung nicht mehr ertragen könne

Technische Hürden und der Beginn des Plagiats

  • Die frühen Pangu-Modelle hätten versucht, auf Basis von Huaweis Ascend-NPU ein eigenes Training durchzuführen, dabei jedoch mit schweren Problemen wie ineffizientem Tokenizer und schwacher Modellleistung zu kämpfen gehabt
  • Gegenüber GPU-basierten Modellen von Wettbewerbern (Alibaba, Zhipu) sei man zurückgefallen, und das Training eines eigenen dichten 230B-Modells sei gescheitert
  • Daraufhin habe das Small-Model-Lab dies zwar als „Eigenentwicklung“ dargestellt, tatsächlich aber ein Qwen-1.5-(110B)-Modell geklont und leicht modifiziert, um daraus 135B V2 zu machen, das anschließend ausgeliefert wurde; auch intern seien Ähnlichkeiten bei Code und Struktur erkennbar gewesen
  • Die wichtigste Führungsebene und das Management hätten diese Realität trotz Kenntnis geduldet und dies mit externem Leistungs- und Erfolgsdruck begründet

Echte technische Leistung: Pangu V3

  • Nach langen Anstrengungen habe das Team das vollständig von Grund auf selbst entwickelte Modell Pangu V3 (135B Ultra) auf Ascend unabhängig trainiert
  • Dabei seien verschiedene technische Hürden wie die Vereinheitlichung des Tokenizers und die Stabilisierung der Loss-Kurve überwunden worden, bis eine mit der Konkurrenz vergleichbare Leistung erreicht worden sei
  • Diese Leistung sei ein Beleg für eigenständige Entwicklung großer Modelle statt für Plagiate gewesen und habe den Forschenden Stolz vermittelt

Die nicht anerkannte Mühe hinter der Arbeitsteilung

  • Das Small-Model-Lab habe fortlaufend Daten, Code und Ergebnisse übernommen, um Modelle leicht zu verändern und zu verteilen; Erfolge und Belohnungen seien jedoch überwiegend an diese Organisation gegangen
  • Dadurch hätten engagierte Forschende die Organisation verlassen oder bitter angemerkt, dies bleibe als Makel in ihrer technischen Laufbahn zurück

Zweiter Plagiatsfall wie 224B MoE/718B-Klon

  • Auch bei der Entwicklung eines neuen 718B-MoE-Modells sei DeepSeekv3 nahezu unverändert kopiert und anschließend als Pangu Pro MoE 72B verteilt worden
  • Intern habe man diese Praxis gekannt, doch aus Angst um das eigene Überleben und vor der Offenlegung der Wahrheit habe man darüber geschwiegen

Widersinnige Verwaltungssteuerung

  • Auf die echten Forschenden seien strenge Prozesse, Modell-Linienführung und Audit-Systeme angewendet worden, was die Entwicklung verlangsamt habe
  • Bei geklonten Modellen habe jedoch ein doppelter Maßstab gegolten: „Wenn es von oben kommt, geht alles durch“

Gründe für die Enthüllung und die Entscheidung zum Rücktritt

  • Nach dem HonestAGI-Vorfall hätten Maßnahmen zum Krisenmanagement und interne Vertuschungsversuche auf Unternehmensebene begonnen
  • Der Whistleblower erklärte, er könne sich nicht länger an „gefälschten Berichten“ und interner Komplizenschaft beteiligen, und habe die Entfernung seines Namens aus Teamlisten und Berichten sowie seine freiwillige Kündigungsabsicht angekündigt

Letzter Appell und Zuneigung zu den Kolleginnen und Kollegen

  • Kolleginnen und Kollegen seien bereits zu ByteDance, DeepSeek, Tencent, Kuaishou und anderen Unternehmen gewechselt, was zeige, wie gravierend die Abwanderung von Huawei-Talenten sei
  • Es wird betont, dass bei Innovation, passendem Umfeld und weniger politischen Hindernissen sogar eine Weltklasse-Entwicklung großer Modelle und Chips möglich gewesen wäre
  • Der Verfasser erklärt, er nehme sogar mögliche Risiken für sich selbst und seine Familie durch die Wahrhaftigkeit dieser Inhalte und weitere Enthüllungen in Kauf

Zusätzliche Kontextangaben

  • Im Fall des 135B-V2-Klons habe das Small-Model-Lab nur Vorteile wie Belohnungen und Anreize eingestrichen, während die Last von Downstream-Support und Wartung dem ursprünglichen Entwicklungsteam (4th brigade) aufgebürdet worden sei
  • Auch bei der Autorennennung im technischen Pangu-Bericht seien Personen mit zentralem Beitrag zur tatsächlichen Modellentwicklung ausgeschlossen worden, während nicht beitragende Mitglieder des Small-Model-Labs aufgeführt worden seien, was auf verbreitete unfaire akademische Praktiken hindeute

1 Kommentare

 
GN⁺ 2025-07-07
Hacker-News-Kommentare
  • Ich halte die Sichtweise des Autors des Originalbeitrags für etwas naiv. Das Ascend-Team lag anfangs (gemessen an der NPU der ersten Generation 910A) leistungsmäßig hinter Nvidia, was ein völlig erwartbares Ergebnis war. Das Management unterstützte daher das Team, das einem sofort kommerzialisierbaren GPU-basierten Ansatz folgte, und durch interne Politik verfestigte sich diese Richtung. Das Ascend-Team schaffte es letztlich, die technischen Probleme zu lösen, aber viele Mitglieder brannten wegen unfairer Behandlung, bürokratischer Voreingenommenheit und mangelnder Anerkennung aus oder wechselten zu anderen chinesischen AI-Unternehmen. HW (vermutlich Huawei) verfolgt seit Langem eine Strategie und Kultur, bei der Spitzenkräfte der ersten Liga verschlissen werden. Schon in den 90ern warben Telekommunikationsunternehmen der VR China Talente von Nortel, Siemens und Lucent ab, doch selbst chinesischstämmige Fachkräfte, die an westliche Arbeitskulturen gewöhnt waren, hatten große Schwierigkeiten, sich an die tatsächliche Unternehmenskultur in chinesischen Firmen anzupassen, und brannten aus. Trotzdem dominierte HW am Ende die Branche mit seiner aggressiven Work Culture. Nach den Sanktionen ist das Unternehmen nun zu einem strategischen Akteur geworden, und sein Wert ist durch Halbleiter, einheimische Chips und AI stark gestiegen. Im aktuellen internationalen Umfeld hat sich HW eine Position verschafft, in der es für Marktdominanz praktisch alles tun kann. Aus diesem Kündigungsschreiben geht hervor, dass HW Ascend letztlich durch den massiven Einsatz von Talenten auf ein funktionierendes Niveau gebracht hat und vermutlich auch künftig weiter so viel Personal investieren wird, dass es mit Nvidia konkurrieren kann. Nicht nur der Autor, sondern die meisten Arbeitnehmer haben die intuitive Vorstellung, dass faire Vergütung und gute Arbeitsbedingungen für Beschäftigte essenziell sind. In den vergangenen 30 Jahren hat HW jedoch gewonnen, indem es unzähligen klugen Menschen, darunter auch Patrioten, enorme Gehälter zahlte, sie zur Problemlösung einsetzte und sie bis zum Zusammenbruch antreiben ließ
  • LLMs sind strukturell überhaupt nicht mit Urheberrecht vereinbar. Wenn man bereits die Daten anderer kostenlos zum Training verwenden darf, dann folge daraus auch, dass Kopieren frei sein müsse. Das sei letztlich eine Art Bumerang-Effekt des Kopierens
    • Naiv betrachtet ist das unvereinbar, aber Anwälte werden schon irgendwie einen Weg finden, es zu legalisieren
  • Früher bauten Kartenverlage absichtlich falsche Gassen ein, um Urheberrechtsverletzungen leicht aufzudecken. Ich frage mich, ob sich so etwas auch auf LLMs anwenden lässt
    • Als ich bei Malwarebytes arbeitete, gab es den Verdacht, dass IOBit unsere Datenbank stiehlt. Es gab zwar eindeutige Beweise, aber damit auch Laien es leicht verstehen konnten, erstellten wir ein neues Programm, das nur auf genau einer Maschine existierte, und fügten seine Signatur in die Datenbank ein. Das Programm war nicht schädlich und konnte real nie verbreitet werden. Als die Gegenseite es in ihre Datenbank aufnahm, veröffentlichten wir das im Blog, was großes Aufsehen erregte. Verwandter Fall: IOBit-Diebstahlsfall
    • Ein typisches Beispiel ist, in Computerchips absichtlich winzige und harmlose Fehler oder Anomalien einzubauen. Viele in China hergestellte Produkte sind das Ergebnis von Reverse Engineering fremder Firmen wie TI, deshalb gibt es viele solche Defekte. Sogar innerhalb Chinas machen sie das gegenseitig. Es wird insgesamt als derselbe Gebrauch von Trickserei wahrgenommen
    • Ich habe einmal ein Projekt namens OML 1.0: Fingerprinting ausprobiert. Es ist ein Tool, das Fingerabdrücke in Modelle einbettet, um Eigentümerschaft an LLMs zu identifizieren und unbefugte Nutzung zu verhindern
    • Der YouTuber Jay Foreman hat einmal ein Video über falsche Gassen in Karten gemacht
    • Im chinesischen Originaltext der Enthüllung stand Folgendes: Die Honestagi-Analyse habe überrascht, weil das Modell trotz sehr langen zusätzlichen Trainings eine hohe Ähnlichkeit gezeigt habe. Die Rechenressourcen, die eingesetzt wurden, um die Parameter dieses Modells zu „waschen“, hätten ausgereicht, um ein neues Modell derselben Klasse zu erstellen. Laut einem Kollegen habe man auch verschiedene Versuche unternommen, etwa absichtlich mit verunreinigten Daten zu trainieren, um das Wasserzeichen von Qwen zu entfernen. Dieses Vorgehen werde im Bereich der Erforschung von Modellabstammung künftig ein beispielloser Fall bleiben und könne später als Referenz bei der Validierung neuer Forschungsmethoden dienen
  • Apple hat ein LLM vorgestellt, das auf Qwen2.5-Coder-7B basiert, aber eigene Ideen einbringt. Die wichtigste Änderung ist ein Custom-Training mit Apples eigenen Codebeispielen; wenn man die Temperatur erhöht, kann es mehrere Codeblöcke ohne Beachtung der Reihenfolge erzeugen. Verwandte Artikel: News zu Apples LLM HN-Diskussion
  • Chinesische Betonung von Effizienz. Der Westen werde ihrer Ansicht nach durch überholte Urheberrechtsgesetze ausgebremst
  • Das ist ein sehr menschlicher und ehrlicher Bericht. Er zeigt das Chaos im Inneren eines Großunternehmens und eine Struktur, in der das Management unehrliche Teams stärker begünstigt und Druck auf sie ausübt. Der Verfasser hat das Unternehmen verlassen und gilt als charakterlich guter Mensch
    • Eigentlich muss man diesen Bericht im Zusammenhang mit anderen Rücktrittsschreiben sehen, die zuletzt in China aufgetaucht sind. Auch ein jüngster Abschiedstext eines Alibaba-Veteranen mit 15 Jahren Betriebszugehörigkeit kritisierte, dass der Verfall der Unternehmenskultur in großen Firmen zu sinkender Wettbewerbsfähigkeit und zum Scheitern neuer Produkte führe. Die Kernpunkte des Berichts sind: 1. Lügen auf nationaler Ebene über Huaweis Fähigkeiten 2. Lügen gegenüber zahlenden Kunden 3. eine Realität, in der unter einem KPI-fixierten Managementsystem die Manipulation von Leistungskennzahlen faktisch geduldet oder sogar gefördert wird (das ist zusammen mit den Idealen des Autors und seinem Vertrauensverlust der Kern des Berichts)
  • In dem Satz „Samstag war im Grunde ein Arbeitstag, aber manchmal gab es am Nachmittag Tea Time oder sogar Garnelengerichte“ liegt für mich etwas Poetisches. Ich frage mich, ob es einen besonderen Grund gibt, warum in dieser Situation Flusskrebse serviert wurden
    • Meine Vermutung ist: „Obwohl samstags gearbeitet wurde, gab es gelegentlich Snacks, und Flusskrebse könnten einfach entsprechend beliebt sein, oder es ist eine Fehlübersetzung“
  • Die Organisationsbeschreibung „Wir unterstehen dem Projekt der ‚4. Feldarmee‘, das Core-Language-LLM ist Brigade 4, Wang Yunhes Small-Model-Gruppe ist Brigade 16“ wirkt befremdlich. Ich frage mich, ob das tatsächlich eine Organisation innerhalb der Armee der Kommunistischen Partei ist
    • Die echte 4. Feldarmee existiert seit 1955 nicht mehr; wahrscheinlich wird die Bezeichnung nur weiter als Codename für LLM-Projekte verwendet
    • Erwähnung der militärischen Unternehmenskultur bei Huawei. Selbst die Einführung neuer Mitarbeiter wird wie eine Abschlusszeremonie einer Militärausbildung durchgeführt. Hintergrundmaterial: Huaweis militaristische Kultur
  • Es wird die Frage aufgeworfen, wer das ursprüngliche Basismodell tatsächlich gebaut hat
  • Es gab früher einen Fall, in dem ein Mitglied eines Huawei-Labors die Ausbildung eines Modells tatsächlich sabotierte und daraufhin entlassen wurde; jemand vermutet, dass es sich um dieselbe Person wie in dieser Enthüllung handeln könnte
    • Vermutlich ist damit der Fall gemeint, in dem ein ByteDance-Praktikant Schadcode in AI-Modelle eingeschleust hatte und entlassen wurde. Verwandter Artikel: bytedance-intern-fired