Die Google-Mitarbeiter, die den Transformer schufen

(wired.com)

2 Punkte von GN⁺ 2024-03-21 | 1 Kommentare | Auf WhatsApp teilen

Das 2017 von acht Google-Forschern veröffentlichte „Attention Is All You Need“ verlagerte die Sprachverarbeitung von sequenziellen Modellen zur Transformer-Architektur und wurde zur Grundlage generativer KI
Jakob Uszkoreit sah, dass LSTMs bei langen Texten leicht Kontextsignale weiter hinten übersehen, und trieb als Alternative Self-Attention voran, bei der der gesamte Satz gemeinsam berücksichtigt wird
Mit Illia Polosukhin, Ashish Vaswani, Niki Parmar, Llion Jones, Łukasz Kaiser, Aidan Gomez und Noam Shazeer wuchsen die Übersetzungsexperimente; nach Shazeers Implementierung brach das Big-Modell den Rekord für Übersetzungen von Englisch nach Deutsch
Das Paper wurde am 19. Mai 2017 kurz vor der NeurIPS-Deadline eingereicht, erhielt gemischte Reviews, stieß dann in der Postersession im Dezember auf großes Interesse; Google meldete zu defensiven Zwecken ein vorläufiges Patent an
Alle acht Autoren haben Google inzwischen verlassen; mit Ausnahme von Near wuchsen Character AI, Sakana AI, Essential AI, Cohere, Inceptive und andere auf Basis der Transformer-Technologie

Der Umbruch durch „Attention Is All You Need“

„Attention Is All You Need“ ist ein Paper, das Google-Forscher im Frühjahr 2017 verfassten
- Um keine Reihenfolge der Beiträge festzulegen, setzten die acht Autoren hinter jeden Namen ein Sternchen und ergänzten die Fußnoten „Equal contributor“ und „Listing order is random“
Das Paper erweiterte KI auf Basis neuronaler Netze um die Transformer-Architektur; Transformer wurden zur zentralen Struktur generativer KI-Produkte wie ChatGPT, Dall-E und Midjourney
Geoffrey Hinton bewertete, dass wir ohne Transformer nicht dort angekommen wären, wo wir heute stehen
- Gemeint war die Entwicklung, dass OpenAI und andere Unternehmen Systeme bauen, die mit menschlichen Erzeugnissen konkurrieren oder sie in manchen Fällen übertreffen
Alle acht Autoren des Papers haben Google verlassen und arbeiten jeweils an Dingen, die mit Systemen zusammenhängen, die von der 2017 geschaffenen Architektur angetrieben werden

Der Ausgangspunkt der Self-Attention-Idee

Der Ausgangspunkt des Transformers war Jakob Uszkoreits Konzept der Self-Attention
- Er arbeitete in Googles Übersetzungsgruppe und wechselte 2012 in ein Team, das ein System bauen sollte, das Nutzerfragen direkt auf der Google-Suchseite beantwortet
- Damals sah Google Apple Siri als mögliche Bedrohung für den Such-Traffic und widmete diesem Bereich mehr Aufmerksamkeit
Sprachmodelle stützten sich damals auf recurrent neural networks und LSTMs, hatten bei der Verarbeitung langer Texte aber Grenzen
- Im Beispielsatz Joe is a baseball player... got two hits muss man die vorherige Baseball-Information im Gedächtnis behalten, um „two hits“ zu verstehen
- LSTMs ermöglichten die Verarbeitung größerer und komplexerer Textsequenzen, verarbeiteten Wörter aber weiterhin sequenziell und konnten daher Kontextsignale weiter hinten übersehen
Uszkoreit entwickelte um 2014 herum die Idee der Self-Attention
- Self-Attention kann beim Übersetzen eines Wortes auf alle anderen Positionen im Satz Bezug nehmen
- Statt Wörter nacheinander zu betrachten, betrachtet der Ansatz mehrere Eingaben gemeinsam und parallel; dadurch passte er gut zu den parallel arbeitenden Chips, die im Zuge des Machine-Learning-Booms in großen Mengen produziert wurden
Weil der Ansatz die bestehende neuronale Architektur verwarf, waren die Reaktionen skeptisch
- Auch Uszkoreits Vater Hans Uszkoreit teilte die Idee bei Gesprächen am Abendbrottisch nicht
- Uszkoreit führte mit Kollegen kleine Textexperimente durch und veröffentlichte 2016 ein Paper, doch die bisherigen Mitstreiter interessierten sich stärker dafür, dies auf Google Search, Werbung und anderes anzuwenden

Zufällige Zugänge und die Bildung des „Transformer“-Teams

2016 schlug Uszkoreit Illia Polosukhin beim Mittagessen in einem Google-Café Self-Attention vor
- Polosukhin war der Ansicht, dass direkte Antworten auf Google.com ein günstiges, leistungsstarkes System erfordern würden, das im Millisekundenbereich reagiert
- Er arbeitete mit Ashish Vaswani zusammen; Vaswani, der bei Google Brain nach einem großen Projekt suchte, schloss sich der Self-Attention-Idee an
Die drei erstellten ein Designdokument mit dem Titel „Transformers: Iterative Self-Attention and Processing for Various Tasks“
- Der Name „Transformers“ wurde von Anfang an verwendet und bezeichnete einen Mechanismus, der Eingabeinformationen transformiert, um ein menschenähnliches Verständnis zu extrahieren – oder zumindest diesen Eindruck zu erzeugen
- Uszkoreit verband den Namen auch mit Erinnerungen daran, wie er als Kind mit Hasbros Transformer-Spielzeug gespielt hatte
Später kamen Niki Parmar und Llion Jones hinzu
- Parmar kam nach ihrem Masterabschluss an der USC zu Google und arbeitete mit Uszkoreit an Modellvarianten zur Verbesserung der Google-Suche
- Jones war bei Google Research unter Polosukhins Manager tätig und stieß zum Transformer-Team, nachdem er von seinem Kollegen Mat Kelcey vom Self-Attention-Konzept gehört hatte
Auch Łukasz Kaiser von Google Brain und der Praktikant Aidan Gomez kamen dazu
- Gomez war an der University of Toronto Teil der Machine-Learning-Gruppe, in der auch Geoffrey Hintons Labor angesiedelt ist, und erhielt eine Praktikumsmöglichkeit, nachdem er Kaiser Ideen zur Erweiterung eines entsprechenden Papers geschickt hatte
- Kaiser und Gomez diskutierten, ob sie ihr eigenes Projekt mit dem Self-Attention-Projekt zusammenlegen sollten, und entschieden sich dafür

Rekordbrechende Experimente und Einreichung kurz vor Deadline

Das Team nutzte das Self-Attention-Modell für maschinelle Übersetzung und maß die Leistung mit dem BLEU-Benchmark
- Frühe Modelle lagen auf einem ähnlichen Niveau wie LSTM-Alternativen, waren aber nicht besser
- Als Noam Shazeer zufällig von dem Projekt hörte und dazustieß, verbesserte sich die Implementierungsqualität erheblich
Shazeer implementierte den Code des Transformer-Teams selbst neu
- Er empfand die bestehenden recurrent neural networks als unhandlich und beteiligte sich mit dem Gedanken, sie zu ersetzen
- Teammitglieder beschrieben seine Implementierung mit Worten wie „magic“, „alchemy“ und „bells and whistles“; Uszkoreit war der Ansicht, dass intuitive Mechanismen wie Self-Attention einige wenige erfahrene Implementierer brauchen, um lebendig zu werden
Vor der NeurIPS-Einreichungsfrist am 19. Mai 2017 beschleunigten sich die Experimente
- Das Team testete ein grundlegendes Transformer-Modell, das 12 Stunden trainiert worden war, sowie ein stärkeres Big-Modell, das dreieinhalb Tage trainiert worden war
- Bei der Übersetzung von Englisch nach Deutsch übertraf das Basismodell alle Konkurrenzmodelle; Big erzielte BLEU-Werte, die den bisherigen Rekord klar brachen, und war zugleich recheneffizienter
In den letzten zwei Wochen vor der Deadline arbeitete das Team konzentriert in Building 1965
- Per Ablation entfernten oder ersetzten sie Module und Techniken, um zu prüfen, was tatsächlich nötig war
- Während sie Bugs behoben, etwa Probleme durch nicht korrektes Masking, formten sich die heutigen Bestandteile des Transformers in schnellen iterativen Experimenten heraus
Den Titel „Attention Is All You Need“ schlug Llion Jones vor, inspiriert von „All You Need Is Love“ der Beatles
- Die Ergebnisse für Englisch-Französisch lagen fünf Minuten vor Einreichung vor; das Paper wurde zwei Minuten vor Ablauf der Frist eingereicht
- Google meldete rasch ein vorläufiges Patent für ein defensives Patentportfolio an

Google, OpenAI und der weitere Weg der acht Autoren

Die NeurIPS-Reviews fielen gemischt aus: einmal positiv, einmal sehr positiv und einmal etwa „okay“; das Paper wurde für eine Postersession am Abend angenommen
- Die vierstündige Session am 6. Dezember 2017 war voll mit Wissenschaftlern, die mehr erfahren wollten
- Selbst um 22:30 Uhr, dem Ende der Session, waren noch Menschen dort, sodass Sicherheitskräfte sie zum Gehen auffordern mussten
- Dass Sepp Hochreiter, Miterfinder der LSTM, vorbeikam und die Arbeit lobte, war für Uszkoreit ein befriedigender Moment
Transformer dominierten nicht sofort Google intern und die Welt
- Shazeer schlug Googles Management rund um die Veröffentlichung des Papers vor, den gesamten Suchindex zu verwerfen und stattdessen ein riesiges Transformer-basiertes Netzwerk zu trainieren
- Selbst Kaiser hielt diesen Vorschlag damals für abwegig
- OpenAI bewegte sich schneller: Nachdem Ilya Sutskever Alec Radford vorgeschlagen hatte, an dieser Idee zu arbeiten, entstand das erste GPT-Produkt
Google begann 2018, Transformer in Produkte zu integrieren
- Die erste Anwendung war das Übersetzungstool
- Im selben Jahr veröffentlichte Google das Transformer-basierte Sprachmodell BERT und begann im Jahr darauf, es in der Suche einzusetzen
- Auf die Frage, warum Google nicht zuerst ein großes Sprachmodell wie ChatGPT veröffentlicht habe, sagte Sundar Pichai, Google habe mehr tun können, nachdem andere gezeigt hatten, wie es funktioniert
Alle acht Autoren des Papers haben Google verlassen
- Noam Shazeer war Mitgründer von Character AI, dessen geschätzter Wert bei 5 Milliarden US-Dollar liegt
- Llion Jones war Mitgründer des in Tokio ansässigen Unternehmens Sakana AI, das mit 200 Millionen US-Dollar bewertet wird
- Jakob Uszkoreits Inceptive ist ein Biotech-Unternehmen mit einer Bewertung von 300 Millionen US-Dollar
- Illia Polosukhins Near baut eine Blockchain mit einem Token, dessen Marktkapitalisierung bei rund 4 Milliarden US-Dollar liegt
- Niki Parmar und Ashish Vaswani starteten 2021 Adept, gründeten später Essential AI; Essential AI erhielt 8 Millionen US-Dollar an Investitionen
- Aidan Gomez war 2019 in Toronto Mitgründer von Cohere, dessen geschätzter Wert bei 2,2 Milliarden US-Dollar liegt
- Łukasz Kaiser gründete kein Unternehmen, sondern wechselte zu OpenAI und ist einer der Erfinder einer neuen Technologie namens Q*
Mit Ausnahme von Near basieren ihre Unternehmen auf Transformer-Technologie
- Google schuf ein Umfeld, in dem unkonventionelle Ideen verfolgt werden konnten, und alle Autoren arbeiteten im selben Büro
- Begegnungen auf dem Flur und Gespräche beim Mittagessen wurden zu wichtigen Auslösern
- Sechs der acht wurden außerhalb der USA geboren; bei den beiden übrigen handelt es sich einmal um jemanden, der geboren wurde, als seine deutschen Eltern sich vorübergehend in Kalifornien aufhielten, und einmal um einen Amerikaner der ersten Generation aus einer Familie, die vor Verfolgung geflohen war
- Uszkoreit sieht Innovation als etwas, das entsteht, wenn die richtigen Bedingungen, Menschen zum passenden Zeitpunkt, Spaß, das richtige Problem und Glück zusammenkommen

1 Kommentare

GN⁺ 2024-03-21

Kommentare auf Hacker News

Eher nicht das Attention-Modell an sich, denn Attention gab es schon vor diesen Papers.
Was sie getan haben, war eher zu zeigen, dass genau das in einem bestimmten Kontext ausreicht, um die nächste Wortsequenz vorherzusagen. Als ich 2018 ein ähnliches Framework verwendete, kamen sehr merkwürdige, aber interessante Verhaltensweisen heraus, und ich versuchte, das zu lösen. Aber wie andere Gruppen sah ich nicht, dass es besser wäre, bei einem einfachen Algorithmus die Rechengröße hochzuskalieren. Es nervt, wenn man sagt, eine Gruppe habe AI entdeckt und verändert, und dabei andere Gruppen ignoriert. Diese Forscher verdienen Anerkennung, aber sie haben die moderne AI eher auf interessante Weise weiterentwickelt, als sie erfunden. Auch heute gibt es Strömungen zurück zu deterministischeren Ansätzen, World Models, Memory, Graphen und Energy Minimization. Generative Modelle sind interessant, und wir haben viel daraus gelernt, aber dass sich AGI/SGI lösen lässt, indem man einfach immer mehr Chips hineinsteckt, ist noch nicht als Paper geschrieben worden.
- Das ist eine ziemlich knauserige und merkwürdig herabsetzende Interpretation. Vielleicht passt sie deshalb perfekt zu HN.
  Der erstaunliche State of the Art von heute würde ohne die Transformer-Architektur nicht existieren. Wenn Transformer nur ein glücklicher Mitfahrer gewesen wären, der vom Skalieren der Rechenleistung profitiert hat, dann wäre die App, die die Welt erschüttert hat, nicht ChatGPT gewesen, sondern ChatMLP oder ChatCNN. Dem ist aber nicht so, und auch 2024 gibt es in der Verarbeitung natürlicher Sprache keine wirklich konkurrenzfähige Architektur. Transformer sind eine wirklich tiefe und erstaunliche Idee mit hervorragenden Eigenschaften wie Trainingsparallelität. Im Nachhinein ist es leicht, GPT größtenteils als abgeleitete Idee abzutun, und irgendwann wird man denselben Revisionismus auf Dinge wie State-Space-Modelle anwenden, die Transformer ersetzen. Natürlich baut GPT auf früherer Forschung auf, und andere Ansätze sollten ebenfalls Anerkennung bekommen. So funktioniert Wissenschaft. Aber die Leute, die Transformer geschaffen haben, verdienen Lob wie in diesem Artikel, und das setzt nicht alle anderen herab. Diese acht Menschen haben die Welt verändert und verdienen aufrichtig Zuneigung.
- „Bei einem einfachen Algorithmus die Rechengröße hochzuskalieren ist besser“ – damit hat die bittere Lektion wieder einmal gegriffen.
  http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- Ich würde sagen, dass sie AI verändert haben, aber nicht, dass sie moderne AI erfunden haben.
  Persönlich glaube ich, dass wir sowohl Rechenleistung als auch neuronale Netzwerkarchitekturen brauchen werden, um AGI näherzukommen.
- Ich studiere Neurowissenschaften, interessiere mich aber auch sehr dafür, wie AI funktioniert.
  Die älteren Methoden habe ich gelesen, aber Begriffe wie Memory Graphs oder Energy Minimization sind neu für mich. Welche aktuellen Papers oder Texte würdet ihr jemandem empfehlen, der mehr darüber lernen möchte?
- Ein Artikel über „Google-Ingenieure, die AI schrittweise weiterentwickelt haben“ hätte wohl nicht besonders viele Anzeigen verkauft.
Ich habe ungefähr 2014, auf dem Höhepunkt von Google, mit Uszkoreit über die damalige Rolle seines Teams für Verarbeitung natürlicher Sprache gesprochen.
Als ich fragte: „Was würdest du tun, wenn du ein unbegrenztes Budget hättest?“, antwortete er einfach: „Haben wir schon.“
- Als ich PhD-Praktikant war, teilte ich mir ein Büro mit Uszkoreit, und ich fand es immer cool, dass er seine Promotion abgebrochen hatte.
- Gute Geschichte, aber Googles Höhepunkt lag wahrscheinlich etwa zehn Jahre früher. 2014 hatte der Abstieg bereits begonnen.
- Ich habe an Borg gearbeitet.
  Das Quota-System kann jederzeit greifen, sobald man an Grenzen stößt, und GPUs waren über mehrere Borg-Zellen verteilt, wodurch die Obergrenze beschränkt war. Deshalb wurde XBorg gebaut, damit Forscher alle Borg-Zellen global durchsuchen konnten. Die Investitionsausgaben für Rechenzentren liegen bei etwa 5 Milliarden Dollar pro Jahr, und Google macht jährlich Hunderte Milliarden Dollar Umsatz. Nach der unmöglichen Situation eines unbegrenzten Budgets zu fragen, ist ähnlich wie zu fragen: „Was würdest du nach deinem Tod tun?“ Wenn man tot ist, kann man buchstäblich gar nichts mehr tun. In diesem Kontext war es schwer zu verstehen, was „Haben wir schon“ bedeuten sollte; die direkte Reaktion auf die Annahme eines unbegrenzten Budgets war jedenfalls diese.
- Das waren interessante Zeiten. Schön, das nach langer Zeit wiederzusehen, und wenn ich daran denke, woran wir damals gearbeitet haben, ist es erstaunlich, wie weit die Technik gekommen ist.
„Realistischerweise hätte GPT-3 oder vielleicht sogar GPT-3.5 schon 2019, womöglich 2020, erscheinen können. Die große Frage ist nicht, ob sie es gesehen haben, sondern warum wir es sahen und trotzdem nichts taten. Die Antwort ist heikel.“
Die Antwort ist, dass Monopolunternehmen technologische Innovation unterdrücken. Ein bereits etabliertes, werbezentriertes Suchgeschäft hätte durch einen neu aufkommenden Chatbot Suchanzeigenumsätze verlieren können. Das ist ähnlich wie bei einem investorenfinanzierten Konsortium aus Stromversorger, Gaskraftwerk und Schiefergasproduzent. Würde der Bereich des Stromversorgers massenhaft Solarpanels installieren wollen und damit die Erdgasumsätze kappen, die er an das Versorgungsunternehmen verkauft? Natürlich nicht. Das ist ein guter Grund für eine Ma-Bell-artige kartellrechtliche Aufspaltung von Alphabet.
- Ein besseres Beispiel ist Kodak, das 1975 die erste Digitalkamera erfand und das Projekt dann einstampfte, weil es das Geschäft mit chemischem Film bedrohte.
- Ich kannte die Details dieser Sache. Sundar verhinderte, dass das NEMA-Team, das ein Produkt auf GPT-3-Niveau in Charakterform gebaut hatte, es auf der I/O vorstellte.
  Sundar hatte Angst vor der Technologie und der öffentlichen Reaktion und wollte sie begraben.
- Umgekehrt könnte gerade der Umstand, dass Alphabet GPT-3 oder GPT-3.5 nicht ausgerollt hat, die Möglichkeit geschaffen haben, dass es sich selbst disruptiert. Vielleicht sind kartellrechtliche Maßnahmen also gar nicht nötig.
- Ehrlich gesagt ist das einer der Gründe, warum ich glaube, dass Google in zehn Jahren kein dominantes Unternehmen mehr sein wird.
  Informationen im Web zu suchen hat viele nützliche Aufgaben gelöst, aber inzwischen erledigen ChatGPT, Claude usw. die meisten davon besser. Gemini gibt es zwar, aber kann Google den Verlust von Suchanzeigenumsätzen im bestehenden Produkt in Kauf nehmen und irgendwann mit Gemini Search Geld verdienen? Wie man Werbung in Interfaces für große Sprachmodelle einbaut, ist noch nicht gelöst. Google wirkt manchmal wie ein altmodischer Zeitungsverlag aus der Internetära. Auch das Web-Werbemodell brauchte Zeit, um sich zu etablieren.
Dass Google nicht das heutige OpenAI ist, ist schon ziemlich seltsam. Immerhin hatte man früh DeepMind und eine ganze Phalanx von promovierten Fachleuten
- Die Art, mit großen Sprachmodellen zu chatten, stört Googles Geschäftsmodell massiv, und es ist schwierig, daraus ein Produkt zu machen, ohne die Gans zu schlachten, die die goldenen Eier legt
- Letztlich sehe ich das als Beleg dafür, dass Timing alles ist
  Deep Learning war in den 2010ern noch dabei herauszufinden, wie man GPUs nutzt. Der Rechenumfang, der nach GPT-2 nötig wurde, wäre 2017/2018 kaum machbar gewesen. Selbst in Udacity-Kursen ging es darum, eine K80-GPU für ein paar Stunden zu nutzen. Erst um 2020 herum wurde es möglich, absurd viele Rechenressourcen einzusetzen, um die Skalierungshypothese zu testen. Dass der Aufstieg großer Sprachmodelle ebenso eine Geschichte des GPU-Fortschritts wie der Algorithmen ist, ist ein klarer Beleg für die bittere Lektion
- Es müsste genauer erklärt werden, was mit dem heutigen OpenAI gemeint ist. Google ist ein Billionen-Dollar-Unternehmen mit vielen Geschäftsbereichen, OpenAI ist ein Unternehmen, das Zugang zu großen generativen Modellen verkauft
- Um zu OpenAI zu werden, müsste Google ziemlich tief fallen
- Bevor Microsoft ins Spiel kam, gab es in der AI-Community bis zu einem gewissen Grad die unausgesprochene Regel, offen zusammenzuarbeiten, bestimmte Modelle aber nicht der Öffentlichkeit zugänglich zu machen
Dieses Gespräch zwischen Geoffrey Hinton und Fei-Fei Li behandelt einen großen Teil der relevanten Geschichte. Es dauert 1 Stunde und 50 Minuten
https://www.youtube.com/watch?v=QWWgr2rN45o
https://www.youtube.com/watch?v=E14IsFbAbpI
Es geht um Hintons Forschungslaufbahn und darum, warum er diese Richtung eingeschlagen hat, ebenso wie um Lis Arbeit an ImageNet
„Die Autoren waren nicht nur alle Google-Mitarbeiter, sondern arbeiteten auch im selben Büro“
Das wirkt wie subtile Werbung für die Rückkehr ins Büro. Eine Mischung aus persönlicher Zusammenarbeit und ungestörter, tiefer Konzentrationszeit ist vermutlich die beste Technologie für Innovation
- „Ungestörte, tiefe Konzentrationszeit“ ist in einem normalen Büro meist unmöglich
  Realistisch gesehen läuft es daher eher auf ein hybrides Modell hinaus, und vernünftige Leute sagen das auch alle
- Nachdem ich in den letzten zwei Jahren remote gearbeitet hatte und in einem neuen Team ins Büro zurückgekehrt bin, ist es tatsächlich lebensverändernd, wenn man Dinge schnell erledigen will
- So subtil ist es auch wieder nicht
- „Büro“ muss nicht unbedingt Open Office bedeuten
  Es gibt einen Grund, warum Akademiker eigene Büros mit Türen haben. Open Offices hasse ich wirklich, aber ein eigenes Büro in einem Gebäude mit anderen Leuten ist großartig
„Sechs der acht wurden außerhalb der USA geboren, und die anderen beiden sind jeweils das Kind deutscher Eltern mit Daueraufenthaltsstatus, die vorübergehend in Kalifornien waren, sowie ein Amerikaner der ersten Generation aus einer vor Verfolgung geflohenen Familie“
Ich finde, dass die USA vieles reparieren müssen, aber es gibt auf der Welt kein anderes Land, in dem so etwas möglich ist. Das ist einfach so
- Das ist schwer zu behaupten. Eher machen die USA selbst hochqualifizierten Arbeitsmigranten das Leben sehr schwer
  Es gibt viele Länder wie Singapur, Australien, Deutschland oder Kanada, in denen der Anteil im Ausland geborener Einwohner höher ist als in den USA. Als ich früher bei Google UK gearbeitet habe, bestand mein Team zu 100 % aus im Ausland geborenen Ingenieuren von allen Kontinenten
- Stimme zu. Aus meiner Erfahrung, in Asien, Europa und den USA gelebt oder gearbeitet zu haben, waren die Kollegenkreise immer in den USA am vielfältigsten
Es ist ziemlich cool, dass Google-Mitarbeiter die erste Transformer-Implementierung und die Reviewer-Kommentare in cs/ sehen können
So viele monumentale Momente der AI-Geschichte sind auf diese Weise im Google-Intranet archiviert
Eine auffällige Passage
„Sechs der acht wurden außerhalb der USA geboren, und die anderen beiden sind jeweils das Kind deutscher Eltern mit Daueraufenthaltsstatus, die vorübergehend in Kalifornien waren, sowie ein Amerikaner der ersten Generation aus einer vor Verfolgung geflohenen Familie“
- Noch interessanter ist, dass nur eine einzige Person davon einen Abschluss an einer US-Elite-Uni, Duke, gemacht hat
  Die übrigen haben ihre Undergraduate-Abschlüsse in Indien, der Ukraine, Deutschland und Kanada gemacht, und die University of Toronto hat eine Zulassungsquote von 43 %
- Gerade in den USA verstehe ich nicht, warum das auffallen sollte
  In einem Land wie China oder Japan, das Einwanderern weniger offen gegenübersteht als die USA, wäre es vielleicht eine interessante Beobachtung
- Stimmt. Das ist eine der tatsächlich bewundernswerten Eigenschaften der USA, besonders von California
  Einer der Gründe, warum California zu den größten Volkswirtschaften der Welt gehört, ist, dass es Menschen aus fast allen Regionen der Welt anzieht und aufnimmt

Die Google-Mitarbeiter, die den Transformer schufen

Der Umbruch durch „Attention Is All You Need“

Der Ausgangspunkt der Self-Attention-Idee

Zufällige Zugänge und die Bildung des „Transformer“-Teams

Rekordbrechende Experimente und Einreichung kurz vor Deadline

Google, OpenAI und der weitere Weg der acht Autoren

Verwandte Beiträge

1 Kommentare

Kommentare auf Hacker News