Ilya Sutskevers NeurIPS-Vortrag: 10 Jahre Rückblick auf seq2seq [Video]

(youtube.com)

1 Punkte von GN⁺ 2024-12-15 | 1 Kommentare | Auf WhatsApp teilen

Ilya Sutskever blickt zehn Jahre später auf Sequence to Sequence Learning with Neural Networks von der NeurIPS 2014 zurück und fasst den Ausgangspunkt des heutigen Large-Language-Model-Trends als autoregressive Textmodelle, große neuronale Netze und große Datensätze zusammen
Die kühne Annahme damals war, dass ein neuronales Netz, wenn es das nächste Token gut genug vorhersagt, die korrekte Verteilung einer Sequenz erfassen kann, und wandte dies auf das Übersetzungsproblem an
Die Implementierung basierte auf LSTM und einem Pipeline-Ansatz über 8 GPUs und erreichte eine 3,5-fache Beschleunigung, auch wenn Pipeline aus heutiger Sicht keine gute Wahl gewesen sei
Das Pretraining-Zeitalter mit GPT-2, GPT-3 und den Scaling Laws müsse wegen der Grenzen der Internetdaten zwangsläufig enden; seiner Ansicht nach haben wir bereits Peak Data erreicht
Die nächste Phase führt zu Agenten, synthetischen Daten, Compute zur Inferenzzeit und frühen Beispielen wie o1; langfristig könnten qualitativ andere Systeme entstehen, die stärker schlussfolgern und sogar Selbstbewusstsein besitzen

Rückblick auf das seq2seq-Paper von 2014 nach zehn Jahren

Sequence to Sequence Learning with Neural Networks, vorgestellt auf der NeurIPS 2014 in Montreal, wurde zehn Jahre später zum Gegenstand einer Rückschau
Sutskever dankt den damaligen Co-Autoren und Mitwirkenden und prüft beim erneuten Blick auf die Präsentationsfolien von vor zehn Jahren, was richtig war und was weniger zutraf
Der Kern des Papers lässt sich auf drei Punkte verdichten
- auf Text trainierte autoregressive Modelle
- große neuronale Netze
- große Datensätze

Die zentralen Ideen und die Umsetzung damals

Die Präsentation von 2014 enthielt die Deep Learning Hypothesis
- die Annahme, dass ein großes neuronales Netz mit 10 Schichten Dinge leisten kann, die Menschen in weniger als einer Sekunde tun können
- die Begründung lag in der Vorstellung, dass künstliche Neuronen biologischen Neuronen in gewissem Maß ähneln und reale Neuronen langsam sind
- da damals trainierbare neuronale Netze etwa 10 Schichten tief waren, konzentrierte man sich auf „Dinge, die Menschen sehr schnell tun können“
Ein weiterer Kernpunkt war die Idee, dass ein autoregressives Modell, wenn es das nächste Token gut genug vorhersagt, die exakte Verteilung der folgenden Sequenz erfasst
- es war zwar nicht das allererste autoregressive neuronale Netz, wurde aber als frühes Beispiel vorgestellt, das stark an die Möglichkeit glaubte, mit gutem Training das gewünschte Ergebnis zu erreichen
- die Aufgabe damals war Übersetzung, was heute bescheiden wirken mag, damals aber ein sehr kühnes Ziel war
Für die Implementierung wurde LSTM verwendet
- Sutskever beschreibt LSTM als die Struktur, die Deep-Learning-Forscher vor den Transformern verwendeten
- er vergleicht LSTM mit einem „um 90 Grad gedrehten ResNet“ und meint, dass es bereits die Integrator- und Multiplikationsstruktur besaß, die heute als residual stream bezeichnet wird
Die Parallelisierung des Trainings erfolgte als Pipeline, bei der pro GPU eine Schicht platziert wurde
- mit 8 GPUs wurde eine 3,5-fache Beschleunigung erzielt
- aus heutiger Sicht sei Pipeline nicht klug gewesen, damals ging man aber so vor

Skalierung, Konnektionismus und das Zeitalter des Pretrainings

Die Schlussfolie von 2014 kann als Beginn der Scaling Hypothesis gesehen werden
- sie enthielt die Idee, dass Erfolg garantiert ist, wenn man sehr große Datensätze und sehr große neuronale Netze trainiert
- Sutskever meint, wohlwollend betrachtet habe sich die Entwicklung tatsächlich so entfaltet
Als langlebigere Idee nennt er den Konnektionismus
- wenn man glaubt, dass künstliche Neuronen biologischen Neuronen bis zu einem gewissen Grad ähneln, gibt das das Vertrauen, neuronale Netze so zu gestalten, dass sie fast alles leisten können, was Menschen tun, auch ohne auf die Größe des menschlichen Gehirns skaliert zu werden
- zugleich könne das menschliche Gehirn sich selbst rekonfigurieren, und aktuelle Lernalgorithmen benötigten so viele Datenpunkte wie es Parameter gebe; in dieser Hinsicht sei der Mensch weiterhin überlegen
Dieser Strom führte in das Zeitalter des Pretrainings
- GPT-2, GPT-3 und die Scaling Laws werden als repräsentative Beispiele genannt
- der frühere Mitstreiter Radford, Kaplan und Dario Amodei hätten dazu beigetragen, diese Richtung praktisch funktionsfähig zu machen
- der Fortschritt der Gegenwart sei davon angetrieben worden, riesige neuronale Netze mit riesigen Datensätzen zu trainieren

Die Richtung nach dem Pretraining

Sutskever ist der Ansicht, dass Pretraining zwangsläufig enden wird
- Hardware, Algorithmen und Cluster können den Compute weiter steigern
- Daten hängen von einem einzigen Internet ab, und es gibt nur ein Internet
- Daten seien wie fossile Brennstoffe für KI, und da wir bereits Peak Data erreicht hätten, müsse man mit den vorhandenen Daten arbeiten
Für die Zeit nach dem Pretraining werden mehrere Richtungen genannt
- Agenten: ein Konzept, das häufig als zukünftige Richtung genannt wird
- synthetische Daten: schon die Frage, was genau damit gemeint ist, sei eine große Herausforderung
- Compute zur Inferenzzeit: eine Richtung, die sich zuletzt im Modell o1 deutlicher zeigt
Als biologisches Beispiel behandelt er die Beziehung zwischen Körpergröße und Gehirngröße bei Säugetieren
- Säugetiere und nichtmenschliche Primaten zeigen eine ähnliche Beziehung, Hominiden dagegen eine andere Steigung im Skalierungsexponenten von Gehirn- zu Körpergröße
- dieser Unterschied zeigt sich in einem Diagramm, dessen x- und y-Achse logarithmisch skaliert sind
- auch in der Biologie gebe es Präzedenzfälle dafür, eine andere Art der Skalierung zu finden, und seiner Ansicht nach ist KI bislang das erste Objekt, bei dem wir gelernt haben, wie man überhaupt erstmals skaliert

Superintelligenz, Schlussfolgern und qualitativ andere Systeme

Langfristig bewegt sich dieses Feld auf Superintelligenz zu
- heutige Sprachmodelle und Chatbots sind erstaunlich, zugleich aber auf seltsame Weise wenig verlässlich und manchmal verwirrt
- in Evaluierungen zeigen sie mitunter dramatisch übermenschliche Leistungen, weshalb sich diese beiden Seiten schwer miteinander vereinbaren lassen
Zukünftige Systeme könnten sich qualitativ von den heutigen unterscheiden
- sie würden im eigentlichen Sinn agentisch werden
- die heutigen Systeme seien noch keine Agenten auf sinnvollem Niveau, sondern nur ein sehr schwacher Anfang
- sie würden Schlussfolgerungsfähigkeit besitzen, mit begrenzten Daten verstehen und nicht verwirrt werden
Schlussfolgern erhöht die Unvorhersehbarkeit
- bisheriges Deep Learning war eher eine Replikation menschlicher Intuition, also von Verarbeitung wie einer Reaktion in 0,1 Sekunden, und deshalb gut vorhersagbar
- ein schlussfolgerndes System wird umso unvorhersehbarer, je mehr es schlussfolgert
- als Beispiel nennt er starke Schach-KI, die selbst für die besten menschlichen Schachspieler unvorhersehbar ist
Selbstbewusstsein gehört ebenfalls zu den Möglichkeiten
- das eigene Selbst ist Teil des Weltmodells, daher könne self-awareness nützlich sein
- zusammengenommen könnten diese Elemente zu Systemen führen, deren Eigenschaften und Fähigkeiten sich grundlegend von heutigen Systemen unterscheiden
- die Probleme solcher Systeme könnten sich stark von den Problemen unterscheiden, an die wir heute gewöhnt sind, und die Zukunft sei tatsächlich schwer vorherzusagen

Streitpunkte aus der Fragerunde

Zur biologisch inspirierten KI antwortet er, dass sie es wert sei, verfolgt zu werden, wenn jemand konkrete Einsichten habe
- die bisher erfolgreiche biologische Inspiration sei auf dem sehr begrenzten Niveau „Lasst uns Neuronen verwenden“ geblieben
- detailliertere biologische Inspiration war schwer zu gewinnen, könnte aber mit besonderen Einsichten nützlich sein
Auf die Frage, ob Reasoning-Modelle Halluzinationen selbst korrigieren können, antwortet er, dass die Wahrscheinlichkeit sehr hoch sei
- langfristig stimmt er der Richtung zu, dass Modelle durch Schlussfolgern das Entstehen von Halluzinationen verstehen und korrigieren können
- er schließt nicht aus, dass so etwas bereits bei einigen frühen Reasoning-Modellen geschieht
- dies als autocorrect zu bezeichnen, halte er allerdings für eine Unterschätzung der Größenordnung
Zu KI-Rechten, Koexistenz und Anreizstrukturen vermeidet er eine eindeutige Antwort
- wenn KI mit Menschen koexistiert und Rechte will, könnte das kein schlechtes Ergebnis sein
- die Lage sei jedoch sehr unvorhersehbar, weshalb er sich damit nicht sicher festlegen wolle
Auf die Frage, ob LLMs Multi-Hop-Reasoning außerhalb der Verteilung generalisieren, meint er, dass sich das nicht einfach mit Ja oder Nein beantworten lässt
- schon was „innerhalb der Verteilung“ und „außerhalb der Verteilung“ bedeutet, sei selbst Teil des Problems
- in der Zeit der statistischen maschinellen Übersetzung galt alles, was nicht wortgleich mit dem Datensatz war, als Generalisierung; heute diskutiert man bei der Ähnlichkeit zwischen Mathematikwettbewerbsaufgaben und Internetdiskussionen darüber, ob es Memorierung oder Generalisierung ist
- die Maßstäbe für Generalisierung seien stark gestiegen; Menschen generalisieren zwar besser, aber auch LLMs generalisieren in gewissem Maß außerhalb der Verteilung

1 Kommentare

GN⁺ 2024-12-15

Hacker-News-Kommentare

Dieser Vortrag wirkte ziemlich inhaltsleer.
Soweit ich mich mit müdem Kopf erinnere, war die Quintessenz eine Zusammenfassung der letzten zehn Jahre, die Aussage, dass wir fast alle verfügbaren Daten aufgebraucht haben und uns den Grenzen der Skalierungsgesetze nähern, sowie die Vermutung, dass die nächsten Schritte Agenten, synthetische Daten und bessere Rechenverfahren sein könnten.
Ansonsten war es fast eine Wiederholung des Vergleichs zwischen künstlichen und biologischen neuronalen Netzen, mit Dingen wie der positiven Korrelation zwischen Körpergewicht und Gehirnmasse, aber eine klare Argumentation war schwer zu erkennen.
Bei den Fragen ging es darum, ob das Modell Halluzinationen selbst erkennen kann, eine Krypto-Frage und etwas halbwegs Interessantes zu Multi-Hop-Reasoning.
- Ich war vor Ort, und dafür braucht man Kontext. Er war für die Vortragsreihe test of time eingeladen, daher erklärt sich der lange historische Teil.
  Ilyas Neigungen und ihr Bezug zu AI scheinen in die lockeren Spekulationen am Ende überzugehen.
  Er möchte offenbar über ziemlich spekulative Themen der fernen Zukunft sprechen, sichert sich aber ab mit Formulierungen wie „ich sage nicht wann oder wie, aber es wird passieren“, was Widerrede erschwert.
  Diese Art zieht leicht seltsame Leute an, wie die abschließende Krypto-Frage gezeigt hat, und der Vortrag direkt davor über den Einfluss von GANs blieb beim Thema der Session.
- Der Kern war wohl: „Wir können nicht länger erwarten, dass die Fähigkeiten einfach weiter steigen, wenn wir Modelle mit mehr Dimensionen auf größere Internet-Dumps trainieren.“
  Das ist nur ein Satz, aber ziemlich wichtig, und auch wenn viele es schon wussten, bekommt es als gemeinsame Einschätzung Gewicht, weil Sutskever es selbst gesagt hat.
  Der Rest war praktisch nur Einleitung und Schluss.
- Überraschend, dass niemand das Video mit einem LLM zusammengefasst und mit Warnhinweis als Kommentar gepostet hat.
- Selbst ein noch so brillantes Gehirn kann vermutlich nicht auf Abruf jedes Mal etwas Tiefsinniges liefern.
- Die Fragen wirkten wie ein großes Warnsignal. Es waren lose Fragen zu Krypto, Menschenrechten für AI und einer Art „Autokorrektur“ für AI, und selbst wenn Leute, die auf Konferenzen Fragen stellen, ohnehin oft ein spezieller Schlag sind, bekommt man das Gefühl, dass es im aktuellen AI-Bereich zu viele Teilnehmer mit Betrüger-Vibe gibt und sie die echte Forschung überdecken könnten.
  Die meisten grundlegenden Mitwirkenden sind bereits Millionäre mit komfortablen Verträgen, und Institute sowie Fakultäten haben viel Geld für AI-Forschungsthemen eingeworben.
  In den nächsten zehn Jahren kann man zwar Geld für synthetische Daten, Agenten und dafür ausgeben, dass auf automatisch erzeugten Bildern keine Brüste auftauchen, aber ich rechne nicht mit vielen grundlegenden Fortschritten.
  /remindme 10 years
Der zentrale Punkt war, dass Sutskever sagte, Pretraining in der Form, wie wir es kennen, werde zweifellos enden, und dass wir den „Peak Data“ erreicht hätten und es nicht mehr davon gebe.
Es fiel auch die Metapher, dass das Internet wie Öl ein endlicher Rohstoff sei, weil von Menschen erzeugte Inhalte endlich sind.
Wenn das so ist, was wird dann Internetdaten ersetzen? Kuratierte synthetische Datensätze?
Es gibt riesige proprietäre Datensätze, die wegen Copyright-Sorgen nicht gern fürs Training genutzt werden, aber wenn man diese Daten tatsächlich besitzt, werden die rechtlichen Probleme deutlich kleiner.
Getty hat zum Beispiel eine riesige Bildbibliothek; wenn jemand anderes damit trainiert, drohen Klagen, aber wenn Getty seine eigene AI damit trainiert, ist das etwas anderes.
Ähnlich wäre es, wenn News Corp AI mit Verlagsbeständen wie dem Wall Street Journal oder HarperCollins trainiert.
- Ich denke, dass Firmen wie Meta oder Google Zugang zu zusätzlichen Daten hatten; also selbst wenn nicht für alle Daten im Überfluss da waren, hatten sie für sich genug, sodass die Forschung zur Nutzung synthetischer Daten weniger weit vorangetrieben wurde.
  Früher habe ich beim Training eines Objektdetektors Blender-3D-Modelle, Parametertuning-Skripte und bestehende Machine-Learning-Modelle verwendet, um Kamerakalibrierung und Ausrichtung von Overlays zu schätzen, und das funktionierte sehr gut bei der Erkennung realer Objekte.
  Ich kenne auch Leute, die mit Game Engines ähnlich Fahrzeuge trainieren.
  Es gibt überraschende taktische Details, die die Genauigkeit stark erhöhen, etwa dass irrelevante Elemente wie die Oberflächentextur von 3D-Modellen im Trainingssatz sauber randomisiert werden müssen.
  Wenn man Objekte beim Training mit zufälligen Fraktalmustern versieht, wird der Objektdetektor robuster gegenüber Störungen in realen Umgebungen.
- Wenn man ein LLM bauen will, das Landesrecht auf US-Bundesstaatsebene sehr gut interpretiert, könnte man auch so herangehen: alle Gesetze und regulatorischen Materialien eines bestimmten Bundesstaats herunterladen und es darauf trainieren, das Niveau der Top 5 % unter juristischen Fachkräften und Anwälten zu erreichen.
  In diesem Fall braucht man das „Internet“ nicht mehr unbedingt.
  Man braucht nur einen ausreichend großen und qualitativ hochwertigen domänenspezifischen Datensatz, und das Ergebnis könnte schon beängstigend sein.
  Das „Landesrecht“-LLM ist nur ein Beispiel; die Logik führt dazu, dass man in jedem Bereich mit Bedarf an domänenspezifischen Experten entsprechend trainieren könnte.
- Ich glaube nicht, dass uns die Trainingsdaten wirklich unmittelbar ausgehen. Was wir brauchen, ist Wissen, nicht unbedingt auch noch das Verhaltensmuster des jeweiligen Textes.
  LLMs rufen Dinge, die langjährige Internetnutzer kennen, wie berühmte, nie berichtete Memes, nicht besonders gut ab.
  Wenn man sie dazu bringen könnte, sich daran zu erinnern, ohne Daten wie von 4chan zu imitieren, wäre ihre Nutzung fürs Training vielleicht nicht völlig sinnlos.
  Wie wäre es mit Filmskripten, Songtexten, Untertiteln bekannter YouTube-Videos oder sogar Fernsehsendungen?
- Menschen brauchen nicht Billionen von Tokens, um zu schlussfolgern oder zu wissen, was sie wissen.
  Ein Teil kommt aus der Evolution, aber ich denke, Dinge wie grundlegende Sprachfähigkeit und basale Weltmodellierung, also der evolutionsbedingte Teil, haben wir mit Internetdaten bereits einigermaßen getroffen.
  Das aktuelle Pretraining verwendet weit mehr Daten als Menschen, und so wie man nicht alle Getty-Bilder sehen muss, um zeichnen zu können, wird das auch für Modelle mit Selbstbewusstsein oder Selbstverbesserung gelten.
  Um in irgendeinem Bereich Expertenniveau zu erreichen, ist es weder bei Internetdaten noch bei irgendeiner anderen Art von Daten die Lösung, einfach nur Next-Token-Prediction zu trainieren.
- Branchen wie Pharma und Energieexploration fallen auf. Dort sind Datensilos selbst der Kern des Wettbewerbsvorteils.
  Es gibt keinen Grund, Datensätze zu öffnen und damit die Wettbewerbsbedingungen anzugleichen; wenn man sie geschlossen hält, kann man potenzielle Entdeckungen monopolisieren.
  Offene Daten sind das Fundament des Internets, aber manche Industrien beruhen darauf, Entdeckungen über Jahrzehnte streng geheim zu halten.
Ich fand es schön, dass Ilya den Vortrag mit einem Foto von Quoc Le begann, der 2012 die Arbeit zum Scaling von neuronalen Netzen leitete.
Diese Arbeit war damals für mich der Auslöser, überhaupt in Deep Learning einzusteigen.
Seine Kommentare sind vergleichsweise bescheiden und stützen sich auf veröffentlichte Vorarbeiten, aber es ist klar, dass er jetzt Großes macht und eine große Vorstellungskraft hat.
Die Katze ist jetzt wohl aus dem Sack, und die Zukunft der KI wird vermutlich von einer neuen Generation von Führungspersonen geprägt werden; man kann nur hoffen, dass sie humanitär eingestellt sind.
- Man sollte hoffen, dass sie so humanitär wie möglich sind, aber man darf trotzdem nicht vergessen, dass sie immer noch Menschen sind.
- Ich halte es für buchstäblich nahezu 0, dass die neue Generation von KI-Führungskräften humanitär eingestellt sein wird.
Seine Formulierung „Je mehr Inferenz, desto unvorhersehbarer“ ist meiner Meinung nach eine extrem zurückhaltende Aussage.
Inferenz sollte man in gewissem Sinne fast als gleichbedeutend mit Unvorhersehbarkeit betrachten, und genauer gesagt ist nützliche Inferenz per Definition unvorhersehbar.
Dieses Framing ist bei Problemen wie Alignment wichtig.
- Ich würde eher das Gegenteil vermuten. Das Wort „irrational“ wird oft auch im Sinn von launisch, unvorhersehbar und gefährlich verwendet.
  Vernunft gilt als sehr vorhersehbar, und von zwei Personen, die anhand derselben Fakten rational schlussfolgern, würde man ähnliche Schlussfolgerungen erwarten.
  Was Ilya sagen will, scheint eher zu sein, dass ein sehr kluger Mensch für einen weniger klugen Menschen „unvorhersehbar“ wirken kann.
  Nicht die Vernunft selbst ist unvorhersehbar, sondern ausreichend schnelle und qualitativ hochwertige Inferenz kann zu Schlussfolgerungen führen, die im Nachhinein sinnvoll erscheinen, aber die niemand vorher erwartet hätte.
- Das wichtige Wort hier ist „unvorhersehbar“, nicht „überraschend“, „nicht verifizierbar“ oder „unvernünftig“.
  In diesem Vortrag ist Vorhersage mit der Intuition verbunden, die ein Mensch in 0,1 Sekunden bildet.
  Ein starkes Reasoning-Modell muss definitionsgemäß zu Antworten gelangen, die nicht intuitiv sind. Wären sie intuitiv, wäre man ohne lange Inferenzkette viel schneller zur selben Antwort gekommen.
  „Reasoning“ ist hier nicht dasselbe wie ein Beweis im mathematischen Sinn. In der Mathematik kann selbst eine intuitive Schlussfolgerung einen sehr speziellen Beweis erfordern.
- Ich glaube, das Beispiel mit der Schach-KI war nicht das passendste.
  Ein menschlicher Spieler kann nicht so viele Züge im Voraus berechnen wie eine KI und kann deshalb manche Züge schwer verstehen, aber man kann trotzdem fast sicher sein, dass die Schach-KI unter denselben Regeln dasselbe Ziel optimiert.
  Bei Reasoning-Modellen ist Alignment nicht gegeben.
  Sie könnten unter völlig anderen Regeln und Kostenfunktionen schlussfolgern, und bei offeneren Fragen ist es schwer zu sagen, ob ein Output, den Menschen nicht verstehen, ein genialer Einfall oder nicht-aligniertes Denken ist.
- Wenn man die Zeitkomplexität betrachtet, eine Lösung zu finden versus sie zu verifizieren, stimmt das nicht unbedingt.
- Bist du sicher, dass er das wirklich so gemeint hat? Vielleicht meinte er, dass der Prozess, mehr Inferenz aus dem Modell herauszuholen, unvorhersehbar ist, nicht dass Inferenz selbst unvorhersehbar ist.
Die Folge mit Oriol Vinyals im DeepMind-Podcast diese Woche war zu ähnlichen Themen, nämlich dem aktuellen Stand von LLMs und dem weiteren Weg des Lernens, deutlich interessanter als dieser Vortrag: https://pca.st/episode/0f68afd5-2b2b-4ce9-964f-38193b7e8dd3
Die Öl-Analogie passt wirklich gut. Es läuft letztlich darauf hinaus, dass es angeblich völlig lohnend sei, noch ein paar Seen zum Kochen zu bringen und austrocknen zu lassen, damit Mr Worldcoin und Konsorten ihr Nettovermögen um weitere 3 Cent steigern können.
- Die Öl-Analogie verstehe ich, aber diesen Sprung nicht. Welche Seen sollen denn kochen?
Es überrascht mich, dass einige prominente Praktiker im Machine Learning die „Neuronen“ in Transformern noch immer mit echten biologischen Neuronen vergleichen.
Echte Neuronen beruhen auf Spikes, Ionengradienten, komplexen dendritischen Strukturen und synaptischer Plastizität, die von ausgefeilten biochemischen Prozessen bestimmt wird.
Das sind alles Dinge, die in den einfachen, differenzierbaren linearen Schichten und punktweisen Nichtlinearitäten von Transformern nicht vorkommen.
Ich frage mich, ob es vertrauenswürdige Neurowissenschaftler oder Biologen gibt, die diesen Vergleich stützen, oder ob es sich nur um eine Analogie handelt, die aus Gewohnheit in der Machine-Learning-Community fortlebt.
- Man muss sich daran erinnern, was es vor 2012 gab: SVMs, Random Forests und Ähnliches, und das sah dem Gehirn überhaupt nicht ähnlich.
  Neuronale Netze sind alt, aber 2012 war der Beginn der Deep-Learning-Revolution.
  Nach diesem Maßstab sind Gehirn und neuronale Netze beide eine Art Konnektionismus mit ähnlichen Eigenschaften, und es ergibt durchaus Sinn, sie miteinander zu vergleichen und sich vom einen für das andere inspirieren zu lassen.
- Man muss nicht jedes Atom eines Planeten simulieren, um seine Umlaufbahn vorherzusagen.
  Mathematische Neuronen können selbst dann eine ähnliche Funktion wie echte Neuronen haben, wenn sie völlig anders arbeiten.
- Ist das wirklich so viel anders, als eine Datenstruktur mit Eltern- und Kindknoten einen Baum zu nennen?
- Wenn ich mir die Antworten ansehe, scheint die einfache Antwort auf diese Frage eher „nein“ zu sein.
  Ich würde auch gern wissen, ob es einmal einen ernsthaften Vergleich gab, und würde ihn dann gern lesen.
- Ich will nicht verteidigen, dass der Vortrag nicht ausreichend eingeschränkt formuliert war, aber ich denke, das alte Sprichwort „Alle Modelle sind falsch, aber manche sind nützlich“ trifft hier zu.
Vieles an Wissen über die Welt ist sozusagen nur durch empirische Experimente zugänglich, und Rechenleistung kann praktisch nur dabei helfen, diese Experimente effizienter zu machen.
Für manche Eingriffe muss man tatsächlich randomisierte kontrollierte Studien durchführen, und dafür braucht man reale Zeit und reale Atome.
Der gesamte Vortrag ist interessant: https://www.youtube.com/watch?v=YD-9NG1Ke5Y
- Bei der Folie zum Verhältnis von Körpergewicht und Gehirngewicht betonte er die Scaling-Unterschiede innerhalb der menschlichen Linie.
  Interessant war aber, dass dieselbe Folie an derselben Stelle auch eine harte Obergrenze für nichtmenschliche Linien zeigte, worauf er nicht einging.
Es gibt ein mit LLM korrigiertes Transkript. Für die ursprünglichen YouTube-Untertitel wurde Gemini Flash 8B verwendet: https://www.appblit.com/scribe?v=YD-9NG1Ke5Y#0
- Ich frage mich, wie verhindert wurde, dass Gemini mit der Zeit den Text einfach verschluckt.
  Die Korrektur von Audio-Transkripten war bisher in jedem LLM ein Bereich, in dem man ohne Aufteilung in höchstens ein oder zwei Seiten kaum gute Ergebnisse bekam.
  Mich würde interessieren, ob dafür vielleicht ein separates Tool verwendet wurde.

Ilya Sutskevers NeurIPS-Vortrag: 10 Jahre Rückblick auf seq2seq [Video]

Rückblick auf das seq2seq-Paper von 2014 nach zehn Jahren

Die zentralen Ideen und die Umsetzung damals

Skalierung, Konnektionismus und das Zeitalter des Pretrainings

Die Richtung nach dem Pretraining

Superintelligenz, Schlussfolgern und qualitativ andere Systeme

Streitpunkte aus der Fragerunde

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare