Ein Nutzer hatte das Gefühl, in dem Vortrag nichts Neues oder Nützliches zu finden. Er hielt den Inhalt für religiös angehaucht und leer
Positiv bewertet wurde, dass Ilya den Vortrag mit einem Foto von Quoc Le begann. Quoc Le war Hauptautor einer Arbeit aus dem Jahr 2012 zur Skalierung neuronaler Netze, die bei diesem Nutzer das Interesse an Deep Learning geweckt hatte
Ilyas Aussagen wurden als bescheiden und auf früherer öffentlicher Forschung aufbauend eingeschätzt, zugleich aber auch als Ausdruck eines derzeit großen Projekts und großer Vorstellungskraft
Ilyas Aussage „Reasoning ist unvorhersehbarer“ wurde als wichtig angesehen. Es wurde argumentiert, dass nützliches Reasoning seinem Wesen nach unvorhersehbar sei
Es wurde die Frage aufgeworfen, warum Pipeline-Parallelisierung eine schlechte Idee gewesen sei
Der Vortrag wurde als in vielen Teilen mit unnötigem Inhalt überfrachtet empfunden. Erwähnt wurden eine Zusammenfassung der letzten zehn Jahre, die Grenzen von Scaling Laws, Agents, synthetische Daten und Verbesserungen bei der Rechenleistung
Es wurde hervorgehoben, dass Sutskever sagte: „Pretraining wird enden.“ Aufgrund von Datenlimits werde sich die Art verändern, wie Modelle trainiert werden
Als alternative Daten für das Training anstelle von Internetdaten wurden kuratierte synthetische Datensätze vorgeschlagen. Es wurde erklärt, dass der Einsatz großer proprietärer Datensätze wegen Urheberrechtsfragen eingeschränkt sei, sich rechtliche Probleme aber lösen ließen, wenn die Eigentümer sie selbst verwenden
Der DeepMind-Podcast wurde als thematisch ähnlich zu diesem Vortrag, aber interessanter bewertet
Positiv bewertet wurde der Vergleich von Internetdaten mit einer endlichen Ressource. Es wurde argumentiert, dass man die Grenzen dieser Ressource erkennen und damit umgehen müsse
Es wurde angemerkt, dass der Vergleich der „Neuronen“ in Transformern mit echten biologischen Neuronen erstaunlich sei. Echte Neuronen umfassen komplexe biochemische Prozesse, während Transformer einfache lineare Schichten und Nichtlinearitäten verwenden
Es wurde erwähnt, dass ein LLM mit Gemini Flash 8B das ursprüngliche YouTube-Transkript überarbeitet hat
1 Kommentare
Hacker-News-Kommentare
Ein Nutzer hatte das Gefühl, in dem Vortrag nichts Neues oder Nützliches zu finden. Er hielt den Inhalt für religiös angehaucht und leer
Positiv bewertet wurde, dass Ilya den Vortrag mit einem Foto von Quoc Le begann. Quoc Le war Hauptautor einer Arbeit aus dem Jahr 2012 zur Skalierung neuronaler Netze, die bei diesem Nutzer das Interesse an Deep Learning geweckt hatte
Ilyas Aussagen wurden als bescheiden und auf früherer öffentlicher Forschung aufbauend eingeschätzt, zugleich aber auch als Ausdruck eines derzeit großen Projekts und großer Vorstellungskraft
Ilyas Aussage „Reasoning ist unvorhersehbarer“ wurde als wichtig angesehen. Es wurde argumentiert, dass nützliches Reasoning seinem Wesen nach unvorhersehbar sei
Es wurde die Frage aufgeworfen, warum Pipeline-Parallelisierung eine schlechte Idee gewesen sei
Der Vortrag wurde als in vielen Teilen mit unnötigem Inhalt überfrachtet empfunden. Erwähnt wurden eine Zusammenfassung der letzten zehn Jahre, die Grenzen von Scaling Laws, Agents, synthetische Daten und Verbesserungen bei der Rechenleistung
Es wurde hervorgehoben, dass Sutskever sagte: „Pretraining wird enden.“ Aufgrund von Datenlimits werde sich die Art verändern, wie Modelle trainiert werden
Als alternative Daten für das Training anstelle von Internetdaten wurden kuratierte synthetische Datensätze vorgeschlagen. Es wurde erklärt, dass der Einsatz großer proprietärer Datensätze wegen Urheberrechtsfragen eingeschränkt sei, sich rechtliche Probleme aber lösen ließen, wenn die Eigentümer sie selbst verwenden
Der DeepMind-Podcast wurde als thematisch ähnlich zu diesem Vortrag, aber interessanter bewertet
Positiv bewertet wurde der Vergleich von Internetdaten mit einer endlichen Ressource. Es wurde argumentiert, dass man die Grenzen dieser Ressource erkennen und damit umgehen müsse
Es wurde angemerkt, dass der Vergleich der „Neuronen“ in Transformern mit echten biologischen Neuronen erstaunlich sei. Echte Neuronen umfassen komplexe biochemische Prozesse, während Transformer einfache lineare Schichten und Nichtlinearitäten verwenden
Es wurde erwähnt, dass ein LLM mit Gemini Flash 8B das ursprüngliche YouTube-Transkript überarbeitet hat