2 Punkte von GN⁺ 2023-08-27 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Artikel über die historische Bedeutung der 1989 von Yann LeCun und anderen veröffentlichten Arbeit "Backpropagation Applied to Handwritten Zip Code Recognition"; sie gilt als eines der frühesten praktischen Beispiele dafür, ein neuronales Netz mit Backpropagation Ende-zu-Ende zu trainieren.
  • Der Autor versuchte, die Arbeit mit modernen Tools wie PyTorch zu reproduzieren, und weist darauf hin, dass das ursprüngliche Netzwerk in Lisp mit dem Backpropagation-Simulator SN von Bottou und LeCun aus dem Jahr 1988 implementiert wurde, der später in Lush umbenannt wurde.
  • Das ursprüngliche Netzwerk wurde drei Tage lang auf einer SUN-4/260-Workstation trainiert, während die Reproduktion des Autors auf einer MacBook Air (M1) CPU etwa 90 Sekunden dauerte.
  • Der Autor experimentierte außerdem mit modernen Deep-Learning-Techniken wie dem Adam-Optimierer, Data Augmentation und Dropout sowie dem Ersetzen der tanh-Aktivierungsfunktion durch ReLU, wodurch sich die Fehlerrate um etwa 60 % verringerte.
  • Der Autor schlägt vor, dass sich durch eine Vergrößerung des Netzwerks oder des Datensatzes weitere Verbesserungen erzielen lassen, dies jedoch die Rechenkosten erhöht und zu Inferenzlatenz führen kann.
  • Mit einem Rückblick auf die Fortschritte des Deep Learning in den vergangenen 33 Jahren stellt der Autor fest, dass die grundlegenden Prinzipien gleich geblieben sind, während die Größenordnung von Datensätzen und Modellen stark zugenommen hat und die zum Trainieren von Modellen benötigte Zeit drastisch gesunken ist.
  • Der Autor spekuliert, dass neuronale Netze bis 2055 noch größer werden und die meisten Anwendungen dadurch erreicht werden, dass Teile eines Netzwerks leicht feinabgestimmt werden, durch Prompt Engineering oder indem Daten oder Modelle in kleinere, spezialisierte Inferenznetzwerke destilliert werden.

1 Kommentare

 
GN⁺ 2023-08-27
Hacker-News-Kommentare
  • Dieser Artikel erörtert die Entwicklung tiefer neuronaler Netze in den vergangenen 33 Jahren und präsentiert Vorhersagen für die nächsten 33 Jahre.
  • Das ursprüngliche Training dieses Netzes lief drei Tage lang auf einer Sun 4/260-Workstation und verbrauchte etwa 14.400 Wattstunden Energie. Heute kann dasselbe Training auf einem MacBook in nur 90 Sekunden durchgeführt werden und benötigt lediglich 0,5 Wattstunden, was einer fast 30.000-fachen Verbesserung der Energieeffizienz entspricht.
  • Einige Leser kritisieren die Vorhersagen des Artikels für 2055 als „meta-linear“ und argumentieren, dass sie noch immer eine „Worldline-Symmetrie“ widerspiegeln, die das heutige Datum als Ursprung nimmt. Sie meinen, dass der betrachtete Zeitraum groß genug ist, um viele unerwartete Durchbrüche und Hindernisse zu umfassen.
  • Es gibt eine Debatte darüber, ob es sinnvoll ist, in den nächsten 33 Jahren mit mehr Daten und mehr Rechenleistung einfach dasselbe weiterzutun, oder ob neue Ansätze erkundet werden sollten.
  • Einige Leser stellen die Skalierbarkeit des Computing in den nächsten 33 Jahren infrage, während andere meinen, dass es nicht in derselben Weise skalieren müsse wie in der Vergangenheit.
  • Der Artikel wird dafür gelobt, dass er die Grundlagen des Machine Learning direkt und einfach untersucht, im Gegensatz zu vielen Papers, die ihre Seiten mit Ergebnissen füllen, die mit neuen komplexen Architekturen schwer zu reproduzieren sind.
  • Leser weisen darauf hin, dass die grundlegendste Veränderung darin besteht, welche Modelle trainiert werden: weg von kleinen Bildern hin zur sprachlichen und visuellen Kommunikation der menschlichen Spezies.
  • Der Artikel weckt bei einigen Lesern Nostalgie, die den Aufstieg, Niedergang und die Wiedergeburt des Interesses an neuronalen Netzen miterlebt haben.
  • Einige Leser äußern Begeisterung über die Zukunft der Technologie, während andere ihre Sorge darüber ausdrücken, dass Menschen in einer von KI dominierten Welt bedeutungslos werden könnten.
  • Der Artikel zeigt, dass Fortschritte bei der Hardware eine wichtige Rolle in der Entwicklung von KI spielen, wobei einige Leser argumentieren, dass künftige Fortschritte möglicherweise nicht so dramatisch ausfallen werden.