Jeff Dean: Die neuesten Trends im Machine Learning [Video]

(youtube.com)

25 Punkte von GN⁺ 2024-02-21 | 3 Kommentare | Auf WhatsApp teilen

Jeff Dean (Google): Spannende Trends im Machine Learning

Spannende Trends und Erwartungen im Machine Learning

Machine Learning hat in den letzten Jahren unsere Erwartungen daran, was Computer leisten können, grundlegend verändert.
In allen Bereichen wie Sprache, Bilderkennung und Natural Language Processing haben Computer die Fähigkeit entwickelt, die Welt besser wahrzunehmen und zu verstehen.
Fortschritte bei Technologien, mit denen Computer sehen und wahrnehmen können, haben in nahezu allen Bereichen menschlicher Tätigkeit viele Chancen eröffnet.
Größere Rechenressourcen und Fortschritte bei spezialisierten Computern liefern bessere Ergebnisse und haben neue Möglichkeiten eröffnet.
Wir brauchen vielfältigere Formen von Hardware, die mit hoher Effizienz betrieben werden können, während wir den Aufgabenbereich dessen, was Computer leisten sollen, gezielter eingrenzen.

Fortschritte bei Spracherkennung, Übersetzung und Bildanalyse sowie höhere Vorhersagegenauigkeit

Die Spracherkennungstechnologie wandelt Audio-Wellenformen in bedeutungshaltige gesprochene Sprache über Zeiträume von fünf Sekunden um, und in diesem Bereich gab es große Fortschritte.
Die Übersetzungstechnologie entwickelt sich zu einer Funktion, mit der Computer beim Übersetzen von einer Sprache in eine andere erheblich helfen können.
Auch die Bildanalyse hat im Bereich Computer Vision große Fortschritte gemacht: Statt nur Labels zuzuordnen, werden Szenen inzwischen in kurze beschreibende Sätze umgewandelt.
Außerdem ist es in den letzten Jahren möglich geworden, diese Technologien auch in umgekehrter Richtung zu nutzen.
Bemerkenswert ist, dass sich die Leistung innerhalb von zehn Jahren auf ein Niveau verbessert hat, das die menschliche Genauigkeit übertrifft.

Die Bedeutung von Hardware-Skalierung zur Verbesserung der Qualität von AI-Modellen

Die Word Error Rate, ein repräsentativer Benchmark zur Messung der Genauigkeit von Spracherkennung, wurde deutlich von 13,25 % auf 2,5 % verbessert.
Dadurch hat sich die Nutzbarkeit stark erhöht, sodass das System inzwischen zuverlässig genug ist, um E-Mails zu diktieren oder gesprochene Texte mitzuschreiben.
Insbesondere das Scale-up der Hardware hilft dabei, die Modellqualität zu steigern, wofür auf Machine Learning optimierte Hardware erforderlich ist.
Ein Merkmal von Neural-Network-Modellen ist, dass selbst reduzierte Präzision problemlos eingesetzt werden kann, was effizienteres Modelltraining ermöglicht.
Außerdem bestehen die beim Modelltraining verwendeten Algorithmen aus verschiedenen Kombinationen linearer Algebra, weshalb Computer benötigt werden, die lineare Algebra mit reduzierter Präzision effizient verarbeiten können.

Fortschritte bei Computernetzwerken und Leidenschaft für Sprachmodelle

Die erste Generation war ein einfaches, aber hochbandbreitiges Netzwerk. Jeder Chip war in einem 2D-Gitter verbunden und in einem 16x6-Raster über Leitungen mit vier Nachbar-Chips verbunden.
Dadurch war kein Routing im Netzwerk nötig, und weil die Chips über kurze Distanzen verbunden waren, waren hohe Bandbreite und günstige Verbindungen möglich.
In der nächsten Generation wurde auf 1.024 Chips in 8 Racks skaliert, in der darauffolgenden auf 64 Racks mit jeweils 64 Chips.
Zuletzt erschien insbesondere die V5-Serie: Das V5P-Modell mit 256 Chips für verteilte Inferenz bietet mehr Speicher pro Chip, höhere Bandbreite und mehr Speicherbandbreite.
Dieses Modell liefert bei 16-Bit-Floating-Point-Leistung fast ein halbes Petaflop pro Chip; in XOR-Flops gerechnet lässt sich das auf etwa 9.000 Chips pro Chip ansetzen.
Einer der Bereiche, in denen sich am stärksten verändert hat, was Computer leisten können, ist Sprache. Es wurde über Fortschritte bei Bild- und Spracherkennung gesprochen, aber das Interesse an Sprachmodellen bestand bereits vor NN-Netzwerken. Deshalb wurde gemeinsam mit dem Google-Translate-Team an Sprachmodellen geforscht.

Aufbau eines hochwertigen Übersetzungssystems mit großen Datenmengen und einfacher Technik

Es wurde daran gearbeitet, ein für wissenschaftliche Wettbewerbe entwickeltes hochwertiges Übersetzungssystem auch in der Praxis einzusetzen.
Dafür wurde ein System aufgebaut, das auf Basis von 2 Billionen Tokens die Häufigkeit von 5-Wort-Sequenzen statistisch erfasst und 300 Milliarden eindeutige 5-Gramme im Speicher speichert.
Um fehlende Daten zu finden, wurde der neue Algorithmus stupid backoff entwickelt, der auf vorhergehende 4-Gramme, 3-Gramme usw. zurückgreift.
Daraus ergab sich die Erkenntnis, dass einfache Techniken in Kombination mit großen Datenmengen wirksame Ergebnisse liefern können.

Wörter als hochdimensionale Vektoren darstellen, um ähnliche Kontexte nahe und unterschiedliche Kontexte weit voneinander abzubilden

Statt Wörter diskret darzustellen, werden sie als hochdimensionale Vektoren repräsentiert, sodass Wörter in ähnlichen Kontexten nahe beieinander und Wörter in unterschiedlichen Kontexten weiter voneinander entfernt liegen.
Mithilfe großer Datenmengen werden im Trainingsprozess Wörter, die in ähnlichen Kontexten auftreten, näher zusammengebracht und solche aus unterschiedlichen Kontexten weiter getrennt, sodass ähnliche Wörter im Raum gemeinsam gruppiert werden.
Verteilte Repräsentationen kodieren viele Informationen in einem 100-dimensionalen Vektor, der ein Wort repräsentiert; auf dieser Grundlage wurde das Sprachübersetzungsmodell Sequence-to-Sequence Learning entwickelt.
Sequence-to-Sequence Learning nutzt neuronale Netze, verarbeitet Sätze nacheinander, aktualisiert die verteilten Repräsentationen der einzelnen Wörter und gibt daraus das Übersetzungsergebnis aus.

Modelle für natürliche Sprachübersetzung und Multi-Turn-Dialoge

Die Trainingsdaten enthalten englische Sätze zusammen mit den entsprechenden französischen Sätzen, und mit diesen Daten wird das Modell trainiert.
Ausgehend von einem eingegebenen englischen Satz wird ein Modell aufgebaut, das einen französischen Satz erzeugt.
Für Multi-Turn-Dialoge wird das Modell so trainiert, dass es auf Basis eines Kontexts aus vorherigen Interaktionen passende Antworten erzeugt.
Mit dem Transformer-Modell werden Eingaben parallel verarbeitet und gezielt auf einzelne Teile fokussiert, um die Übersetzungsgenauigkeit zu verbessern.
Heute können dank Fortschritten bei Algorithmen und Machine-Learning-Hardware größere Modelle trainiert und effizientere Antworten erzeugt werden.

Entwicklung eines dialogorientierten multimodalen Modells, das unterschiedliche Modalitäten ohne Trennung verarbeiten kann

Es wurde über die Fortschritte neuronaler dialogorientierter Modelle wie OpenAIs Mina, ChatGPT und Googles Bard gesprochen.
Auch die Veränderungen bei Sprachmodellen wurden erwähnt, darunter OpenAIs GPT2 und Googles T5. Diese Modelle wachsen stark in der Zahl ihrer Parameter.
Außerdem wurde die Weiterentwicklung des Transformers erwähnt, der als Grundlage für diese Arbeiten dient.
Es wurde über OpenAIs GPT3, GPT-4 und Googles Gemini-Projekt gesprochen. Das Gemini-Projekt zielt darauf ab, ein Modell zu entwickeln, das nicht nur Text, sondern auch Bilder, Audio und andere Modalitäten gleichzeitig verarbeiten kann.
Das Gemini-Projekt verarbeitet Text, Bilder, Video und Audio als eine einzige Sequenz und trainiert das Modell auf Basis des Transformers. Dadurch lässt sich eine konsistente Repräsentation über verschiedene Modalitäten hinweg aufbauen.

TensorFlow-Trainingsinfrastruktur, Gemini-Produkte in verschiedenen Größen und automatisches Recovery-System

TensorFlows Gemini wird in drei Größen angeboten: Ultra, Pro und Nano. Jedes Modell eignet sich für unterschiedliche Einsatzzwecke oder Umgebungen.
Gemini bietet ein hochgradig skalierbares Fabric für das Modelltraining sowie ein Hochleistungsnetzwerk und ein automatisches Recovery-System.
Um erkannte Failures zu minimieren, werden Upgrades in Multi-Node-Umgebungen gleichzeitig ausgeführt, Zustände anderer Kopien über ein Hochgeschwindigkeitsnetzwerk wiederhergestellt und die Recovery-Zeit auf wenige Sekunden reduziert.
Für das Modelltraining werden vielfältige Daten genutzt, darunter Webdokumente, Bücher, Code, Bilder, Audio und Video.
Die endgültige Zusammensetzung der Trainingsdaten wird durch Experimente mit kleineren Modellen und Leistungsbewertung festgelegt, wobei verschiedene Metriken genutzt werden, um die optimale Datenmischung zu finden.

Datenqualität ist wichtig und muss berücksichtigt werden. Sie ist wichtiger als die Modellarchitektur.

Gegen Ende des Trainings werden domänenspezifische Daten genutzt, um mehrsprachige Daten hinzuzufügen.
Hochwertige Daten machen einen großen Unterschied bei der Modellleistung.
Die Fähigkeit, automatisch ein Curriculum zu lernen, ist eines der Forschungsfelder der Zukunft.
Es wird auch daran geforscht, wie Fragen so gestellt werden können, dass das Modell effektiver antwortet, und wie sich seine Stärken bestmöglich ausschöpfen lassen.
Mit der Prompting-Technik Chain of Thought kann das Modell mehr Zwischenschritte berücksichtigen und genauere Antworten geben.

Ergebnisse der Modellevaluierung und Leistungsanalyse

Das Modell stellt als Beispiel einen Fall vor, in dem ein Schüler eine falsche Antwort hergeleitet hat, und zeigt auf, welche Teile korrigiert werden müssen.
Es wurden 32 akademische Benchmarks ausgewertet, und das Gemini-Ultra-Modell erzielte in 30 Benchmarks Ergebnisse, die die bisherigen Erwartungen übertrafen.
Das Modell berücksichtigt auch mehrsprachige Leistung und denkt über komplexe Trade-offs nach.
Es zeigte sich, dass dieses Modell beim Videoverständnis und bei multimodalen Fähigkeiten stark ist und in verschiedenen Benchmarks hervorragende Ergebnisse erzielt hat.

Das Gemini-Modell verfügt über hervorragende Spracherkennungsleistung und Mehrsprachigkeit und kann als Chatbot sogar programmieren

Das Gemini-Modell zeigte bei verschiedenen Spracherkennungsmetriken erstklassige Fehlerraten und verfügt auch über starke mehrsprachige Fähigkeiten.
Das Team hat bereits viel Aufwand in die Evaluierung des Modells und in das detaillierte Verständnis seiner Fähigkeiten investiert.
Besonders überraschend war, dass das Gemini-Modell auch nützliche Informationen und Programmcode liefern kann.
Außerdem verfügt es über Wissen zu TPUs und bietet laut Beschreibung eine hervorragende Effizienz und Leistungssteigerung.
Das Gemini-Modell kann unterschiedliche Chatbot-Persönlichkeiten annehmen; Bard hilft dabei als hilfreicher Freund bei Fragen, und dieses Modell soll auf der LMY-Website einen hohen ELO-Wert erreicht haben.

Einsatz von AI-Modellen und domänenspezifisches Training

Es gibt verschiedene Modelle, darunter kostenlose Dienste mit hohen Platzierungen und kostenpflichtige Dienste, die das nicht sind.
Gemini berechnet die „Anzahl der Unternehmen pro Million Einwohner“ für England, die USA, Südkorea, Taiwan und Singapur und stellt sie in Tabellenform dar.
Der Wert für England ist am höchsten; anschließend werden die USA, Südkorea, Taiwan und Singapur aufgeführt und interpretiert.
Jede Information wird aus verschiedenen Quellen gesammelt, und je nach genauer Definition können die tatsächlichen Zahlen leicht abweichen.
Wenn AI-Modelle nach Domänen trainiert werden, können für bestimmte Probleme spezialisierte Ergebnisse erzielt werden.

Eine kurze Erklärung zu generativen Modellen, die Bilder und Videos erzeugen

In diesem Video werden generative Modelle, die Bilder und Videos erzeugen, kurz erklärt.
Verwandte Forschungsprojekte sind Party und Imagine; dabei geht es darum, Modelle zur Erzeugung visueller Bilder zu bauen, die auf Basis von Texteingaben bestimmte Bilder generieren können.
Wenn beispielsweise eine Texteingabe verlangt, ein neues Bild zu erzeugen, interpretiert das Modell diese Eingabe und erstellt tatsächlich ein Bild.
Solche generativen Modelle erzeugen Bilder auf Grundlage textueller Repräsentationen von Pixeln zusammen mit Objektbeschreibungen.
Auf diese Weise können Bilder auf Basis des gewünschten Texts erzeugt werden.

Fortschritte bei Bildfunktionen bringen Smartphone-Nutzern mehr Komfort

Werden mehrere Bildanalysemodelle mit unterschiedlichen Parametern trainiert, unterscheiden sich die Ergebnisse je nach Größe.
Die Kamerafunktionen von Smartphones wurden durch die Kombination aus fotografischer Technik und Machine Learning weiter verbessert.
Funktionen wie Fotomodus, Nachtmodus, Farbakzentuierung und automatische Dialogantworten ermöglichen Echtzeit-Transformationen und Textextraktion.
Diese Funktionen berücksichtigen den Kontext des Nutzers und liefern Transformationen und Antworten, die beinahe wie nicht vorhandene Fähigkeiten wirken.
Sie bieten bahnbrechende Vorteile etwa bei klarer Bildübertragung und mehrsprachiger Übersetzung in Umgebungen mit begrenzter Literalität.

Einsatz von Machine-Learning-Technologien in Materialwissenschaft und Medizin

In der Materialwissenschaft wird Machine Learning eingesetzt und beeinflusst verschiedene Bereiche, etwa die schnelle Erstellung von Simulatoren.
Machine Learning hat großes Potenzial, mögliche Materialien zu untersuchen und Werkstoffe mit bestimmten Eigenschaften zu identifizieren.
Im medizinischen Bereich wird Machine Learning auch für die Diagnose medizinischer Bilder eingesetzt und kann etwa diabetische Retinopathie früh erkennen.
Durch die Analyse medizinischer Bildgebung können Patienten auch in Regionen mit Ärztemangel vorsortiert werden, und AI-Modelle können eine Wirksamkeit erreichen, die der von Fachärzten ähnelt.

Prinzipien für den Einsatz von Machine Learning und Verantwortung, während Machine Learning und Computer die Welt verändern

Mithilfe von GPUs werden schnelles Screening und dermatologische Diagnosen anhand von Fotos durchgeführt.
Es wurden Prinzipien für den Einsatz von Machine Learning vorgestellt, darunter der Abbau unfairer Verzerrungen, Interpretierbarkeit von Modellen, Datenschutz und gesellschaftlicher Nutzen.
Auch derzeit wird weiter zu Verzerrungen, Datenschutz und Sicherheit geforscht.
Es wird erwartet, dass durch Fortschritte bei Machine Learning und Computing natürliche Gespräche und Interaktionen mit Nutzern möglich werden und Computer Informationen in verschiedenen Formen verstehen und erzeugen können.
Gleichzeitig mit dem Potenzial dieser Technologien muss auch Verantwortung gegenüber der Gesellschaft übernommen werden.

Über aufkommende Fragen die Bedeutung von Daten und Kundenanforderungen diskutieren

Aus den über Slido eingegangenen Fragen werden einige mit erkennbaren Tendenzen ausgewählt und geteilt.
Im Datenbereich können hochwertige Daten und Modellkapazität die Leistung eines Modells verbessern.
Gleichzeitig müssen jedoch Datenqualität und Modellgröße berücksichtigt werden. Daten niedriger Qualität können sich negativ auf Fähigkeiten wie das Lösen mathematischer Probleme auswirken.
Training mit großen Mengen an Videodaten hat bislang noch nicht in ausreichendem Maß stattgefunden; außerdem dürfte sich das Verstehen der Welt über visuelle und sprachliche Daten ebenso wie über Sprachdaten allein unterscheiden.
Insgesamt sind die Datenquellen noch nicht erschöpft, und es gibt weiteres Entwicklungspotenzial.

Sind multimodale Modelle leistungsfähiger als gezielte Modelle für einzelne Domänen?

In manchen Fällen können multimodale Modelle leistungsfähiger sein.
Mit zunehmender Zahl der Modalitäten steigt tendenziell auch die Leistung in anderen Modalitäten.
Wenn für ein eng umrissenes Problem ein gezielter Datensatz gesammelt wird, kann die Leistung für dieses Problem höher ausfallen.
Bei komplexen Problemen oder wenn spezialisierte Daten schwer zu sammeln sind, werden jedoch Modelle benötigt, die über vielfältiges Wissen verfügen.
Für Einzelpersonen mit begrenzten Ressourcen ist das Training großer Modelle schwierig, weshalb sich im Bereich Machine Learning viele unterschiedliche Forschungsthemen erkunden lassen.

Forschung an Modellen mit GPUs und Betonung der Bedeutung verschiedener Datenmodalitäten

Mit einer einzelnen GPU oder wenigen GPUs lassen sich Forschungen zu Datenqualitätsbewertung, automatischer Evaluierung, Online-Curriculum-Learning und Optimierungsmethoden durchführen.
Die Transformer-Forschung wurde auf 8 GPUs durchgeführt. Auch LLMs und Sequence-to-Sequence-Modelle wurden mit 8 GPUs erforscht.
Es wurden Fragen dazu aufgeworfen, ob LLMs und Transformer wirklich alles sind und welche Rolle die Forschung an anderen Modellen im Bereich Machine Learning spielt.
Besorgniserregend ist, dass möglicherweise andere Ideen ausgeschlossen werden, weil sie noch nicht konkret genug ausgearbeitet oder weniger gründlich erforscht sind und deshalb keine beachtenswerten Fortschritte erzielen.
Es wird als wichtig angesehen, verschiedene Modalitäten zu behandeln, also nicht nur visuelle, Audio- und Sprachdaten, sondern auch andere Modalitäten wie Herzschlagsensordaten in der Medizin.

3 Kommentare

everfrost314 2024-02-21

Die Hälfte dreht sich wohl um Gemini, haha.

xguru 2024-02-21

Der Videoinhalt wurde von Lilys.AI zusammengefasst.

https://lilys.ai/digest/297050/…

iyeti 2024-02-21

Danke … xguru hatte es bereits erstellt, daher konnte ich das Ergebnis in nur einer Sekunde sehen … ^^

Jeff Dean: Die neuesten Trends im Machine Learning [Video]

Verwandte Beiträge

3 Kommentare