Vorstellung von Apples neuen On-Device- und serverbasierten Foundation-Modellen

(machinelearning.apple.com)

4 Punkte von GN⁺ 2024-06-11 | 1 Kommentare | Auf WhatsApp teilen

Auf der WWDC 2024 wurde Apple Intelligence vorgestellt, ein persönliches Intelligenzsystem, das tief in iOS 18, iPadOS 18 und macOS Sequoia integriert ist
Apple Intelligence besteht aus mehreren generativen Modellen, die auf die alltäglichen Aufgaben der Nutzer spezialisiert sind und sich sofort an die aktuelle Aktivität anpassen können
Die integrierten Foundation-Modelle wurden für Nutzererlebnisse feinabgestimmt wie das Schreiben/Verbessern von Dokumenten, das Zusammenfassen/Priorisieren von Mitteilungen, das Erzeugen unterhaltsamer Bilder für Gespräche und die Vereinfachung appübergreifender Interaktionen
Zwei Modelle – ein On-Device-Sprachmodell mit rund 3 Milliarden Parametern und ein größeres serverbasiertes Sprachmodell, das über Private Cloud Compute bereitgestellt wird – wurden entwickelt und eingesetzt, um spezialisierte Aufgaben effizient, präzise und verantwortungsvoll auszuführen
Sie sind Teil einer größeren von Apple entwickelten Familie generativer Modelle, darunter ein Coding-Modell zum Einbauen von Intelligenz in Xcode und Diffusionsmodelle, die in der Messages-App beim visuellen Ausdruck helfen

Fokus auf verantwortungsvolle KI-Entwicklung

Apple Intelligence wurde in jeder Phase entlang zentraler Werte entworfen und auf bahnbrechenden Datenschutzinnovationen aufgebaut
Apple hat Grundsätze für verantwortungsvolle KI festgelegt, die die Entwicklung von KI-Tools und der ihnen zugrunde liegenden Modelle leiten:
1. Nutzer mit intelligenten Tools stärken
2. Die Nutzer vertreten
3. Mit Bedacht entwerfen
4. Privatsphäre schützen
Diese Grundsätze spiegeln sich in der gesamten Architektur wider, die Apple Intelligence ermöglicht

Pre-Training

Die Foundation-Modelle wurden mit Apples AXLearn-Framework trainiert, das 2023 als Open Source veröffentlicht wurde
Es ist auf JAX und XLA aufgebaut und ermöglicht effizientes, skalierbares Training auf unterschiedlicher Hardware und verschiedenen Cloud-Plattformen
Es wird eine Kombination von Parallelisierungstechniken verwendet, die eine Skalierung des Trainings über verschiedene Dimensionen wie Daten, Modell und Sequenzlänge ermöglicht
Die Modelle werden mit lizenzierten und öffentlichen Daten trainiert. Web-Publisher können die Nutzung ihrer Daten steuern und der Verwendung von Webinhalten für das Training von Apple Intelligence widersprechen
Persönliche Daten oder Interaktionen von Nutzern werden niemals verwendet. Es kommen Filter zur Entfernung personenbezogener Daten, Filter für minderwertige Inhalte und modellbasierte Klassifikatoren zur Identifikation hochwertiger Dokumente zum Einsatz

Post-Training

Da sich zeigte, dass Datenqualität entscheidend für den Erfolg des Modells ist, wird eine hybride Datenstrategie genutzt
Es wurden ein Rejection-Sampling-Feintuning-Algorithmus mit einem Lehrerkomitee sowie ein RLHF-Algorithmus mit Mirror Descent Policy Optimization und einem Leave-One-Out-Advantage-Schätzer entwickelt
Mit diesen beiden Algorithmen wurde die Qualität der Befolgung von Anweisungen durch das Modell deutlich verbessert

Optimization

Zusätzlich zur Entwicklung leistungsfähiger generativer Modelle wurden verschiedene innovative Techniken eingesetzt, um Geschwindigkeit und Effizienz auf dem Gerät und in der privaten Cloud zu optimieren
Sowohl das On-Device-Modell als auch das Servermodell verwenden Grouped Query Attention
Zur Reduzierung des Speicherbedarfs und der Inferenzkosten werden gemeinsam genutzte Ein- und Ausgabe-Vokabular-Embedding-Tabellen verwendet
Das On-Device-Modell nutzt eine Vokabulargröße von 49K, das Servermodell eine Vokabulargröße von 100K einschließlich zusätzlicher Sprach- und technischer Tokens
Für die Inferenz auf dem Gerät wird Low-Bit-Palettization verwendet – es wurde ein neues LoRA-Adapter-Framework entwickelt, das eine gemischte 2-Bit- und 4-Bit-Konfigurationsstrategie integriert (durchschnittlich 3,5 Bit pro Gewicht), um dieselbe Genauigkeit wie beim unkomprimierten Modell zu erreichen
Mit dem Tool Talaria wird die Auswahl der Bitrate für jede Aufgabe besser gesteuert
Zudem werden Aktivierungs- und Embedding-Quantisierung genutzt und effiziente Verfahren zur Aktualisierung des KV-Cache entwickelt
Mit diesem Optimierungsbündel wurden auf dem iPhone 15 Pro eine Time-to-First-Token-Latenz von etwa 0,6 ms pro Prompt-Token und eine Generierungsrate von 30 Tokens pro Sekunde erreicht

Model Adaptation

Die Foundation-Modelle werden für die Alltagsaktivitäten der Nutzer feinabgestimmt und können sich dynamisch auf die jeweils ausgeführte Aufgabe spezialisieren
Zur Feinabstimmung für bestimmte Aufgaben werden Adapter genutzt, kleine neuronale Netzwerkmodule, die an verschiedene Schichten eines vortrainierten Modells angehängt werden können
Es werden nur die Adapter-Schichten feinabgestimmt, sodass die ursprünglichen Parameter des vortrainierten Basismodells unverändert bleiben, allgemeines Wissen erhalten bleibt und die Adapter-Schichten für die Unterstützung spezifischer Aufgaben angepasst werden

Performance and Evaluation

Der Fokus liegt auf generativen Modellen, die es Nutzern ermöglichen, über Apples Produkte hinweg zu kommunizieren, zu arbeiten, sich auszudrücken und Dinge zu erledigen
Beim Benchmarking der Modelle liegt der Schwerpunkt auf menschlichen Bewertungen, die sich als stark mit der Nutzererfahrung korrelierend erwiesen haben
Es wurden Leistungsbewertungen sowohl für funktionsspezifische Adapter als auch für die Foundation-Modelle durchgeführt

Beispiel für die Bewertung des Zusammenfassungs-Adapters:

Da sich die Produktanforderungen für E-Mail- und Mitteilungszusammenfassungen auf subtile, aber wichtige Weise unterscheiden, wurden LoRA-Adapter auf dem palettisierten Modell feinabgestimmt, um diese spezifischen Anforderungen zu erfüllen
Die Trainingsdaten basieren auf synthetischen Zusammenfassungen, die von einem größeren Servermodell erzeugt und mit einer Rejection-Sampling-Strategie gefiltert wurden, sodass nur hochwertige Zusammenfassungen erhalten blieben
Für die produktspezifische Zusammenfassungsbewertung wurden 750 Antwortsätze verwendet, die je Anwendungsfall sorgfältig ausgewählt wurden
Der Bewertungsdatensatz hebt die Vielfalt der Eingaben hervor, mit denen die Produktfunktion in der Produktion wahrscheinlich konfrontiert wird, darunter eine geschichtete Mischung aus einzelnen und gestapelten Dokumenten verschiedener Inhaltstypen und Längen
Es ist wichtig, die Leistung auf Datensätzen zu bewerten, die reale Anwendungsfälle als Produktfunktion repräsentieren
Es wurde festgestellt, dass das Modell mit Adaptern bessere Zusammenfassungen erzeugt als vergleichbare Modelle

Human Satisfaction Score on Summarization Feature Benchmark

Laut Datentabelle zeigt Apples On-Device-plus-Adapter-Modell bei E-Mail- und Mitteilungszusammenfassungen einen höheren Anteil guter Zufriedenheit und einen niedrigeren Anteil schlechter Zufriedenheit als das Phi-3-mini-Modell. Das Modell mit Adaptern erzeugt bessere Zusammenfassungen
Apples On-Device- und Servermodelle bewerten allgemeine Fähigkeiten anhand eines umfassenden Evaluationssatzes aus realen Prompts mit unterschiedlichem Schwierigkeitsgrad. Im Vergleich mit Open-Source- und kommerziellen Modellen ähnlicher Größe ergibt sich:
- Das On-Device-Modell (~3 Milliarden Parameter) zeigt bessere Leistung als größere Modelle wie Phi-3-mini, Mistral-7B und Gemma-7B
- Das Servermodell ist mit DBRX-Instruct, Mixtral-8x22B und GPT-3.5-Turbo konkurrenzfähig und zugleich sehr effizient
Um die Modellleistung in Bezug auf schädliche Inhalte, sensible Themen und Faktentreue zu testen, wurden verschiedene adversariale Prompt-Sets verwendet. Sowohl On-Device- als auch Servermodell sind gegenüber adversarialen Prompts robust und erreichen niedrigere Verstoßraten als Open-Source- und kommerzielle Modelle
Mit dem IFEval-Benchmark wurde die Fähigkeit zur Befolgung von Anweisungen mit Modellen ähnlicher Größe verglichen. Dabei zeigte sich, dass Apples On-Device- und Servermodelle detaillierte Anweisungen besser befolgen als Open-Source- und kommerzielle Modelle derselben Klasse
Die Schreibfähigkeiten der Modelle wurden außerdem mit internen Benchmarks für Zusammenfassung und Schreiben bewertet, die aus verschiedenen Schreibanweisungen bestehen

Writing Benchmarks

Laut Datentabelle zeigen Apples On-Device- und Servermodelle bei Zusammenfassung und Schreiben im Vergleich zu den Vergleichsmodellen eine konkurrenzfähige gute Leistung

Fazit

Die auf der WWDC24 vorgestellten Apple-Foundation-Modelle und Adapter bilden die Grundlage von Apple Intelligence, einem neuen persönlichen Intelligenzsystem, das tief in iPhone, iPad und Mac integriert ist und leistungsstarke Funktionen über Sprache, Bilder, Aktionen und persönlichen Kontext hinweg bietet
Sie wurden mit dem Ziel entwickelt, Nutzern bei alltäglichen Aktivitäten über Apples Produkte hinweg zu helfen, wurden in jeder Phase verantwortungsvoll entwickelt und von Apples zentralen Werten geleitet
Informationen zur breiteren Familie generativer Modelle, einschließlich Sprach-, Diffusions- und Coding-Modellen, sollen bald veröffentlicht werden

1 Kommentare

GN⁺ 2024-06-11

Hacker-News-Kommentar

Einsatz von Adaptern: Zur Feinabstimmung vortrainierter Modelle für spezifische Aufgaben werden Adapter verwendet, also kleine neuronale Netzwerkmodule, die in verschiedene Layer eingesteckt werden können. So können App-Entwickler für jedes Hardwaremodell optimierte Modelle nutzen.
Erwartung: Zwar gibt es noch keine Ankündigung zur Unterstützung von Training durch Dritte, aber es wird erwartet, dass dies geplant ist. Die Schwierigkeit bei lokalem + privatem ML besteht darin, zu vermeiden, dass jede App große Gewichtsmengen benötigt.
Apples Chance: Apple hat die Möglichkeit, für jeden Chip optimierte Modelle bereitzustellen und für neue Anwendungsfälle Adapter anzubieten, die nur wenige MB an Gewichten benötigen. Das ist vergleichbar mit App-Slimming bei Modellen.
Developer Experience: Selbst wenn das Basismodell nicht auf dem neuesten Stand ist, ist die Developer Experience hervorragend und gut reproduzierbar. Die Serverseite ist deutlich einfacher, und es wird erwartet, dass lokal + privat viele Anwendungsfälle abdecken wird.
Rolle der Adapter: Mit Adaptern lassen sich Modelle für bestimmte Aufgaben feinabstimmen, der Speicher effizient verwalten und die Reaktionsfähigkeit des Betriebssystems sicherstellen. Die Adapter-Parameter werden in 16 Bit dargestellt, und bei einem Modell mit etwa 300 Millionen Parametern werden rund 10 MB Speicher benötigt.
Ähnlich wie LoRAs: Dieser Ansatz klingt ähnlich wie LoRAs.
Vergleichsdiagramm: In der Mitte des Artikels gibt es ein Vergleichsdiagramm mit anderen verwandten Modellen. Das serverseitige Modell ist besser als GPT-3.5, aber schlechter als GPT-4. Besonders interessant ist jedoch das Diagramm zur „menschlichen Bewertung der Schädlichkeit von Ausgaben“.
Vorsicht des Modells: Das Modell wird vorsichtiger gemacht, indem GPT zu „Level 3“ gemacht wird und unter Nutzung des OpenAI-Modells klar kenntlich gemacht wird: „Das hat ChatGPT gesagt“.
Erwartung an das Servermodell: Der Inhalt dieser beiden Seiten ist sehr gut, und ich würde das Servermodell gerne ausprobieren, um eine für den Apple-Stack optimierte Cloud aufzubauen.
Erwartete Speichererhöhung: Es wird erwartet, dass Apple den Basisspeicher aller Macs auf mehr als 8 GB anhebt. Wünschenswert wäre, dass 16 GB beim M4 Standard werden, aber Apple könnte auch 12 GB anbieten und für die 16-GB-Option einen Aufpreis verlangen.
Datenschutz: Apple sollte klar machen, was an Dienste Dritter übermittelt wird, und eine Opt-out-Funktion anbieten, wenn Nutzer das möchten. Es macht einen Unterschied, ob Inferenz auf dem Gerät ausgeführt wird oder Daten über die API von OpenAI gesendet werden.
Vorliebe für den Domainnamen: Ich mag es, dass machinelearning.apple.com verwendet wird.
Ergebnis der Optimierung: 3.5B Gewichte ohne Qualitätsverlust zu nutzen, ist ein Optimierungsergebnis auf dem neuesten Stand der Technik.
Bewertung der Ausgabeschädlichkeit: Es wurde bestätigt, dass Mistral-7B unter den kleineren Modellen am besten darin ist, Zurückweisungen durch False Positives zu minimieren.
Auswirkung auf die Batterielaufzeit: Ich frage mich, wie sich solche Modelle auf die Batterielaufzeit auswirken. Als ich die PrivateLLM-App auf dem iPhone 15 Pro ausprobierte, sank der Akkustand nach nur wenigen Minuten Nutzung rapide.

Vorstellung von Apples neuen On-Device- und serverbasierten Foundation-Modellen

Fokus auf verantwortungsvolle KI-Entwicklung

Pre-Training

Post-Training

Optimization

Model Adaptation

Performance and Evaluation

Human Satisfaction Score on Summarization Feature Benchmark

Writing Benchmarks

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentar