Apple Intelligence für iPhone, iPad und Mac

(apple.com)

1 Punkte von GN⁺ 2024-06-11 | 1 Kommentare | Auf WhatsApp teilen

Apple hat Apple Intelligence vorgestellt: Es kombiniert generative Modelle mit persönlichem Kontext und bringt Sprach- und Bilderzeugung sowie das Ausführen von Aufgaben über Apps hinweg als grundlegende Erfahrung auf iPhone, iPad und Mac
In iOS 18, iPadOS 18 und macOS Sequoia sind Writing Tools, Priorisierung und Zusammenfassungen in Mail, Benachrichtigungszusammenfassungen sowie Funktionen zum Aufnehmen, Transkribieren und Zusammenfassen von Audio in Notes und Phone integriert
Der Bildbereich wird um Image Playground, Genmoji sowie Suche, Clean Up und Memories in Photos erweitert und ist in Apple-Apps sowie in Drittanbieter-Apps nutzbar, die die API übernehmen
Siri wird erweitert: Texteingabe, Bildschirmerkennung, Hunderte von Aktionen innerhalb und außerhalb von Apps, Antworten zur Gerätenutzung sowie die Verarbeitung von Anfragen auf Basis von On-Device-Informationen
Datenschutz basiert vor allem auf On-Device-Verarbeitung und Private Cloud Compute; ChatGPT wird nach Zustimmung des Nutzers in Siri und Writing Tools auf Basis von GPT-4o integriert, die Beta startet diesen Herbst auf US-Englisch

Grundstruktur von Apple Intelligence

Apple Intelligence ist ein persönliches Intelligenzsystem für iPhone, iPad und Mac, das die Fähigkeiten generativer Modelle mit dem persönlichen Kontext des Nutzers verbindet
Es ist tief in iOS 18, iPadOS 18 und macOS Sequoia integriert und nutzt Apple silicon für folgende Aufgaben
- Verstehen und Erzeugen von Sprache und Bildern
- Ausführen von Aufgaben über Apps hinweg
- Vereinfachen und Beschleunigen alltäglicher Aufgaben auf Grundlage des persönlichen Kontexts
Bei komplexeren Anfragen wird über Private Cloud Compute die benötigte Rechenkapazität zwischen On-Device-Verarbeitung und serverbasierten Modellen auf Apple-silicon-Servern angepasst

Sprachverständnis und Schreibwerkzeuge

Die systemweit verfügbaren Writing Tools gelten in iOS 18, iPadOS 18 und macOS Sequoia für nahezu alle Orte, an denen geschrieben wird, darunter Mail, Notes, Pages und Drittanbieter-Apps
Die Schreibhilfe konzentriert sich darauf, Entwürfe passend zu Zweck und Format des Textes zu überarbeiten
- Rewrite: schlägt mehrere Versionen eines geschriebenen Textes vor und passt den Ton an Zielgruppe und Aufgabe an
- Proofread: prüft Grammatik, Wortwahl und Satzstruktur und liefert Korrekturvorschläge samt Erklärungen
- Summarize: fasst ausgewählten Text als Absatz, zentrale Bulletpoints, Tabelle oder Liste zusammen
In Mail kommt Priority Messages hinzu, das dringende E-Mails oben im Posteingang anzeigt
- Zusammenfassungen lassen sich ansehen, ohne die E-Mail zu öffnen
- Bei langen Threads sind relevante Details mit einem Tippen sichtbar
- Smart Reply schlägt schnelle Antworten vor und hilft, Fragen in einer E-Mail zu erkennen und vollständig zu beantworten
Für Benachrichtigungen werden Priority Notifications und Zusammenfassungen eingesetzt, damit auf dem Sperrbildschirm weniger Informationen bewertet werden müssen
- Wichtige Benachrichtigungen werden oben im Stapel angezeigt
- Der Kern langer oder aufgelaufener Benachrichtigungen wird auf dem Sperrbildschirm angezeigt
- Der neue Focus Reduce Interruptions zeigt nur Benachrichtigungen an, die möglicherweise sofortige Aufmerksamkeit erfordern
In den Apps Notes und Phone lassen sich Audiodaten aufnehmen, transkribieren und zusammenfassen
- Wird während eines Telefonats eine Aufnahme gestartet, werden die Teilnehmenden automatisch benachrichtigt
- Nach dem Anruf fasst Apple Intelligence die wichtigsten Inhalte zusammen

Bilderzeugung und Ausdrucksfunktionen

Image Playground ist eine Funktion, mit der Nutzer in wenigen Sekunden Bilder erstellen können; sie bietet die drei Stile Animation, Illustration und Sketch
Die Funktion kann direkt in Apps wie Messages verwendet werden und ist auch als eigenständige App verfügbar
- Alle Bilder werden On-Device erzeugt
- Nutzer können Konzepte aus Kategorien wie Themen, Kleidung, Accessoires und Orten auswählen
- Durch Eingabe einer Beschreibung lässt sich ein Bild definieren
- Personen aus der eigenen Fotomediathek können in Bilder einbezogen werden
In Messages werden personalisierte Konzeptvorschläge angezeigt, die zur Unterhaltung passen
- In einem Gruppenchat zur Planung einer Wanderung werden beispielsweise Konzepte zu Freunden, Zielort und Aktivität vorgeschlagen
In Notes lässt sich Image Playground über Image Wand in der Werkzeugpalette des Apple Pencil nutzen
- Grobe Skizzen können in Bilder umgewandelt werden
- Wird ein leerer Bereich ausgewählt, kann anhand des umgebenden Kontexts ein Bild erzeugt werden
Image Playground ist auch in Keynote, Freeform und Pages verfügbar und kann zudem in Drittanbieter-Apps genutzt werden, die die neue Image Playground API übernehmen

Genmoji und Photos-Funktionen

Genmoji ist eine Funktion, mit der durch Eingabe einer Beschreibung neue emojiartige Bilder erstellt werden
- Nach Eingabe einer Beschreibung werden Genmoji und weitere Optionen angezeigt
- Auf Basis von Fotos lassen sich Genmoji von Freunden oder Familienmitgliedern erstellen
- Sie können inline in Nachrichten eingefügt oder als Sticker und Tapback-Reaktion geteilt werden
Die Suche in Photos unterstützt natürliche Sprache, um konkrete Szenen direkter zu finden
- Konkrete Fotosuchen wie „Maya skateboarding in a tie-dye shirt“ sind möglich
- Die Videosuche kann einen bestimmten Moment innerhalb eines Clips finden und direkt zum relevanten Abschnitt springen
Das neue Clean Up-Werkzeug erkennt und entfernt störende Elemente im Hintergrund von Fotos
- Es ist so gestaltet, dass das Motiv nicht versehentlich verändert wird
In Memories wählt Apple Intelligence nach Eingabe einer Beschreibung Fotos und Videos aus, erstellt eine Storyline mit themenbasierten Kapiteln und arrangiert sie zu einem Film
- Auch passende Songvorschläge aus Apple Music für diese Erinnerung werden angeboten
- Fotos und Videos der Nutzer bleiben privat auf dem Gerät und werden nicht mit Apple oder anderen geteilt

Änderungen bei Siri

Siri wird auf Basis von Apple Intelligence tiefer in das Systemerlebnis integriert
Das Sprachverständnis wird verbessert, sodass Siri auch folgen kann, wenn Nutzer sich versprechen, und den Kontext zwischen Anfragen beibehält
Nutzer können an Siri tippen und je nach Situation zwischen Text und Sprache wechseln
Wenn Siri aktiviert wird, erscheint ein neues Leuchteffekt-Design, das die Bildschirmränder umschließt
Siri kann auch Tausende von Fragen zur Nutzung von iPhone, iPad und Mac beantworten
- etwa E-Mails in der Mail-App planen
- oder Fragen wie das Umschalten von Light Mode auf Dark Mode bearbeiten
Über Bildschirmerkennung kann Siri Aktionen ausführen, die mit den Informationen auf dem aktuellen Bildschirm verbunden sind
- Eine neue Adresse aus Messages kann zu einer Kontaktkarte hinzugefügt werden
Siri führt Hunderte neuer Aktionen innerhalb und außerhalb von Apple- und Drittanbieter-Apps aus
- etwa einen bestimmten Artikel aus der Reading List öffnen
- oder Anfragen wie das Senden von Fotos vom Samstags-Barbecue an eine bestimmte Person bearbeiten
Siri verarbeitet auch personalisierte Anfragen auf Basis von On-Device-Informationen des Nutzers
- Ein empfohlener Podcast wird gefunden und abgespielt, auch wenn der Nutzer nicht mehr weiß, ob er ihn per Nachricht oder E-Mail gesehen hat
- Fluginformationen werden gefunden und mit Echtzeit-Flugtracking abgeglichen, um die Ankunftszeit mitzuteilen

Datenschutz und Private Cloud Compute

Apple Intelligence setzt auf eine Struktur, die persönlichen Kontext versteht und zugleich die Privatsphäre der Nutzer schützt
Viele Modelle laufen vollständig On-Device
Für komplexe Anfragen, die mehr Rechenleistung benötigen, wird Private Cloud Compute eingesetzt
- Größere Servermodelle laufen auf Apple-silicon-Servern
- Das System ist so ausgelegt, dass Daten weder gespeichert noch offengelegt werden
Unabhängige Experten können den Code prüfen, der auf Apple-silicon-Servern ausgeführt wird, um den Datenschutz zu verifizieren
Private Cloud Compute stellt kryptografisch sicher, dass iPhone, iPad und Mac nur mit Servern kommunizieren, die öffentlich protokollierte und überprüfbare Software ausführen

ChatGPT-Integration

Apple integriert den Zugriff auf ChatGPT in die Erfahrungen von iOS 18, iPadOS 18 und macOS Sequoia
Nutzer können die Fachkenntnisse sowie das Bild- und Dokumentenverständnis von ChatGPT nutzen, ohne zu einem separaten Tool wechseln zu müssen
Siri kann ChatGPT nutzen, wenn es hilfreich ist
- Bevor Fragen, Dokumente oder Fotos an ChatGPT gesendet werden, bittet Siri den Nutzer um Erlaubnis
- Nach Zustimmung zeigt Siri die Antwort direkt an
ChatGPT ist auch in den systemweiten Writing Tools verfügbar
- Über Compose können Inhalte während des Schreibens erzeugt werden
- Mit den Bildwerkzeugen von ChatGPT können Bilder in verschiedenen Stilen erstellt werden, um Texte zu ergänzen
Bei der Nutzung von ChatGPT sind Datenschutzvorkehrungen enthalten
- IP-Adressen werden verborgen
- OpenAI speichert Anfragen nicht
- Wenn Nutzer ihr Konto verbinden, gelten die Datennutzungsrichtlinien von ChatGPT
Die ChatGPT-Integration kommt später in diesem Jahr für iOS 18, iPadOS 18 und macOS Sequoia und basiert auf GPT-4o
- Der Zugriff ist kostenlos und ohne Kontoerstellung möglich
- ChatGPT-Abonnenten können ihr Konto verbinden und kostenpflichtige Funktionen nutzen

Zeitplan und unterstützte Geräte

Apple Intelligence wird Nutzern kostenlos angeboten
Die Beta erscheint diesen Herbst für iOS 18, iPadOS 18 und macOS Sequoia; die erste Sprache ist US-Englisch
Einige Funktionen, Softwareplattformen und zusätzliche Sprachen werden im Laufe des folgenden Jahres bereitgestellt
Unterstützte Geräte sind
- iPhone 15 Pro
- iPhone 15 Pro Max
- iPad und Mac mit M1 oder neuerem Chip
Siri und die Gerätesprache müssen auf US-Englisch eingestellt sein, damit die Funktion genutzt werden kann
Weitere Informationen gibt es unter apple.com/apple-intelligence

1 Kommentare

GN⁺ 2024-06-11

Hacker-News-Kommentare

Die heute von Apple gezeigten Funktionen für persönliche KI waren wirklich beeindruckend
Das zeigt, dass die wahre Stärke von Consumer-AI bei den Plattformbetreibern liegt, die den Großteil unseres digitalen Lebens bereits in der Hand haben – also Apple oder Google, sowie Microsoft im Arbeits- und Alltagsbereich
Die Art, wie Siri auf Basis des Kontexts aus E-Mails und Nachrichten Aufgaben wie Kalender, Reservierungen oder Flugbestätigungen erledigt, wirkt wirklich nützlich. Ich dachte zwar, dass solche persönlichen intelligenten Funktionen irgendwann kommen würden, aber nicht, dass Apple so entschlossen vorprescht, und der Effekt, Menschen ins Ökosystem zu ziehen, ist groß
Gut fand ich auch, dass Private Cloud, die ChatGPT-Integration, der Spielplatz für Bilderzeugung und sogar Genmoji mitgedacht wurden, und Craigs Aussage, dass das eine Funktion „für uns alle“ sein könne, wirkt plausibel. Allerdings liegt die Erzeugung von Bildern realer Personen zu nah am Uncanny Valley, sodass ich mich über so ein kaltes, lieblos wirkendes Geburtstagsbild wohl nicht freuen würde
- Das ist ein Vorteil daran, wie Apple mit Product Ownership umgeht, und steht im Kontrast zu Google oder Microsoft
  Die KI-Konvergenz wird organisatorische Schwächen wohl viel offener sichtbar machen als frühere technologische Umbrüche. Niemand will generative KI, die nur in Gmail funktioniert, und eine andere KI, die nur in Messages läuft; man will eine Plattformfunktion, die überall dort funktioniert, wo man Text schreibt
  Ich bin mir nicht sicher, ob Google oder Microsoft organisatorisch derzeit in der Lage sind, so etwas zu liefern
- Es ist noch viel zu früh für ein Urteil, und man sollte sich nicht zu leicht vom Marketing einfangen lassen
- Apple Intelligence dürfte ein großer Erfolg werden. iOS ist eindeutig die richtige Plattform, um gute User Experience mit KI zu verbinden, und durch das Andocken großer Sprachmodelle an Siri bekommt das Siri-Team die Chance, frühere Sünden schnell wiedergutzumachen
  Private Computing scheint ebenfalls sehr wichtig zu sein. Neben dem offensichtlichen Einsatzzweck, schwere Berechnungen auf Cloud-Servern zu verlagern, könnte es auch einen persönlichen Code-Interpreter ermöglichen – also echtes Scripting auf iOS – und langfristig den Weg dafür ebnen, Entwicklung auf iPadOS zu erlauben
  Wichtig ist auch, dass Apple eigene Chips auch in Servern einsetzt. Die richtige Frage ist nicht, ob es „genug“ ist, sondern was man auf Entwickler- und Hardware-Seite tun wird, um auf ein NVIDIA-Niveau zu kommen
  Die Leute scheinen dieses große Bild noch nicht zu verstehen, weil sie nur darauf schauen, ob Apple ins Rennen um State-of-the-Art-Modelle einsteigen muss. Jetzt verstehe ich auch die Schlagzeilen, dass Nadella sich wegen der Partnerschaft zwischen Apple und OpenAI Sorgen gemacht habe
- Vieles von dem Gezeigten war beeindruckend und wirkt, als würde damit das Versprechen eines persönlichen digitalen Assistenten, mit dem Personal-Computing-Geräte seit Jahrzehnten werben, tatsächlich eingelöst
  Die wichtigste Frage ist die Zuverlässigkeit. Funktioniert es jedes Mal richtig, oder besteht die Gefahr, dass Inhalte grob missverstanden werden und Nutzer, die darauf vertrauen, in peinliche Situationen geraten?
- Im Kontext der Verarbeitung außerhalb des Geräts sollte man auch im Blick behalten, dass Reichweite und Einfluss amerikanischer Überwachungsgesetze zuletzt ausgeweitet wurden
  https://www.theguardian.com/us-news/2024/apr/16/house-fisa-g...
Abgesehen von der Suche und den Siri-Verbesserungen bin ich mir nicht sicher, wie nützlich die generativen Funktionen sind, die Apple hier vorschlägt
Wenn man jemandem zum Geburtstag ein Bild schickt, an dem man eine Stunde gearbeitet hat, dann liegt ein großer Teil des wahrgenommenen Werts für die empfangende Person nicht nur in der Qualität des Bildes, sondern darin, dass man sich diese Mühe gemacht, Zeit investiert und ein einzigartiges Ergebnis nur für diese Person geschaffen hat. Ähnlich ist der Unterschied in der Zufriedenheit zwischen etwas Selbstgemachtem und etwas Gekauftem
Ein KI-Bild, das Tania in wenigen Sekunden erstellt, mag anfangs lustig sein, wird aber schnell zu Spam, der den Chat füllt, und scheint keinen Mehrwert zu bringen. Dasselbe gilt für eine Gutenachtgeschichte, in der das eigene Kind die Hauptfigur ist
In einer Welt, in der man alles haben kann, wird der Wert von allem zu 0
- Ich habe mit meinem Kind eine ziemlich ausgefeilte und detailreiche Story-Welt aufgebaut, mit einer immer gleichen Einleitung und bekannten Figuren
  Als ich gestern auf dem Weg war, um Burritos zu holen, habe ich gpt-4o die wichtigsten Punkte inklusive der kompletten Einleitung der Geschichte diktiert und es dann gebeten, auf Basis dieses Kontexts ein neues Abenteuer zu erzählen – und es hat das erstaunlich gut gemacht. Ich konnte die Reaktion meines Kindes im Rückspiegel sehen, und es hat nichts von dem kaputtgemacht, was wir schon aufgebaut hatten. Im Gegenteil: Es hat mir neue Ideen gegeben, die ich beim eigenen Erzählen nutzen kann
  Wenn man sich bei generativer KI ohne eigenen persönlichen oder kreativen Beitrag darauf verlässt, wird wahrscheinlich nichts Interessantes herauskommen; wenn man sie aber auf etwas setzt, das man selbst weiterentwickelt und aufgebaut hat, kann sie hervorragende Ergebnisse liefern
  In diesem Sinn wirkt generative KI wie ein weiteres Werkzeug, das man mit Übung immer besser nutzen kann – so, als hätte man nach Klavier und Orgel zusätzlich noch einen Synthesizer bekommen
- Dasselbe kann man über das Versenden einer Geburtstags-SMS im Vergleich zu einem handgeschriebenen Brief oder einer Karte sagen
  Schon heute hält einen nichts davon ab, eine handgeschriebene Karte zu schicken, und natürlich wird das dankbarer aufgenommen – aber auch über eine Nachricht freuen sich Menschen. Das gilt besonders, wenn man weit voneinander entfernt lebt oder keine sehr enge Beziehung hat
- Der Wert eines Geschenks hängt nicht nur vom investierten Aufwand oder Geld ab. Wenn man etwas Gutes ausgewählt hat, steckt auch im richtigen Auswählen ein Wert
  Je einfacher das Schenken selbst wird, desto wichtiger wird der Kontext
- Ich denke, dieselbe Logik gilt auch, wenn man eine Karte bei Hallmark kauft
- Als jemand, der von geliebten Menschen schon jeden Tag jede Menge „Guten Morgen“-Bildergrüße bekommen hat, kann ich dieses Gefühl definitiv nachvollziehen
  Ich finde es interessant, ob KI-Spam – insbesondere personalisierte Emojis und Sticker – wiederverwendet wird oder wie Einwegplastik einfach nur verstreut wird
Die Demo wirkte wie die Art von AI, die man sich vor dem Erscheinen von ChatGPT vorgestellt hatte: personalisiert, kontextbewusst und tief in das gesamte System integriert.
Auch die Erklärung gefiel, dass AI-Aufgaben, die Server benötigen, verarbeitet werden, während Anfragen dabei möglichst privat bleiben sollen. Wenn das auf Apple-Hardware läuft und die Server-Software auditierbar ist, dürfte das für solche Aufgaben nahezu optimal sein; Open Source wäre noch besser.
Die Demo, in der Siri anhand des E-Mail-Inhalts der Mutter den Kontext zu „Mama“ versteht, war genau die Art von Szene, die wir uns in der AI-Welt vorgestellt hatten. Die reine AI-Fähigkeit des Modells selbst dürfte mit der Zeit weitgehend zur Massenware werden; entscheidend ist nun, wie dieses Modell über Hardware und systemweite Integration genutzt wird.
Die tatsächliche Erfahrung nach der Veröffentlichung ist eine andere Frage, aber allein die Vision war beeindruckend, und Apple versteht erneut die User Experience. Die Bedeutung dieser Ankündigung könnte viel größer sein, als es auf den ersten Blick scheint, und besonders für ältere Menschen könnte sie das Computing einfacher machen.
- Wie gut diese Funktionen sind, weiß man erst, wenn sie in den Händen von Reviewern sind.
  Demos, in denen AI „alle möglichen Dinge tun kann“, lassen sich leicht beeindruckend gestalten, aber wenn sie im Alltag oft scheitern, endet das bei der heutigen Siri. Man sollte sich an diese Werbung von vor 12 Jahren erinnern: https://www.youtube.com/watch?v=sw1iwC7Zh24
  Vieles von dem, was damals versprochen wurde, würde man Siri auch heute noch nur ungern zuverlässig überlassen.
- Zu viele Leute scheinen anzunehmen, dass AI auch so gestaltet sein müsse, nur weil ChatGPT ein dialogorientiertes Interface hat. Das ist ähnlich, als würde man annehmen, Computer würden immer eine Kommandozeile bleiben.
  Apple hat für AI-Funktionen ziemlich gut grafische Oberflächen mit konkretem Zweck bereitgestellt, und es dürfte interessant sein zu sehen, wie das in Zukunft noch tiefer integriert wird.
- Funktionen nach dem Muster, dass Siri den Inhalt einer E-Mail der Mutter versteht, wirken ehrlich gesagt insgesamt viel zu unheimlich.
- Wenn diese Funktion so arbeitet wie in der Vorführung, wird sie die Menschen noch tiefer ins Ökosystem hineinziehen.
  Man wird wollen, dass sie das eigene Leben versteht, und alle Geräte müssen den eigenen Kontext mitbilden können, um auf Ereignisse oder verschiedene Fragen zu antworten; daraus könnte leicht der Gedanke entstehen: „Muss ich statt eines Chromecast ein Apple TV kaufen, damit Siri auch weiß, welches Programm ich gerade sehe?“
- Am Ende wird das wohl den Burggraben weiter vergrößern und den Plattform-Lock-in noch schmerzhafter machen, was mir nicht gefällt.
  Die iPhone-Preise steigen weiter, und hochleistungsfähige Rechenarbeit, nachdem man tief in dieses Ökosystem eingestiegen ist, könnte sich faktisch wie Ausbeutung anfühlen. Es würde nämlich fast unmöglich werden, die Apple-Welt wieder zu verlassen.
  Auch die Konkurrenz verfügt nicht über ein derart integriertes System, sodass es schwierig sein dürfte, alles auf demselben Niveau zu integrieren.
Aus Branding-Sicht ist es perfekt. Etwas, das wie der Firmenname „klein wirkt“, könnte Jahrzehnte später große Auswirkungen haben.
AI == Apple Intelligence funktioniert, und das abschließende „AI for the rest of us“ hat diesen Moment gut eingefangen und scheint anzudeuten, wohin Apple will.
Apple wird wohl Expertise darin aufbauen, eine enorme Größenordnung eher alltäglicher Nutzung zu bedienen: kreativ oder lustig erzeugte Bilder, Emoji, Textarbeit und Verbesserungen der Lebensqualität für weniger technische Nutzer. Selbst wenn Apple nicht an der absoluten Spitze jeder neuen AI-Technik steht und sie sofort in Nutzerfunktionen integriert, muss es für diese besondere Größenordnung doch nahe an derselben technologischen Spitze operieren.
Diese WWDC war beeindruckend, und ich fand es bemerkenswert, dass es keine Neuigkeiten zu Mac Studio, Mac Pro, M3 Ultra, M4 Ultra oder M3/M4 Extreme gab. Ich hatte erwartet, dass eigene M2 Ultra und Ähnliches für Cloud-Rechenkapazität genutzt würden; dass das tatsächlich erwähnt wurde, war interessant, und ich frage mich, ob dazu noch mehr Details kommen.
- Die größte Ankündigung war meiner Ansicht nach die Private-Compute-Cloud auf Basis von Apple Silicon. Apple baut intern Expertise auf, die auf NVIDIA zielt.
- Was Apple hier getan hat, ist clever, könnte aber auch Verwirrung stiften.
  Einerseits scheint Apple zu sagen: „Das gehört uns“, andererseits klebt man damit eine Marke darauf, die man nicht vollständig kontrolliert. Hoffentlich kürzen die Leute das nicht als ApI ab. Das würde nur die Suchergebnisse für API verschmutzen.
- Es fühlt sich an, als habe man ein paar Brotkrumen für künftige Hardware-Ankündigungen bekommen. Zum Beispiel könnte irgendwann etwas kommen wie: „Wir freuen uns, den leistungsstarken, modernen Prozessor M4 Ultra vorzustellen, den wir bereits in unserer privaten AI-Cloud einsetzen.“
- Dass man nicht einmal die Produktinitialen verwenden kann und auch nichts mehr gut suchbar ist, ist wirklich ein genialer Schachzug. Apple hat es wieder geschafft.
Ich bleibe skeptisch, bis ich es tatsächlich in Funktion sehe.
Einerseits hat Apple eine gute Bilanz bei Datenschutz und On-Device-Verarbeitung, andererseits war in dieser Präsentation zu vieles unklar. Es war nicht deutlich, nach welchen Kriterien etwas in der Cloud läuft, wie das persönliche Modell über mehrere Geräte hinweg genutzt wird, ob das bedeutet, dass es kurzzeitig in die Cloud verschoben wird, oder wie sich das im Gastmodus unterscheidet.
Selbst die Formulierung „OpenAI speichert keine Anfragen“ wirkte absichtlich undurchsichtig. Ich hatte eher auf einen Ansatz wie föderiertes Lernen gehofft, bei dem mehrere Apple-Geräte gemeinsam Anfragen verarbeiten, aber am Ende scheint Ockhams Rasiermesser gewonnen zu haben, also werde ich abwarten.
- Apple hat auch eine lange Vorgeschichte mit „Du hältst es falsch“. Ich erwarte keinen erstaunlichen AI-Assistenten, sondern eher etwas, das die Absicht des Nutzers gelegentlich richtig errät.
- Fairerweise war das eine Keynote; die Details werden in den Sessions offengelegt.
- Apple hat „gute Datenschutzbilanz“ so oft wiederholt, dass es dadurch zur Tatsache gemacht wurde.
- In den kommenden Monaten scheint noch viel Arbeit ausstehend zu sein, und manche Funktionen könnten sich verzögern.
  In der Beta wird man sehen, wie Apples Aussagen tatsächlich umgesetzt werden, aber ich werde mich von der Beta fernhalten. Das ist zwar etwas schade, doch im Moment arbeitet die Unklarheit zu Apples Gunsten. Weniger versprechen und mehr liefern ist besser, als zu viel zu versprechen und dann zu wenig zu liefern.
- Es sollte einen Mechanismus geben, mit dem Nutzer sehen können, welche Daten hochgeladen werden.
Wenn ich es richtig verstanden habe, gibt es drei Dinge: 1) KI auf dem Gerät, 2) KI unter Nutzung von Apple-Servern, 3) KI unter Nutzung von ChatGPT/OpenAI-Diensten oder künftig anderen Diensten
1. geht zu 2) über, wenn zusätzlicher Verarbeitungsbedarf festgestellt wird, und 3) scheint nur mit ausdrücklicher Zustimmung des Nutzers aufgerufen zu werden
  Wie unten angemerkt, sollen später auch andere Anbieter hinzukommen
- Ich sehe zwischen 2) und 3) praktisch keinen wirklichen Unterschied. Sobald die Daten das Gerät verlassen haben, sind sie bereits draußen, und man kann das weder rückgängig machen noch kontrollieren
- Die dritte Stufe soll später offenbar auch andere Modelle und Anbieter unterstützen
  Es wäre gut, wenn jeder Server mit einer einfachen Standard-API unterstützt würde, sodass man selbst gehostetes Llama 3 oder irgendetwas, das in den nächsten 6–12 Monaten erscheint, betreiben könnte
- 1. klang so, als sei es für nicht persönliche Anwendungsfälle gedacht. Im Grunde ist es eine Funktion im Stil einer Suchmaschine
    Also für Dinge wie das Nachschlagen von Sportstatistiken oder Informationen, Filmen und zugehörigen Infos
- Das Problem ist, dass Apple nicht erklärt hat, wann 1) zu 2) übergehen kann und ob man das vollständig und eindeutig abschalten kann
  Soweit ich weiß, könnte 1) auch zu 2) übergehen, wenn der Staat persönliche Daten anfordert oder Apples Werbemodell sensible Details zur Personalisierung benötigt
- So habe ich es auch verstanden. Ich hätte mir mehr Klarheit darüber gewünscht, wo genau die Grenze zwischen 1) und 2) liegt, aber sobald es tatsächlich in den Händen der Nutzer ist, werden YouTuber das sicher schnell gründlich auseinandernehmen
Wie ich schon in anderen Threads gesagt habe, stört es mich ziemlich, dass Bildgenerierung überhaupt enthalten ist und so viel Aufmerksamkeit bekommt
Wenn Menschen wichtigen Informationen ohne Quellenprüfung vertrauen, kann das zu schlechten Situationen führen, etwa bei Flügen, deshalb mache ich mir Sorgen um die Zuverlässigkeit
Trotzdem sind der Reifegrad der Funktionen und ihr tatsächlicher Nutzen interessant. Es ist vielleicht nicht das Auffälligste, aber das Gezeigte ist tatsächlich nützlich. Ich finde auch gut, dass ChatGPT optional ist, wenn Siri es für sinnvoll hält
Die größte Frage ist, ob man die Online-Komponenten abschalten kann und was passiert, wenn etwas nicht lokal verarbeitet werden kann. Aus der Erklärung, dass die Server denselben Chip verwenden, frage ich mich auch, ob das Modell lokal nicht laufen kann oder ob es am Kontext liegt
Es ist auch nicht klar, ob das auf Funktionsebene insgesamt oder nur bei einzelnen Anfragen gilt, und es könnte bedeuten, dass sich das Verhältnis zwischen lokaler und Cloud-Verarbeitung je nach Hardware im Lauf der Zeit unterscheiden wird
- Bei der Bildgenerierung scheint Image Playground drei Stile zu unterstützen: Animation, Illustration und Sketch
  Etwas fehlt offenbar. Fotorealistischer Stil ist nicht dabei
  Das scheint eine gute Entscheidung zu sein. Ich finde es zwar nicht besonders toll, alles mit noch mehr Memes und Emojis zu verniedlichen, aber wenigstens ist es eindeutig künstlich und auf „Spaß“ ausgerichtet. Kinder werden es mögen, und Erwachsene möglicherweise auch
  Es wird zwar immer noch Kontroversen geben, weil Leute sehr Unangemessenes erstellen können, aber das Risikoniveau sinkt
- Es scheint den Kontext zusammen mit der Herkunft der Informationen zu zeigen. Dinge wie Nachrichten, Ereignisse und andere Materialien
  So kann man schnell prüfen, ob die Antwort stimmt. Es ist eher semantische Suche, aber mit einer flexibleren textlichen Erklärung der Ergebnisse
- Ich halte es für sehr wahrscheinlich, dass sich das Niveau lokaler Verarbeitung und Cloud-Verarbeitung je nach Gerät mit der Zeit unterscheiden wird
  Apple hat Server aus der Not heraus als Zwischenlösung hinzugefügt, aber der ideale Zustand wäre wohl der Zeitpunkt, an dem alle verkauften Geräte lange genug alles lokal ausführen können und die Server abgeschaltet werden können
- Ich mache mir Sorgen über die praktisch unbegrenzte Fähigkeit von Jugendlichen, in den nächsten zwei Jahren unangemessene Bilder für die Schule zu erzeugen, während Apple noch versucht, Wege zur Kontrolle zu finden und Schutzmechanismen umgangen werden
- Apple hat diesen Umweg versteckt. Zuerst kommt es auf US-Englisch, danach im Laufe eines Jahres in andere Regionen
  Es könnte auch sein, dass das nie kommt. Große Sprachmodelle scheitern schnell, je weiter man sich von ressourcenstarken Sprachen entfernt
Das sieht wirklich großartig aus
Es hieß, das Modell könne auf private cloud compute auf Basis von Apple Silicon erweitert werden und das Gerät des Nutzers prüfe die Ausführung von „publicly verifiable software“, um Datenmissbrauch zu verhindern
Ich frage mich, ob der serverseitige Code Open Source wird. Falls ja, wäre das eine positive Überraschung. Ich bin gespannt, wie sich das weiterentwickelt
Wenn es wie beworben funktioniert, wäre das sofort ein Fall von „Shut up and take my money“. Siri scheint endlich zu dem zu werden, was es ursprünglich hätte sein sollen, und ich frage mich, ob sie das auf den Katalog der Shortcuts Actions aufsetzen, um den möglichen Aufgabenbereich von Anfang an zu erweitern
Auch die in Apple Photos und andere Teile des Systems integrierten Funktionen zur Bild- und Emoji-Generierung sehen wirklich großartig aus. Für Mac/iPad scheint M1 oder neuer nötig zu sein, beim iPhone ein 15 Pro
- Man muss nicht unbedingt ein neues Gerät kaufen. Es ist abwärtskompatibel mit A17 Pro sowie M1, M2, M3 und M4
  Die Dienstintegration scheint bestehende Modelle zu verwenden und die schon ursprünglich aus AppleScript stammenden APIs auf große Sprachmodelle oder Systeme aus der Stable-Diffusion-Familie zu erweitern. Allerdings scheint Apple M4 wegen Spielen und der Cloud-Offensive so schnell wie möglich vorantreiben zu wollen
- Für Interessierte: Es gibt tatsächlich eine ChatGPT-Integration
  Wenn das On-Device-Modell entscheidet: „Das kann ChatGPT besser beantworten“, fragt es den Nutzer, ob es verwendet werden soll. Der Beschreibung nach sah es so aus, als lasse sich die Struktur im Lauf der Zeit auch mit anderen Modellen bestücken
  Insbesondere ChatGPT 4o kann kostenlos genutzt werden, ohne ein OpenAI-Konto anzulegen
- Dieser Teil interessiert mich wirklich. Sie haben es als so etwas wie „ein großes Sprachmodell in der Cloud ausführen“ verpackt, aber für mich wirkt es eher so, als hätten sie den eigentlichen Kernpunkt versteckt
  Bedeutet das allgemein, dass der Client den auf dem Server laufenden Code kryptografisch verifizieren kann? Falls ja, wäre das auch außerhalb dieses Anwendungsfalls extrem interessant und nützlich
- Da die ChatGPT-Integration wie ein API-Aufruf aussieht, scheint das eine Orchestrierungsschicht zu sein, die auf Apple Silicon läuft
  Was genau in „private cloud compute“ berechnet wird, ist nicht klar
Der Teil, in dem gefragt wird: „Soll ich dafür ChatGPT verwenden?“, wirkt extrem unbeholfen und überhaupt nicht Apple-typisch
Ein abgedroschener Ausdruck, aber Steve Jobs würde sich wohl im Grab umdrehen. Ehrlich gesagt bin ich verwirrt, warum das nötig ist
Haben sie keine ausreichend konsistente Integration hinbekommen? Bedeutet das dann, dass der Rest nicht auf ChatGPT basiert? Was ist der Unterschied? Aus Nutzersicht ist das ziemlich verwirrend
- Ich denke, das war die klügste und realistischste Entscheidung in der gesamten Präsentation
  Bei On-Device-AI die Besten zu werden, ist eine riesige Marktchance. Alles selbst machen zu wollen, wäre so töricht, als Safari ohne Partnerschaft für die Google-Suchseite zu veröffentlichen
  Apple kann sich auf seine Stärken konzentrieren – On-Device-Verarbeitung und KI in die Nutzererfahrung über die gesamte Plattform hinweg einzubetten –, ohne den Datenschutz zu beeinträchtigen. Und für Bereiche, in denen Daten nach außen geschickt werden müssen, etwa für KI-Suchanfragen mit großen externen Serverfarmen und Internetzugang, kann man die Marktführer nutzen
- Aus Nutzersicht ist das zu 100 % klar
  Wenn das System nicht sagt: „Ich rufe einen Freund an, um eine Antwort zu bekommen“, dann bedeutet das, dass alles zu 100 % lokal bleibt oder schlimmstenfalls innerhalb von Apple Intelligence, wo es vollständig privat geprüft wird
  Wenn man nach einem Rezept für Bananenbrot fragt, ist es vielleicht okay, zu ChatGPT zu gehen, aber bei persönlicheren Informationen möglicherweise nicht
- Das ist eine klare Grenze zwischen „meine Daten bleiben auf meinem Gerät oder innerhalb des Apple-Ökosystems“ und „meine Daten verlassen Apple und gehen an Dritte“
- Der Kern von allem, was Apple angekündigt hat, ist Datenschutz. Die Aussage ist, dass die meisten Fragen lokal oder über das Private-Compute-System beantwortet werden
  Konkreter gesagt lautet die Antwort auf „Kann OpenAI meine persönlichen Daten oder Fragen sehen?“: „Solange du nicht erlaubst, mit OpenAI zu sprechen, wird alles auf dem iPhone oder in Private Compute verarbeitet.“
- Apple betont bei KI-Aufgaben die zentrale Bedeutung des Datenschutzes, und in dem Moment, in dem etwas an ChatGPT geht, wird dieser Ablauf unterbrochen
  Im Gegenteil: Wenn diese Bestätigungsabfrage den Ablauf nicht unterbrechen und nicht klar machen würde, wann Ergebnisse von ChatGPT geholt werden, hätte ich gezögert, die neuen KI-Funktionen zu nutzen
Das sieht wirklich großartig aus
Es wurde gesagt, dass sich das Modell auf private cloud compute auf Basis von Apple Silicon erweitern lässt und dass das Gerät des Nutzers die Ausführung von „publicly verifiable software“ überprüft, um Datenmissbrauch zu verhindern
Ich frage mich, ob der serverseitige Code Open Source wird. Falls ja, wäre das eine positiv überraschende Entwicklung. Ich bin gespannt, wie sich das weiterentwickelt
Wenn es so funktioniert wie beworben, wäre das sofort ein Fall von „Shut up and take my money“. Siri scheint endlich zu dem zu werden, was es immer hätte sein sollen, und ich frage mich auch, ob das auf dem Katalog der Shortcuts Actions aufsetzt, um den Umfang der von Anfang an möglichen Aufgaben zu erweitern
Die in Apple Photos und andere Systembereiche integrierten Funktionen zur Bild- und Emoji-Erzeugung sehen ebenfalls wirklich großartig aus. Bei Mac/iPad scheint M1 oder neuer nötig zu sein, beim iPhone das 15 Pro
- Sie sagten, der serverseitige Code werde nicht Open Source, aber unabhängigen Experten zur Prüfung bereitgestellt
- Apple hat klar gesagt, dass beim iPhone 15 Pro oder neuer erforderlich ist, ansonsten M1 oder neuer

Apple Intelligence für iPhone, iPad und Mac

Grundstruktur von Apple Intelligence

Sprachverständnis und Schreibwerkzeuge

Bilderzeugung und Ausdrucksfunktionen

Genmoji und Photos-Funktionen

Änderungen bei Siri

Datenschutz und Private Cloud Compute

ChatGPT-Integration

Zeitplan und unterstützte Geräte

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare