Alles, was auf der Google I/O 2024 angekündigt wurde

xguru · 2024-05-15T08:34:19+09:00

Ankündigung des Modells Gemini 1.5 Flash Ein neues multimodales Modell, das so leistungsfähig wie Gemini 1.5 Pro ist, aber für eng umrissene, häufige und latenzarme Aufgaben optimiert wurde Besser geeignet für die schnelle Generierung von Antworten Auch die Übersetzungs-, Schlussfolgerungs- und Coding-Fähigkeiten von Gemini 1.5 wurden verbessert Das Kontextfenster von Gemini 1.5 Pro (die Menge an Informationen, die es aufnehmen kann) wurde von 1 Million auf 2 Millionen Tokens verdoppelt Project Astra: Googles Star-Trek-Vision einer KI-Zukunft Ein multimodaler KI-Assistent, der über die Kamera eines Geräts sehen und verstehen, sich die Position von Objekten merken und Aufgaben im Namen des Nutzers ausführen soll Kam bei den meisten der beeindruckendsten Demos auf der diesjährigen I/O zum Einsatz Das Ziel ist, über reine Konversation hinauszugehen und zu einem echten KI-Agenten zu werden, der tatsächlich Aufgaben für den Nutzer erledigt Veo: Googles Sora-ähnliche Videogenerierung Googles neues generatives KI-Modell als Antwort auf OpenAIs Sora kann mithilfe von text-, bild- und videobasierten Prompts 1080p-Videos erzeugen Kann Videos in verschiedenen Stilen wie Luftaufnahmen oder Zeitraffer erstellen und sich mit zusätzlichen Prompts weiter anpassen lassen Wird einigen Creatorn bereits für die Produktion von YouTube-Videos bereitgestellt und wird auch als für die Filmproduktion geeignet beworben Integration von Gemini in Workspace Das Sprachmodell der nächsten Generation, Gemini 1.5 Pro, wird in die Seitenleiste von Docs, Sheets, Slides, Drive und Gmail integriert Soll ab dem nächsten Monat für zahlende Abonnenten verfügbar sein und als universeller Assistent innerhalb von Workspace fungieren Kann Informationen aus allen Inhalten in Drive abrufen Kann Aufgaben übernehmen wie das Verfassen einer E-Mail unter Einbeziehung von Informationen aus dem aktuell geöffneten Dokument oder daran erinnern, später auf eine gerade gelesene E-Mail zu antworten Erweiterte Funktionen von Google Lens Suchen ist nun nicht mehr nur mit Bildern, sondern auch mit Videos möglich Es wurde eine Funktion hinzugefügt, bei der man beim Aufnehmen eines Videos eine Frage stellt und Googles KI im Web nach passenden Antworten sucht Nutzung von Google Photos durch Gemini Die für diesen Sommer geplante Funktion "Ask Photos" analysiert die Google-Photos-Bibliothek des Nutzers und beantwortet Fragen dazu Sie kann weit mehr als nur Fotos von Hunden oder Katzen finden und auch komplexe Fragen beantworten, etwa nach dem eigenen Kennzeichen, wie CEO Sundar Pichai demonstrierte Gems: Benutzerdefinierte Chatbots für Gemini Ähnlich wie bei OpenAIs GPTs können Nutzer mit Gems Anweisungen für Gemini festlegen und so Antwortstil und Fachgebiet anpassen Wer zum Beispiel einen positiven und hartnäckigen Laufcoach möchte, der täglich Motivation und Laufpläne liefert, soll dies bald nutzen können (für Gemini-Advanced-Abonnenten) Verbesserte Gesprächsfähigkeiten von Gemini Die neue Funktion Gemini Live soll Sprachchats mit Gemini natürlicher machen Die Stimme des Chatbots bekommt mehr Persönlichkeit, und Nutzer können ihn unterbrechen oder ihn bitten, über die Smartphone-Kamera in Echtzeit Informationen aufzunehmen Gemini wird in Google Calendar, Tasks und Keep integriert, um Informationen zu aktualisieren oder abzurufen, und nutzt dabei multimodale Fähigkeiten, etwa um Details von einem Flyer in den persönlichen Kalender einzutragen Circle to Search hilft beim Lösen von Matheaufgaben Auf Android-Smartphones und -Tablets kann man nun Matheaufgaben einkreisen und Unterstützung bei der Lösung erhalten Googles KI löst die Aufgabe nicht direkt, damit Schüler nicht beim Schummeln für Hausaufgaben unterstützt werden, sondern zerlegt sie in einzelne Schritte und macht sie leichter bearbeitbar KI-Umbau der Google-Suche Noch in dieser Woche sollen in den gesamten USA die "AI Overviews" starten (früher "Search Generative Experience") Ein nun "spezialisiertes" Gemini-Modell wird Suchergebnisseiten gestalten und mit aus dem Web zusammengefassten Antworten füllen (ähnlich wie bei KI-Suchtools wie Perplexity oder Arc Search) KI-gestützte Betrugserkennung in Android Google erklärt, dass Android-Smartphones mithilfe von Gemini Nano direkt auf dem Gerät Warnsignale wie typische Gesprächsmuster von Betrügern erkennen und in Echtzeit Warnungen anzeigen können, um Scam-Anrufe zu vermeiden Weitere Details zu dieser Funktion sollen später in diesem Jahr folgen Mehr KI-Intelligenz für Android-Geräte Google sagt, dass Gemini Nutzer schon bald Fragen zu einem auf dem Bildschirm angezeigten Video beantworten kann, basierend auf automatisch erzeugten Untertiteln Für zahlende Gemini-Advanced-Nutzer kann es auch PDFs aufnehmen und daraus Informationen bereitstellen Diese multimodalen und weiteren Updates für Gemini auf Android sollen in den kommenden Monaten erscheinen KI-Assistent für Google Chrome Google hat angekündigt, Chrome auf dem Desktop um die leichtgewichtige Version Gemini Nano zu erweitern Der integrierte Assistent nutzt KI direkt auf dem Gerät und soll innerhalb von Google Chrome bei der Texterstellung für Social-Media-Posts, Produktbewertungen und mehr helfen Upgrade für das KI-Wasserzeichen SynthID Google hat angekündigt, die Funktionen von SynthID auszubauen Inhalte, die mit dem neuen Videogenerator Veo erstellt werden, sollen mit Wasserzeichen versehen werden, und auch KI-generierte Videos lassen sich nun erkennen

(theverge.com)

19 Punkte von xguru 2024-05-15 | 6 Kommentare | Auf WhatsApp teilen

Ankündigung des Modells Gemini 1.5 Flash

Ein neues multimodales Modell, das so leistungsfähig wie Gemini 1.5 Pro ist, aber für eng umrissene, häufige und latenzarme Aufgaben optimiert wurde
Besser geeignet für die schnelle Generierung von Antworten
Auch die Übersetzungs-, Schlussfolgerungs- und Coding-Fähigkeiten von Gemini 1.5 wurden verbessert
Das Kontextfenster von Gemini 1.5 Pro (die Menge an Informationen, die es aufnehmen kann) wurde von 1 Million auf 2 Millionen Tokens verdoppelt

Project Astra: Googles Star-Trek-Vision einer KI-Zukunft

Ein multimodaler KI-Assistent, der über die Kamera eines Geräts sehen und verstehen, sich die Position von Objekten merken und Aufgaben im Namen des Nutzers ausführen soll
Kam bei den meisten der beeindruckendsten Demos auf der diesjährigen I/O zum Einsatz
Das Ziel ist, über reine Konversation hinauszugehen und zu einem echten KI-Agenten zu werden, der tatsächlich Aufgaben für den Nutzer erledigt

Veo: Googles Sora-ähnliche Videogenerierung

Googles neues generatives KI-Modell als Antwort auf OpenAIs Sora kann mithilfe von text-, bild- und videobasierten Prompts 1080p-Videos erzeugen
Kann Videos in verschiedenen Stilen wie Luftaufnahmen oder Zeitraffer erstellen und sich mit zusätzlichen Prompts weiter anpassen lassen
Wird einigen Creatorn bereits für die Produktion von YouTube-Videos bereitgestellt und wird auch als für die Filmproduktion geeignet beworben

Integration von Gemini in Workspace

Das Sprachmodell der nächsten Generation, Gemini 1.5 Pro, wird in die Seitenleiste von Docs, Sheets, Slides, Drive und Gmail integriert
Soll ab dem nächsten Monat für zahlende Abonnenten verfügbar sein und als universeller Assistent innerhalb von Workspace fungieren
Kann Informationen aus allen Inhalten in Drive abrufen
Kann Aufgaben übernehmen wie das Verfassen einer E-Mail unter Einbeziehung von Informationen aus dem aktuell geöffneten Dokument oder daran erinnern, später auf eine gerade gelesene E-Mail zu antworten

Erweiterte Funktionen von Google Lens

Suchen ist nun nicht mehr nur mit Bildern, sondern auch mit Videos möglich
Es wurde eine Funktion hinzugefügt, bei der man beim Aufnehmen eines Videos eine Frage stellt und Googles KI im Web nach passenden Antworten sucht

Nutzung von Google Photos durch Gemini

Die für diesen Sommer geplante Funktion "Ask Photos" analysiert die Google-Photos-Bibliothek des Nutzers und beantwortet Fragen dazu
Sie kann weit mehr als nur Fotos von Hunden oder Katzen finden und auch komplexe Fragen beantworten, etwa nach dem eigenen Kennzeichen, wie CEO Sundar Pichai demonstrierte

Gems: Benutzerdefinierte Chatbots für Gemini

Ähnlich wie bei OpenAIs GPTs können Nutzer mit Gems Anweisungen für Gemini festlegen und so Antwortstil und Fachgebiet anpassen
Wer zum Beispiel einen positiven und hartnäckigen Laufcoach möchte, der täglich Motivation und Laufpläne liefert, soll dies bald nutzen können (für Gemini-Advanced-Abonnenten)

Verbesserte Gesprächsfähigkeiten von Gemini

Die neue Funktion Gemini Live soll Sprachchats mit Gemini natürlicher machen
Die Stimme des Chatbots bekommt mehr Persönlichkeit, und Nutzer können ihn unterbrechen oder ihn bitten, über die Smartphone-Kamera in Echtzeit Informationen aufzunehmen
Gemini wird in Google Calendar, Tasks und Keep integriert, um Informationen zu aktualisieren oder abzurufen, und nutzt dabei multimodale Fähigkeiten, etwa um Details von einem Flyer in den persönlichen Kalender einzutragen

Circle to Search hilft beim Lösen von Matheaufgaben

Auf Android-Smartphones und -Tablets kann man nun Matheaufgaben einkreisen und Unterstützung bei der Lösung erhalten
Googles KI löst die Aufgabe nicht direkt, damit Schüler nicht beim Schummeln für Hausaufgaben unterstützt werden, sondern zerlegt sie in einzelne Schritte und macht sie leichter bearbeitbar

KI-Umbau der Google-Suche

Noch in dieser Woche sollen in den gesamten USA die "AI Overviews" starten (früher "Search Generative Experience")
Ein nun "spezialisiertes" Gemini-Modell wird Suchergebnisseiten gestalten und mit aus dem Web zusammengefassten Antworten füllen (ähnlich wie bei KI-Suchtools wie Perplexity oder Arc Search)

KI-gestützte Betrugserkennung in Android

Google erklärt, dass Android-Smartphones mithilfe von Gemini Nano direkt auf dem Gerät Warnsignale wie typische Gesprächsmuster von Betrügern erkennen und in Echtzeit Warnungen anzeigen können, um Scam-Anrufe zu vermeiden
Weitere Details zu dieser Funktion sollen später in diesem Jahr folgen

Mehr KI-Intelligenz für Android-Geräte

Google sagt, dass Gemini Nutzer schon bald Fragen zu einem auf dem Bildschirm angezeigten Video beantworten kann, basierend auf automatisch erzeugten Untertiteln
Für zahlende Gemini-Advanced-Nutzer kann es auch PDFs aufnehmen und daraus Informationen bereitstellen
Diese multimodalen und weiteren Updates für Gemini auf Android sollen in den kommenden Monaten erscheinen

KI-Assistent für Google Chrome

Google hat angekündigt, Chrome auf dem Desktop um die leichtgewichtige Version Gemini Nano zu erweitern
Der integrierte Assistent nutzt KI direkt auf dem Gerät und soll innerhalb von Google Chrome bei der Texterstellung für Social-Media-Posts, Produktbewertungen und mehr helfen

Upgrade für das KI-Wasserzeichen SynthID

Google hat angekündigt, die Funktionen von SynthID auszubauen
Inhalte, die mit dem neuen Videogenerator Veo erstellt werden, sollen mit Wasserzeichen versehen werden, und auch KI-generierte Videos lassen sich nun erkennen

6 Kommentare

pinks 2024-05-16

Es reicht völlig, wenn der Chatbot kostenlos angeboten wird, und da ich nichts im Bereich Bild, Video oder Audio nutze, freue ich mich, dass es in bestehende Produkte integriert wird.

corelyai 2024-05-15

Googles Fortschritte bei Project Astra AI und der Videogenerierung

Googles Gemini-Modelle werden bereits von mehr als 1,5 Millionen Entwicklern intensiv für Code-Debugging, das Gewinnen von Insights und den Aufbau von AI-Anwendungen genutzt. Project Astra führt einen AI-Agenten ein, der Video- und Spracheingaben effizient verarbeiten kann, sowie das neue fortschrittliche generative Videomodell Vo. Vo kann aus Text-, Bild- und Video-Prompts hochwertige 1080p-Videos erzeugen und bietet damit ein beispielloses Maß an kreativer Kontrolle. Die von Google DeepMind entwickelte Technologie zielt darauf ab, Ideen zu verwirklichen, die zuvor nicht möglich waren.

Googles TPU der 6. Generation und der innovative AI-Umbau

Google plant, Ende 2024 Trillium, die TPU der 6. Generation mit 4,7-fach höherer Rechenleistung pro Chip, für Cloud-Kunden bereitzustellen. Außerdem führt das Unternehmen neue CPUs und GPUs ein, darunter den Axion-Prozessor und die Envidia Blackwell GPU, um unterschiedliche Workloads zu unterstützen; Letztere soll Anfang 2025 verfügbar sein. Google bringt zudem Gemini auf den Markt, ein vollständig neu gestaltetes, AI-basiertes Sucherlebnis mit hoher Nutzerzufriedenheit, das zunächst in den USA startet. Dieses neue Suchmodell ermöglicht komplexere Suchanfragen und die Suche per Foto und liefert strukturierte Ergebnisse für eine noch bessere Nutzererfahrung.

Googles neue AI-Funktionen und künftige Innovationen

Google führt neue, von AI zusammengestellte Suchergebnisseiten ein, beginnend mit Essen und Rezepten und später ausgeweitet auf weitere Kategorien. AI kann kontextuelle Faktoren wie die Jahreszeit nutzen, um einen Überblick über Problemursachen und Schritte zur Fehlerbehebung zu geben. Googles AI Gemini wird bald Live-Erlebnisse mit maßgeschneiderten persönlichen Experten namens „Gems“ anbieten und für Videoverständnis mit Project Astra integriert werden.

Einführung von Gemini, dem neuen AI-Assistenten für Android

Gemini ist ein neuer AI-Assistent für Android, der On-Device-AI-Erlebnisse bietet und dabei den Datenschutz priorisiert. Er wurde dafür entwickelt, kontextbezogene Vorschläge zu machen, etwa beim Lernen für die Schule zu helfen oder Schritt-für-Schritt-Anleitungen für schwierige Probleme zu geben. Außerdem kann Gemini Aufgaben wie das Finden von Bildern und das Beantworten spezifischer Fragen unterstützen und sich dabei nahtlos in den Workflow der Nutzer integrieren.

Wie Googles Gemini die Smartphone-Nutzung beeinflusst

Googles Gemini bringt AI-Funktionen auf Smartphones, sodass Nutzer leicht auf Informationen in Dokumenten zugreifen und klare Antworten auf konkrete Fragen erhalten können. Das On-Device-Foundation-Model verbessert das Smartphone-Erlebnis mit schnelleren Antworten und setzt zugleich Priorität auf die Privatsphäre der Nutzer. Das bald erscheinende Gemini Nano-Modell wird die Möglichkeiten weiter ausbauen, indem es Telefonen erlaubt, die Welt durch Text, visuelle Eindrücke, Geräusche und gesprochene Sprache zu verstehen.

Corely, die Kernaussagen in YouTube-Videos in nur 10 Sekunden! - https://corely.ai/content/google-io-2024-everything-revealed

xguru 2024-05-15

Gemini Flash
Google DeepMind Veo

savvykang 2024-05-15

https://killedbygoogle.com
Ich frage mich, wann Gemini in diese Liste aufgenommen wird. Wenn es kein Geld einbringt, stellt Google es ohne Zögern ein – das ist so typisch für Google, deshalb kann ich keine Sympathie dafür aufbringen.