Ich nehme meine Worte 24x7 auf und lasse sie von KI verarbeiten. Ist das die Zukunft?

xguru · 2022-11-17T10:04:02+09:00

Was passiert, wenn das Smartphone ständig aufzeichnet, was wir sagen, und es mit KI verarbeitet? Ich habe es selbst ausprobiert Außer während des Schlafens wurde in der gesamten Wachzeit immer aufgezeichnet (in ungeeigneten Situationen auch ausgeschaltet). Es ist ein PoC, und für den realen Einsatz noch schwer umsetzbar Der Anlass dafür war die Veröffentlichung von OpenAIs Whisper Funktionsweise Mit zwei Mikrofonen wird das Gesprochene den ganzen Tag aufgezeichnet, und am Ende des Tages mit Whisper verarbeitet und in Text umgewandelt Dabei wurde klar, dass sich damit ein einfacher digitaler Assistent im Stil von "Ok Google" bauen lässt Es gibt zwei Arten von Informationen, die sich täglich extrahieren lassen Active: Dinge, die ich dem Assistenten bewusst anweise Passive: alle übrigen Informationen, die extrahiert werden sollten, ohne dass ich dafür selbst etwas tun muss Active Functions Dinge, die jeden Abend asynchron verarbeitet werden sollen, spreche ich im Format 'KEYWORD COMMAND data END KEYWORD' aus 'Robert WEIGHT 60.1 end Robert': Robert ist der Name des Assistenten, end ist das Abschluss-Keyword Warum nicht "OK Google" verwendet wird: Es ist eingeschränkt, ich möchte nicht, dass die Informationen an Google gehen, und es arbeitet synchron, also sofort beim Sprechen Natürlich hat die asynchrone Verarbeitung den Nachteil, dass man den Status nicht kennt, bevor der Tag zu Ende ist Ergebnisse ansehen Nach dem Wiegen auf der Waage: 'Robert WEIGHT 62.8 end Robert' Nach dem Aufwachen den Sleep-Tracker (Mi Band) ablesen: 'Robert SLEEP 7 hours 14 minutes end Robert' Elektronische Geräte übermitteln die Informationen zwar an das Smartphone, aber da es keine Möglichkeit gibt, sie herauszuholen, wird der digitale Assistent einfach wie eine analoge API genutzt Nach dem Essen: 'Robert LUNCH two toasts with a fried egg end Robert' Für täglich gegessene Lebensmittel werden die Kalorien über eine externe API berechnet Nach dem Hören eines Podcasts: 'Robert NOTE the podcast talks about Morgan Housel's book the psychology of money end Robert' Notizen und Ideen werden alle gespeichert Nach dem Tanken: 'Robert SPENT 250,000 on fuel end Robert' Die täglichen Ausgaben werden gespeichert Mit sich selbst zu sprechen ist zwar etwas seltsam, hat aber den Vorteil, dass man nicht zum Smartphone greifen und etwas bedienen muss Dashboard Es wurde ein Dashboard gebaut, um all diese eingegebenen Informationen anzuzeigen Es wurde ein My Journal erstellt, das automatisch aufzeichnet, was ich an diesem Tag gemacht habe Passive Information - noch in Arbeit RELATIONSHIP THERMOMETER: Beziehungs-Thermometer SENTIMENT ANALYS: Stimmungsanalyse TOTAL RECALL: Alles durchsuchen, was zu einem bestimmten Thema gesagt wurde, und meine Gedanken zu diesem Thema zu einem bestimmten Zeitpunkt abrufen Vorläufiges Fazit Audio + Kontext sind nötig Das dadurch entstehende Potenzial ist sowohl im Positiven als auch im Negativen enorm Positiv: perfektes Gedächtnis, persönlicher Psychologe/Coach, mein virtueller Klon Negativ: wenn solche Dinge in den Händen anderer liegen Der Unterschied zwischen Utopie und Dystopie ist, wer auf diese Informationen zugreifen kann

(roberdam.com)

19 Punkte von xguru 2022-11-17 | 3 Kommentare | Auf WhatsApp teilen

Was passiert, wenn das Smartphone ständig aufzeichnet, was wir sagen, und es mit KI verarbeitet? Ich habe es selbst ausprobiert
Außer während des Schlafens wurde in der gesamten Wachzeit immer aufgezeichnet (in ungeeigneten Situationen auch ausgeschaltet). Es ist ein PoC, und für den realen Einsatz noch schwer umsetzbar
Der Anlass dafür war die Veröffentlichung von OpenAIs Whisper

Funktionsweise

Mit zwei Mikrofonen wird das Gesprochene den ganzen Tag aufgezeichnet, und am Ende des Tages mit Whisper verarbeitet und in Text umgewandelt
Dabei wurde klar, dass sich damit ein einfacher digitaler Assistent im Stil von "Ok Google" bauen lässt
Es gibt zwei Arten von Informationen, die sich täglich extrahieren lassen
- Active: Dinge, die ich dem Assistenten bewusst anweise
- Passive: alle übrigen Informationen, die extrahiert werden sollten, ohne dass ich dafür selbst etwas tun muss

Active Functions

Dinge, die jeden Abend asynchron verarbeitet werden sollen, spreche ich im Format 'KEYWORD COMMAND data END KEYWORD' aus
- 'Robert WEIGHT 60.1 end Robert': Robert ist der Name des Assistenten, end ist das Abschluss-Keyword
- Warum nicht "OK Google" verwendet wird: Es ist eingeschränkt, ich möchte nicht, dass die Informationen an Google gehen, und es arbeitet synchron, also sofort beim Sprechen
- Natürlich hat die asynchrone Verarbeitung den Nachteil, dass man den Status nicht kennt, bevor der Tag zu Ende ist

Ergebnisse ansehen

Nach dem Wiegen auf der Waage: 'Robert WEIGHT 62.8 end Robert'
Nach dem Aufwachen den Sleep-Tracker (Mi Band) ablesen: 'Robert SLEEP 7 hours 14 minutes end Robert'
- Elektronische Geräte übermitteln die Informationen zwar an das Smartphone, aber da es keine Möglichkeit gibt, sie herauszuholen, wird der digitale Assistent einfach wie eine analoge API genutzt
Nach dem Essen: 'Robert LUNCH two toasts with a fried egg end Robert'
- Für täglich gegessene Lebensmittel werden die Kalorien über eine externe API berechnet
Nach dem Hören eines Podcasts: 'Robert NOTE the podcast talks about Morgan Housel's book the psychology of money end Robert'
- Notizen und Ideen werden alle gespeichert
Nach dem Tanken: 'Robert SPENT 250,000 on fuel end Robert'
- Die täglichen Ausgaben werden gespeichert
Mit sich selbst zu sprechen ist zwar etwas seltsam, hat aber den Vorteil, dass man nicht zum Smartphone greifen und etwas bedienen muss

Dashboard

Es wurde ein Dashboard gebaut, um all diese eingegebenen Informationen anzuzeigen
Es wurde ein My Journal erstellt, das automatisch aufzeichnet, was ich an diesem Tag gemacht habe

Passive Information - noch in Arbeit

RELATIONSHIP THERMOMETER: Beziehungs-Thermometer
SENTIMENT ANALYS: Stimmungsanalyse
TOTAL RECALL: Alles durchsuchen, was zu einem bestimmten Thema gesagt wurde, und meine Gedanken zu diesem Thema zu einem bestimmten Zeitpunkt abrufen

Vorläufiges Fazit

Audio + Kontext sind nötig
Das dadurch entstehende Potenzial ist sowohl im Positiven als auch im Negativen enorm
- Positiv: perfektes Gedächtnis, persönlicher Psychologe/Coach, mein virtueller Klon
- Negativ: wenn solche Dinge in den Händen anderer liegen
Der Unterschied zwischen Utopie und Dystopie ist, wer auf diese Informationen zugreifen kann

3 Kommentare

budlebee 2022-11-17

„Der Unterschied zwischen Utopie und Dystopie besteht darin, wer Zugang zu diesen Informationen hat.“ Gut gesagt.

nicewook 2022-11-17

Das ist reizvoll. Ich denke, das lässt sich durchaus in die Realität umsetzen.
Wie bei VLogs wären auch Inhalte denkbar, in denen man gelegentlich ein vorbildliches Alltagsleben teilt und miteinander teilt.

xguru 2022-11-17

Der Autor hat den Beitrag selbst auf HN gepostet und dort auch kommentiert: https://news.ycombinator.com/item?id=33608437
Der AliExpress-Link zum verwendeten Mikrofon ist auch enthalten :)

Whisper - Mehrsprachiges Spracherkennungssystem (ASR), das OpenAI als Open Source veröffentlicht hat