macOSPilot - Sprach- und Vision-CoPilot für macOS

(github.com/elfvingralf)

9 Punkte von GN⁺ 2023-12-13 | 1 Kommentare | Auf WhatsApp teilen

Ein KI-Assistent mit Sprache und Vision, der in allen Anwendungen unter macOS genutzt werden kann
Per Tastenkürzel aktivieren und eine Frage sprechen; auf Basis des aktuellen Kontexts wird eine gesprochene Antwort ausgegeben
- Erstellt einen Screenshot des aktuellen Fensters und sendet ihn an OpenAI GPT Vision
- Die Frage wird mithilfe der OpenAI Whisper API transkribiert und zusammen mit dem Text gesendet
- Die empfangene Textantwort wird mit OpenAI TTS in Sprache umgewandelt und ausgegeben
Entwickelt mit NodeJS/Electron
Standard-Tastenkürzel ist Cmd + Shift + '

1 Kommentare

GN⁺ 2023-12-13

Hacker-News-Kommentare

Frage, ob es besser ist, im Prompt den Begriff „macOS“ statt „OSX“ zu verwenden, oder ob über die anfängliche Wahl nicht besonders nachgedacht wurde.
- Der Verfasser äußert seine Neugier, während er das Video überfliegt.
- Ein Link zum entsprechenden Code wird bereitgestellt.
Als Antwort der Vorschlag, zusätzlich zu TTS eine Streaming-Text-Option hinzuzufügen.
- Es könne auch erwogen werden, statt Sprachbefehlen Text zu verwenden.
- Es wird die Erfahrung geteilt, über lange Zeit ähnliche Assistenten ausprobiert zu haben, verbunden mit dem Vorschlag, auf Discord Kontakt aufzunehmen.
Es wird erwähnt, dass ein ähnliches Skript für eine Linux-Konfiguration geschrieben wurde.
- Mit XFCE-Tastenkürzeln verbunden.
- Es wird angemerkt, dass das Skript selten verwendet wird.
Es wird empfohlen, bei der Nutzung der OpenAI API ein Ausgabenlimit festzulegen.
- Warnung, dass man den Kostenunterschied zwischen Text- und Vision-Modellen schnell bemerken könne.
- Positives Urteil nach der Feststellung, dass die Preise ähnlich sind.
Positive Reaktion auf das Projekt.
- Es wird erwähnt, dass Screenshots helfen könnten, verwirrende Stellen zu verdeutlichen.
- Frage, ob es eine Möglichkeit gibt, das Fenster auszublenden, wenn es nicht verwendet wird.
Frage, ob geplant ist, das Projekt so zu gestalten, dass es nicht mit „open“AI, sondern mit lokalen LLMs funktioniert.
Meinung, dass man etwas bauen möchte, das direkt in das Terminal selbst integriert ist.
- Es wird erwähnt, dass es einfacher sei, Screenshots zu vermeiden und direkt im Terminal zu arbeiten.
- Beispielcode im Stil von Befehlen an eine KI im Terminal wird bereitgestellt.
- Klage darüber, wie schwierig es ist, im geschäftigen Alltag Zeit dafür zu finden.
Negative Reaktion auf die Information, dass „macOSpilot NodeJS/Electron verwendet“.
Geteilte Erfahrung mit der Nutzung zusammen mit der Digital Audio Workstation Ableton Live.
- Sehr positive Einschätzung, dass es nützlich ist und Zeit sparen dürfte.
- Link zu einem interaktiven Video wird bereitgestellt.
- Es wird infrage gestellt, warum es negative Kommentare gibt.
Es wird eine Vorstellung von Produktivität geteilt, während auf das Ergebnis des Befehls ls gewartet wird.

macOSPilot - Sprach- und Vision-CoPilot für macOS

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare