- Ein KI-Assistent mit Sprache und Vision, der in allen Anwendungen unter macOS genutzt werden kann
- Per Tastenkürzel aktivieren und eine Frage sprechen; auf Basis des aktuellen Kontexts wird eine gesprochene Antwort ausgegeben
- Erstellt einen Screenshot des aktuellen Fensters und sendet ihn an OpenAI GPT Vision
- Die Frage wird mithilfe der OpenAI Whisper API transkribiert und zusammen mit dem Text gesendet
- Die empfangene Textantwort wird mit OpenAI TTS in Sprache umgewandelt und ausgegeben
- Entwickelt mit NodeJS/Electron
- Standard-Tastenkürzel ist Cmd + Shift + '
1 Kommentare
Hacker-News-Kommentare
Frage, ob es besser ist, im Prompt den Begriff „macOS“ statt „OSX“ zu verwenden, oder ob über die anfängliche Wahl nicht besonders nachgedacht wurde.
Als Antwort der Vorschlag, zusätzlich zu TTS eine Streaming-Text-Option hinzuzufügen.
Es wird erwähnt, dass ein ähnliches Skript für eine Linux-Konfiguration geschrieben wurde.
Es wird empfohlen, bei der Nutzung der OpenAI API ein Ausgabenlimit festzulegen.
Positive Reaktion auf das Projekt.
Frage, ob geplant ist, das Projekt so zu gestalten, dass es nicht mit „open“AI, sondern mit lokalen LLMs funktioniert.
Meinung, dass man etwas bauen möchte, das direkt in das Terminal selbst integriert ist.
Negative Reaktion auf die Information, dass „macOSpilot NodeJS/Electron verwendet“.
Geteilte Erfahrung mit der Nutzung zusammen mit der Digital Audio Workstation Ableton Live.
Es wird eine Vorstellung von Produktivität geteilt, während auf das Ergebnis des Befehls
lsgewartet wird.