9 Punkte von GN⁺ 2023-12-13 | 1 Kommentare | Auf WhatsApp teilen
  • Ein KI-Assistent mit Sprache und Vision, der in allen Anwendungen unter macOS genutzt werden kann
  • Per Tastenkürzel aktivieren und eine Frage sprechen; auf Basis des aktuellen Kontexts wird eine gesprochene Antwort ausgegeben
    • Erstellt einen Screenshot des aktuellen Fensters und sendet ihn an OpenAI GPT Vision
    • Die Frage wird mithilfe der OpenAI Whisper API transkribiert und zusammen mit dem Text gesendet
    • Die empfangene Textantwort wird mit OpenAI TTS in Sprache umgewandelt und ausgegeben
  • Entwickelt mit NodeJS/Electron
  • Standard-Tastenkürzel ist Cmd + Shift + '

1 Kommentare

 
GN⁺ 2023-12-13
Hacker-News-Kommentare
  • Frage, ob es besser ist, im Prompt den Begriff „macOS“ statt „OSX“ zu verwenden, oder ob über die anfängliche Wahl nicht besonders nachgedacht wurde.

    • Der Verfasser äußert seine Neugier, während er das Video überfliegt.
    • Ein Link zum entsprechenden Code wird bereitgestellt.
  • Als Antwort der Vorschlag, zusätzlich zu TTS eine Streaming-Text-Option hinzuzufügen.

    • Es könne auch erwogen werden, statt Sprachbefehlen Text zu verwenden.
    • Es wird die Erfahrung geteilt, über lange Zeit ähnliche Assistenten ausprobiert zu haben, verbunden mit dem Vorschlag, auf Discord Kontakt aufzunehmen.
  • Es wird erwähnt, dass ein ähnliches Skript für eine Linux-Konfiguration geschrieben wurde.

    • Mit XFCE-Tastenkürzeln verbunden.
    • Es wird angemerkt, dass das Skript selten verwendet wird.
  • Es wird empfohlen, bei der Nutzung der OpenAI API ein Ausgabenlimit festzulegen.

    • Warnung, dass man den Kostenunterschied zwischen Text- und Vision-Modellen schnell bemerken könne.
    • Positives Urteil nach der Feststellung, dass die Preise ähnlich sind.
  • Positive Reaktion auf das Projekt.

    • Es wird erwähnt, dass Screenshots helfen könnten, verwirrende Stellen zu verdeutlichen.
    • Frage, ob es eine Möglichkeit gibt, das Fenster auszublenden, wenn es nicht verwendet wird.
  • Frage, ob geplant ist, das Projekt so zu gestalten, dass es nicht mit „open“AI, sondern mit lokalen LLMs funktioniert.

  • Meinung, dass man etwas bauen möchte, das direkt in das Terminal selbst integriert ist.

    • Es wird erwähnt, dass es einfacher sei, Screenshots zu vermeiden und direkt im Terminal zu arbeiten.
    • Beispielcode im Stil von Befehlen an eine KI im Terminal wird bereitgestellt.
    • Klage darüber, wie schwierig es ist, im geschäftigen Alltag Zeit dafür zu finden.
  • Negative Reaktion auf die Information, dass „macOSpilot NodeJS/Electron verwendet“.

  • Geteilte Erfahrung mit der Nutzung zusammen mit der Digital Audio Workstation Ableton Live.

    • Sehr positive Einschätzung, dass es nützlich ist und Zeit sparen dürfte.
    • Link zu einem interaktiven Video wird bereitgestellt.
    • Es wird infrage gestellt, warum es negative Kommentare gibt.
  • Es wird eine Vorstellung von Produktivität geteilt, während auf das Ergebnis des Befehls ls gewartet wird.