1 Punkte von GN⁺ 2025-02-10 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Experiment, das Handschrift auf dem reMarkable 2 erkennt, je nach Geste oder Bildschirminhalt reagiert und wieder auf den Bildschirm schreibt
    • Ein Projekt zur Erforschung der Interaktion zwischen Handschrift und Bildschirm

Einrichtung/Installation

  • Umgebungsvariablen wie OPENAI_API_KEY müssen gesetzt werden.
  • Das Binary muss auf dem reMarkable installiert und ausgeführt werden.

Verwendung

  • ghostwriter muss auf dem reMarkable gestartet werden.
  • Man kann auf dem Bildschirm zeichnen und durch Berühren der oberen rechten Ecke Hilfsfunktionen aktivieren.
  • Während der Verarbeitung werden Punkte gezeichnet, und man kann getippte oder gezeichnete Antworten sehen.

Status / Protokoll

  • 2024-10-06: Grundlegender Proof of Concept abgeschlossen. Die Funktion zum Zurückzeichnen auf den Bildschirm funktioniert noch nicht gut.
  • 2024-10-07: Grundlegende Gesten und Statusanzeige implementiert.
  • 2024-10-10: Beginn der Einrichtung einer virtuellen Tastatur.
  • 2024-10-20: Textausgabe und weitere Modi eingeführt.
  • 2024-10-21: Binary-Release-Build abgeschlossen.
  • 2024-10-23: Code-Refactoring und Planung von Tests mit neuen Anthropic-Modellen.
  • 2024-11-02: Umstellung auf Tool-Bereitstellung.
  • 2024-11-07: Claude/Anthropic hinzugefügt.
  • 2024-11-22: Beginn einer Skizze für ein Evaluierungssystem.
  • 2024-12-02: Grundlegender Schritt zur Bildsegmentierung hinzugefügt.
  • 2024-12-15: Engine-Integration.
  • 2024-12-18: Probleme mit System-Upgrades behoben.
  • 2024-12-19: Versuch eines lokalen Netzwerk-VLM-Modus.
  • 2024-12-22: Beginn des Aufbaus eines Evaluierungssystems.
  • 2024-12-25: CLI vereinfacht und erweitert.
  • 2024-12-28: Verbesserungen der Benutzerfreundlichkeit.

Ideen

  • Anfragen durch Gesten oder Inhalte auslösen.
  • Screenshots in ein Vision-Modell einspeisen und das Ergebnis auf dem Bildschirm ausgeben.
  • Tastaturereignisse können gesendet werden.
  • Aufbau eines grundlegenden Evaluierungssystems.
  • Entwicklung einer Prompt-Bibliothek.
  • Automatisierung der Ersteinrichtung.
  • Funktion zur Diagrammerstellung hinzufügen.
  • Funktionen zum Abrufen und Senden externer Informationen hinzufügen.
  • Gesprächsmodus implementieren.
  • Versuch der Nutzung eines lokalen Netzwerk-VLM.

Referenzen

  • Nutzung von Ressourcen aus Awesome reMarkable.
  • Einsatz von Screen-Capture-Techniken aus reSnap.
  • Inspiration für das Zeichnen auf dem Bildschirm aus rmkit lamp.
  • Umwandlung von SVG in png mit resvg.
  • Erstellung eines Tastatureingabegeräts mit rM-input-devices.
  • In reMarkableAI wurde ein OCR→OpenAI→PDF→Device-Prozess gefunden.
  • rMAI verwendet replicate als Modell-API-Dienst in einer separaten App.
  • Crazy Cow ist ein Tool, das Text in Stiftstriche umwandelt.

1 Kommentare

 
GN⁺ 2025-02-10
Hacker-News-Kommentare
  • Ich bin der Autor des Projekts. Das Projekt ist weiterhin in Arbeit, und die größte Erkenntnis sind die Grenzen des räumlichen Verständnisses visueller Modelle

  • Wirklich cool. Es ist schön zu sehen, dass Leute Apps für das reMarkable-Tablet hacken

  • Ich wünschte, das reMarkable-Tablet wäre nicht so stark abgeschottet

    • Es ist eine meiner Lieblings-Hardwareplattformen, und ich wünschte, es gäbe mehr Apps dafür
  • Cool

    • Ich wollte so etwas seit Monaten umsetzen. Wirklich gut gemacht
  • Wirklich cool. Ich werde das dieses Wochenende ausprobieren

    • Ich habe mit der Idee gespielt, PDFs per E-Mail zu schicken und beim Schreiben von To-dos automatisch Aufgaben zu erzeugen, indem sie an ein LLM gesendet werden
    • Dieses Projekt eröffnet einen besseren Weg, dieses Ziel in Echtzeit zu erreichen
  • Für Leser von PDF-Dokumenten frage ich mich, ob die 11-Zoll-Größe des reMarkable ausreicht

    • Ich habe eine Sony DPT der 2. Generation mit 13 Zoll, und das Seherlebnis ist perfekt
    • Aber solche Projekte ziehen mich immer wieder zu reMarkable-Produkten hin
  • Ich liebe dieses Projekt. Es gibt Vektor-Diffusionsmodelle; wenn das Modell beschließt, etwas zu zeichnen, wie wäre es, das per Tool-Call auszulagern?

    • Dann könnte man einen Koordinatenbereich und einen Prompt angeben
  • Dieser Anwendungsfall, handschriftliche Eingabe mit einem LLM zu kombinieren, ist großartig

    • Ich frage mich, wie gut es unordentliche Handschrift verarbeiten kann und ob Fine-Tuning auf persönliche Notizen die Erkennung im Laufe der Zeit verbessern könnte
  • Ich besitze ein Boox-Tablet (ein vollständiges Android-Tablet mit E-Ink-Bildschirm), und so etwas wäre dafür perfekt

    • Ich frage mich, ob mobile Hardware das in fünf Jahren lokal unterstützen kann
  • Wie wäre dieses Projekt auf Android-basierten Onyx-Boox-E-Book-Readern?

    • Wäre das möglich?