ocap – Hochleistungs-Recorder, der alles auf dem Desktop aufzeichnet
(github.com/open-world-agents)Ein Open-Source-Recorder ocap (Omnimodal CAPture), der entwickelt wurde, um Desktop-Daten für das Training von AI-Agenten zu sammeln, sich aber auch für allgemeine Zwecke einsetzen lässt.
Bestehende Aufnahmetools wie OBS speichern oft nur Video oder können verschiedene Arten von Daten nicht synchronisiert zusammen speichern. Für AI-Training werden jedoch synchronisierte Daten benötigt, die auch erfassen, „wann der Benutzer welche Taste gedrückt hat, wohin die Maus bewegt wurde und welches Fenster aktiv war“. Dafür wurde das Tool entwickelt.
Merkmale:
- Zeichnet Bildschirmvideo + Audio + Tastatur-/Maus-Events + Fenster-Events synchronisiert im Nanosekundenbereich auf
- Hardwarebeschleunigte Kodierung (H265/HEVC, NVIDIA GPU)
- Aufnahme mit nur einem Befehl starten/beenden:
ocap my-recording→ Ctrl+C - Die Kernlogik steckt in einer einzigen Python-Datei (~400 Zeilen), was Anpassungen erleichtert
- GStreamer-basiertes Design, daher auch auf Linux/macOS erweiterbar
- Ausgabe:
.mkv(Video) +.mcap(Event-Log, das in der Robotik bereits erprobte MCAP-Format)
Installation:
conda install open-world-agents::gstreamer-bundle
pip install ocap
Alternativ kann man die ZIP-Datei von der Release-Seite herunterladen und run.bat ausführen.
Ursprünglich wurde es für das D2E-Forschungsprojekt (https://worv-ai.github.io/d2e/) entwickelt, das Embodied AI mit Desktop-Daten trainiert. Da es sich aber auch als allgemeines Desktop-Aufnahmetool eignet, wurde es als separates Paket ausgekoppelt.
Derzeit wird nur Windows + NVIDIA GPU unterstützt. Die Unterstützung für AMD-/Intel-GPUs oder andere Betriebssysteme ist jedoch strukturell möglich, indem lediglich die GStreamer-Pipeline angepasst wird.
GitHub: https://github.com/open-world-agents/ocap
PyPI: https://pypi.org/project/ocap/
Noch keine Kommentare.