LLaVaVision - mit llama.cpp/llava erstellte „Be My Eyes“-Web-App
(github.com/lxe)- Eine dem Dienst „Be My Eyes“ ähnliche AI-Umsetzung, die für sehbehinderte Menschen Freiwillige verbindet, um den Bildschirm vorzulesen
- Eine Web-App, die über ein multimodales Backend Videos betrachtet und in Echtzeit erklärt, was zu sehen ist
- Das Open-Source-Multimodalmodell BakLLaVA-1 von SkunkworksAI wird mit llama.cpp ausgeführt, die Sprachausgabe erfolgt über die Web Speech API
4 Kommentare
Wow, wenn man so etwas sieht, ist man stolz darauf, Ingenieur zu sein. Ich denke, das wird sehbehinderten Menschen wirklich sehr helfen.
Es gibt auch eine App namens „Sullivan Plus“, die der YouTuber One Shot Hansol verwendet hat.
Sie scheint nicht nur Text zu erkennen, sondern auch die Merkmale von Objekten zu erfassen.
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/
Be My Eyes - Geben Sie blinden Menschen das Sehvermögen
Die Bilder-Captioning-KI von MS beginnt, Fotos wie ein Mensch zu beschreiben
Solche Nachrichten freuen mich wirklich sehr, haha. Meine Tochter ist nämlich sehbehindert.