26 Punkte von skg09203 2026-02-18 | 4 Kommentare | Auf WhatsApp teilen

Ein MCP-Server, der YouTube-Untertitel auf dem Server verarbeitet (Zusammenfassung/Entitäten/Themen/Sentiment-Analyse) und an den LLM-Client nur die komprimierten Ergebnisse übergibt.

Warum ich ihn gebaut habe:
Ich habe mir etwa 80 bestehende YouTube-MCP-Server angesehen, und alle werfen die Original-Untertitel unverändert an das LLM. Bei einem einzigen 20-minütigen Video werden so etwa 15.000 Tokens verbraucht; hier wird das auf etwa 200–500 Tokens für die Zusammenfassung und rund 3.000 Tokens für den Gesamtbericht reduziert.
Ich habe ihn außerdem so aufgebaut, dass er sich auch per CLI nutzen lässt, mit Blick auf den Einsatz als Claude Skills.

Hauptfunktionen:

  • Strukturierter Bericht (Zusammenfassung + Themen + Entitäten + Kommentare auf einmal)
  • 9 MCP-Tools + CLI (mcp-yt)
  • Kostenlose LLM-Zusammenfassung durch Ollama/vLLM-Integration
  • Monitoring von Kanal-RSS-Feeds
  • Wörterbuch mit über 200 koreanischen/englischen Entitäten
  • SQLite-Cache

pip install mcp-youtube-intelligence
Direkt mit Claude Desktop, Cursor und Claude Code verbindbar.

GitHub: https://github.com/JangHyuckYun/mcp-youtube-intelligence
PyPI: https://pypi.org/project/mcp-youtube-intelligence/

4 Kommentare

 
bohblue23 2026-02-19

Es scheint eindeutig, dass es bei der Reduzierung der Tokenzahl zu Trade-offs gekommen sein dürfte, aber ich konnte im README dazu leider nichts finden!

Heutzutage liegt der Standardkontext ja bei 200k, daher würde mich die Qualitätsverschlechterung durch verlustbehaftete Komprimierung interessieren.

 
skg09203 2026-02-19

Hallo!

Eine extraktive Zusammenfassung (ohne LLM) liegt gefühlt bei etwa 6/10 im Vergleich zum Original. Die Kernaussagen werden zwar herausgezogen, aber die Verknüpfung des Kontexts ist schwach.
Eine LLM-Zusammenfassung (z. B. mit Ollama) ist deutlich besser, und nachdem ich sie tatsächlich mit einigen Vorstellungs- und entwicklungsbezogenen Videos getestet habe, schien sie für das inhaltliche Verständnis vollkommen ausreichend zu sein. Allerdings gehen dabei manchmal Detailzahlen oder feine Nuancen verloren.

Bei 200k Kontext ist bei einem einzelnen Video, etwa 30 Minuten bis 1 Stunde und damit eher kürzeren Videos, das Original besser.
Wenn man jedoch Hunderte von Videos in großem Umfang verarbeitet oder wiederholt analysiert, denke ich, dass man weniger Tokens verbrauchen und trotzdem nur die Kerninhalte herausziehen kann.
(z. B. Analyse des gesamten Kanals eines Wettbewerbers, Analyse von 100 Videos von Wirtschafts-YouTubern usw.)

Ich werde im README noch mit mehr unterschiedlichen Videos testen und die Benchmark-Ergebnisse sowie die Trade-offs klarer ergänzen!

 
bohblue23 2026-02-19

Vielen Dank für Ihre ausführliche Antwort!! Ich hoffe, dass das Projekt Früchte tragen wird!!

 
skg09203 2026-02-19

Haha, ja, danke!