3 Punkte von GN⁺ 2026-03-21 | 1 Kommentare | Auf WhatsApp teilen
  • Das Qwen3.5-9B-Modell läuft vollständig lokal auf dem MacBook Pro M5 und erreicht mit 93,8 % Leistung, 4 Punkte weniger als GPT-5.4
  • In HomeSec-Bench mit 96 Tests und 15 Suites werden reale Home-Security-Workflows wie Tool-Nutzung, Sicherheitsklassifizierung und Event-Deduplizierung bewertet
  • Qwen3.5-35B-MoE ist mit einer TTFT von 435 ms schneller als alle OpenAI-Cloud-Modelle, bei einer GPU-Speichernutzung von 27,2 GB
  • Lokale Ausführung verursacht keine API-Kosten und garantiert vollständige Datenprivatsphäre, mit Echtzeitvisualisierung auf Apple Silicon
  • Mit dem Aegis-AI-System und der DeepCamera-Plattform wird ein lokal priorisiertes Home-Security-KI-Ökosystem auf Basis von Consumer-Hardware möglich

Leistungsvergleich: Local AI vs Cloud

  • Das Modell Qwen3.5-9B läuft vollständig lokal auf dem MacBook Pro M5 und erzielt eine Bestehensquote von 93,8 %, also 4 Punkte weniger als GPT-5.4
    • Verarbeitungsgeschwindigkeit von 25 Tokens pro Sekunde, TTFT (Time to First Token) 765 ms, Nutzung von 13,8 GB Unified Memory
    • Keine API-Kosten und vollständig garantierte Datenprivatsphäre
  • In einem Benchmark mit 96 Tests und 15 Suites wurden reale Home-Security-Workflows wie Tool-Nutzung, Sicherheitsklassifizierung und Event-Deduplizierung bewertet
  • Im Leaderboard liegt GPT-5.4 (97,9 %) auf Platz 1, GPT-5.4-mini (95,8 %) auf Platz 2 und Qwen3.5-9B sowie 27B (93,8 %) gemeinsam auf Platz 3
    • Qwen3.5-9B liegt 1 Punkt vor GPT-5.4-nano (92,7 %)
  • Qwen3.5-35B-MoE** hat** mit TTFT 435 ms eine geringere Latenz als alle OpenAI-Cloud-Modelle

    • GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
    • Bei der Decoding-Geschwindigkeit ist GPT-5.4-mini mit 234,5 tok/s am schnellsten, Qwen3.5-9B erreicht 25 tok/s
    • Die GPU-Speichernutzung beträgt bei Qwen3.5-9B 13,8 GB, bei Qwen3.5-35B-MoE 27,2 GB und bei Qwen3.5-122B-MoE 40,8 GB

Überblick über HomeSec-Bench

  • HomeSec-Bench ist ein LLM-Benchmark zur Bewertung realer Workflows für Home-Security-Assistenten
    • Er prüft nicht nur einfache Konversationen, sondern auch für Sicherheitssysteme erforderliche Fähigkeiten wie Reasoning, Klassifizierung und Tool-Nutzung
    • Nutzt 35 KI-generierte Bilder und kann auf OpenAI-kompatiblen Endpunkten ausgeführt werden
  • Wichtige Test-Suites (insgesamt 15)

    • Context Preprocessing (6): Entfernen von Gesprächsduplikaten, Beibehaltung von Systemnachrichten
    • Topic Classification (4): Domain-Routing von Anfragen
    • Knowledge Distillation (5): Extraktion dauerhafter Fakten aus Gesprächen
    • Event Deduplication (8): Erkennung derselben Person über mehrere Kameras hinweg
    • Tool Use (16): Auswahl des richtigen Tools und der passenden Parameter
    • Chat & JSON Compliance (11): Persona, JSON-Ausgabe, Mehrsprachigkeit
    • Security Classification (12): Klassifizierung der Stufen Normal → Monitor → Suspicious → Critical
    • Narrative Synthesis (4): Zusammenfassung von Event-Logs
    • Prompt Injection Resistance (4): Verhinderung von Rollenverwirrung, Prompt-Extraktion und Privilegieneskalation
    • Multi-Turn Reasoning (4): Interpretation von Verweisen, Wahrung zeitlicher Kontinuität
    • Error Recovery (4): Umgang mit unmöglichen Anfragen und API-Fehlern
    • Privacy & Compliance (3): Anonymisierung personenbezogener Daten, Ablehnung illegaler Überwachung
    • Alert Routing (5): Routing von Benachrichtigungskanälen, Parsing stiller Zeitfenster
    • Knowledge Injection (5): Personalisierte Antworten mithilfe eingespeisten Wissens
    • VLM-to-Alert Triage (5): Vision-Ausgabe → Einschätzung der Dringlichkeit → Versand einer Benachrichtigung
  • Zentrale Bewertungsfragen

    • Kann das richtige Tool mit den passenden Parametern ausgewählt werden?
    • Kann eine „Person mit Maske in der Nacht“ als Critical klassifiziert werden?
    • Kann das System Prompt Injection innerhalb von Ereignisbeschreibungen abwehren?
    • Kann es dieselbe Person über 3 Kameras hinweg ohne Duplikate erkennen?
    • Kann es in Multi-Turn-Gesprächen den Sicherheitskontext aufrechterhalten?

Der Wert lokaler KI

  • Benchmarks auf Apple Silicon lassen sich in Echtzeit visualisieren
  • Das 9B-Modell erreicht offline eine Leistung innerhalb von 4 % von GPT-5.4
  • Vollständige Privatsphäre und null API-Kosten sind der Kernwert lokaler KI

Systemaufbau

  • System: Aegis-AI — lokal priorisierte Home-Security-KI auf Basis von Consumer-Hardware
  • Benchmark: HomeSec-Bench — 96 LLM- + 35-VLM-Tests, aufgebaut aus 16 Suites
  • Skill Platform: DeepCamera — verteiltes KI-Skill-Ökosystem

1 Kommentare

 
GN⁺ 2026-03-21
Hacker-News-Kommentare
  • Ich habe mir schon lange vorgestellt, dass irgendwann die Zeit kommt, in der Familien beim Kauf eines Hauses oder von Haushaltsgeräten gleich auch einen AI-Server mitkaufen
    Da sich die Hardwareentwicklung verlangsamt, könnte es reichen, einmal ein AI-System für den Haushalt zu kaufen, das man dann jahrzehntelang nutzt
    Ich denke, dieses System würde die Historie einer Familie übernehmen, vollständig offline arbeiten und wie ein generationsübergreifender permanenter Assistent sein

    • Sehe ich nicht so. Schon ein Blick auf den Vergleich zwischen M1 und M5 zeigt, dass in nur fünf Jahren CPU/GPU, AI, 3D-Rendering und fast alles andere mehr als sechsmal schneller geworden sind
      Die Idee eines „AI-Servers, der die Familienlinie fortführt“, ist cool, aber realistisch gesehen lässt sich Hardware-Alterung nicht vermeiden
    • Hätte man vor 10 Jahren einen Server für zu Hause gekauft, hätte er wahrscheinlich gar keine GPU oder AI-Beschleuniger gehabt
      Auch wenn die Single-Core-Leistung heute stagniert, entwickelt sich AI wegen des Fokus auf Parallelverarbeitung weiterhin schnell
      Ich denke, die Vorstellung eines Servers, den man jahrzehntelang nutzt, ist noch verfrüht
    • Das vorgeschlagene Konzept unterscheidet sich im Grunde kaum von einem Homelab
      Die meisten Menschen sind zufrieden damit, Dienste wie Fotospeicherung oder Sicherheit der Cloud zu überlassen
    • Die Prognose „ein Server für Jahrzehnte“ klingt nach einer zu schwachen Behauptung
    • Außerdem fehlt solchen Produkten aus Unternehmenssicht ein Abo-Umsatzmodell, daher gibt es wenig Anreiz, so etwas zu bauen
  • Diese Seite wirkt spektakulär, ist in Wirklichkeit aber nur ein einfacher Home-Security-Benchmark
    Verglichen werden nur Qwen-Modelle, und die neueste Version ist sogar langsamer als die vorherige
    Je nach Aufgabe ist ein anderes Modell optimal; für VL, Mehrsprachigkeit oder Reasoning sind teils jeweils andere Modelle besser
    Qwen 3.5 ist hervorragend, aber ein „einziges Modell, das alles gut kann“, gibt es nicht
    Die Wahl des passenden Modells und das Prompt-Design sind wichtiger
    Dafür braucht man nicht einmal einen aktuellen M5 Mac; ein zwei Jahre altes Notebook oder Smartphone reicht völlig aus

    • Danke für das Feedback :) Nachdem ich gesehen habe, dass Qwen3.5 langsamer geworden ist, habe ich den Thinking Mode deaktiviert
      Derzeit teste ich auf einem MBP Pro 64GB nur LLMs, und ich halte LFM 450M für das beste VLM
      Ein Update kommt bald
    • Ich würde gern lernen, welches Modell für welche Aufgabe gut ist
      Ich experimentiere mit LM Studio und suche als lokalen Claude-Ersatz ein Modell für Coding in Rust und SQL
    • Ich betreibe ebenfalls mehrere Kameras auf einem Mac mini M2 16GB
      Die Kombination aus Qwen 9B + LFM 450M funktioniert auch mit einem Budget von unter 400 $ gut
      Ich werde die Tests auf mehr Modelle ausweiten
  • Der M5 Pro ist erschienen, also habe ich reale AI-Workloads getestet
    Qwen3.5-9B erreichte 93,8 % und lag damit nur 4 Punkte hinter GPT-5.4, alles komplett lokal ausgeführt
    25 tok/s, 765 ms TTFT und nur 13,8 GB Speicherverbrauch
    Alle Ergebnisse ansehen

    • Danke fürs Teilen der Ergebnisse, aber die Seite und die Kommentare haben einen übertriebenen Stil, als wären sie von AI geschrieben, sodass schwer zu erkennen ist, was genau getestet wurde
      Ein Link, auf dem die Testpunkte klar ersichtlich sind, wäre hilfreich
    • Bei einem „vollständig lokalen Home-Security-System“ würde mich interessieren, ob die GPU 24/7 unter Volllast läuft
      Ich würde auch gern wissen, ob es bei längerer Nutzung Schäden am Silizium gab
  • Derzeit braucht man zum Ausführen lokaler Modelle etwa 2.500 $
    Interessanterweise haben meine Eltern 1995 für einen 166-MHz-PC ungefähr ähnlich viel bezahlt

    • Ich erinnere mich auch daran, in den 80ern und 90ern PCs für mehrere tausend Dollar gekauft zu haben
      Nachdem ich erlebt habe, wie schnell der Wert von Elektronik sinkt, bin ich heute sehr preissensibel
      Allerdings könnte es wegen der Verlangsamung von Moores Gesetz sein, dass die Preise nicht mehr so stark fallen wie früher
    • Ich habe 1989 einen 386sx für 3.800 $ gekauft; inflationsbereinigt wären das heute fast 10.000 $
      Kaum zu glauben, dass das damals als „gutes Preis-Leistungs-Verhältnis“ galt
    • Das beste lokale Modell im Benchmark, Qwen3.5-9B (Q4_K_M), ist ein auf 4,5 Bit quantisiertes Modell mit 9B Parametern
      Es läuft auch auf einem Mac Mini für 500 $ gut
    • Als Einstieg reicht ein Mac Mini 16GB (<499 $) völlig aus
      Auch auf einem M2 Mini laufen kleine Modelle gut
  • Dieser Prompt-Injection-Test wirkt wenig überzeugend

    • Das wird hauptsächlich zur Erkennung von Man-in-the-Middle-Angriffen verwendet
      Danke fürs Review
  • Technisch ist das großartig, aber es fehlt die Funktion zur Ausstellung eines Alarmzertifikats für Versicherungen
    Im realen Geschäft ist das nötig, damit Versicherungsrabatte oder Schadensersatz möglich sind
    Am Ende sind nicht die Technologie, sondern Regulierung und Compliance die größere Hürde

    • Stimmt, dieser Maßstab scheint sehr hoch zu sein
  • Ich frage mich, wie sich dieses System mit Frigate vergleichen lässt
    Mich interessiert, ob es einfach nur eine Schicht über dem NVR ist oder ob es auch bewegungserkannte Aufnahmen macht

    • Wenn man für Frigate eine Coral TPU kauft, kann man viele Inferenzaufgaben günstig auslagern
    • Aegis unterstützt ONVIF-Kamera-Integration, bewegungserkannte Aufnahmen und VLM-basiertes Kontextverständnis
      Es kann Aufnahmen von BLINK/RING-Kameras lokal speichern und als persistenten Speicher nutzen
  • Es klingt wie ein Witz, aber das S in AI steht für Security

  • In Zukunft könnten Token wie Datentraffic verkauft werden und zu alltäglichen Konsumgütern werden