Lokales KI-Sicherheitssystem auf Basis von MacBook M5 Pro und Qwen3.5

(sharpai.org)

3 Punkte von GN⁺ 2026-03-21 | 1 Kommentare | Auf WhatsApp teilen

Das Qwen3.5-9B-Modell läuft vollständig lokal auf dem MacBook Pro M5 und erreicht mit 93,8 % Leistung, 4 Punkte weniger als GPT-5.4
In HomeSec-Bench mit 96 Tests und 15 Suites werden reale Home-Security-Workflows wie Tool-Nutzung, Sicherheitsklassifizierung und Event-Deduplizierung bewertet
Qwen3.5-35B-MoE ist mit einer TTFT von 435 ms schneller als alle OpenAI-Cloud-Modelle, bei einer GPU-Speichernutzung von 27,2 GB
Lokale Ausführung verursacht keine API-Kosten und garantiert vollständige Datenprivatsphäre, mit Echtzeitvisualisierung auf Apple Silicon
Mit dem Aegis-AI-System und der DeepCamera-Plattform wird ein lokal priorisiertes Home-Security-KI-Ökosystem auf Basis von Consumer-Hardware möglich

Leistungsvergleich: Local AI vs Cloud

Das Modell Qwen3.5-9B läuft vollständig lokal auf dem MacBook Pro M5 und erzielt eine Bestehensquote von 93,8 %, also 4 Punkte weniger als GPT-5.4
- Verarbeitungsgeschwindigkeit von 25 Tokens pro Sekunde, TTFT (Time to First Token) 765 ms, Nutzung von 13,8 GB Unified Memory
- Keine API-Kosten und vollständig garantierte Datenprivatsphäre
In einem Benchmark mit 96 Tests und 15 Suites wurden reale Home-Security-Workflows wie Tool-Nutzung, Sicherheitsklassifizierung und Event-Deduplizierung bewertet
Im Leaderboard liegt GPT-5.4 (97,9 %) auf Platz 1, GPT-5.4-mini (95,8 %) auf Platz 2 und Qwen3.5-9B sowie 27B (93,8 %) gemeinsam auf Platz 3
- Qwen3.5-9B liegt 1 Punkt vor GPT-5.4-nano (92,7 %)
Qwen3.5-35B-MoE** hat** mit TTFT 435 ms eine geringere Latenz als alle OpenAI-Cloud-Modelle
- GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
- Bei der Decoding-Geschwindigkeit ist GPT-5.4-mini mit 234,5 tok/s am schnellsten, Qwen3.5-9B erreicht 25 tok/s
- Die GPU-Speichernutzung beträgt bei Qwen3.5-9B 13,8 GB, bei Qwen3.5-35B-MoE 27,2 GB und bei Qwen3.5-122B-MoE 40,8 GB

Überblick über HomeSec-Bench

HomeSec-Bench ist ein LLM-Benchmark zur Bewertung realer Workflows für Home-Security-Assistenten
- Er prüft nicht nur einfache Konversationen, sondern auch für Sicherheitssysteme erforderliche Fähigkeiten wie Reasoning, Klassifizierung und Tool-Nutzung
- Nutzt 35 KI-generierte Bilder und kann auf OpenAI-kompatiblen Endpunkten ausgeführt werden
Wichtige Test-Suites (insgesamt 15)
- Context Preprocessing (6): Entfernen von Gesprächsduplikaten, Beibehaltung von Systemnachrichten
- Topic Classification (4): Domain-Routing von Anfragen
- Knowledge Distillation (5): Extraktion dauerhafter Fakten aus Gesprächen
- Event Deduplication (8): Erkennung derselben Person über mehrere Kameras hinweg
- Tool Use (16): Auswahl des richtigen Tools und der passenden Parameter
- Chat & JSON Compliance (11): Persona, JSON-Ausgabe, Mehrsprachigkeit
- Security Classification (12): Klassifizierung der Stufen Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4): Zusammenfassung von Event-Logs
- Prompt Injection Resistance (4): Verhinderung von Rollenverwirrung, Prompt-Extraktion und Privilegieneskalation
- Multi-Turn Reasoning (4): Interpretation von Verweisen, Wahrung zeitlicher Kontinuität
- Error Recovery (4): Umgang mit unmöglichen Anfragen und API-Fehlern
- Privacy & Compliance (3): Anonymisierung personenbezogener Daten, Ablehnung illegaler Überwachung
- Alert Routing (5): Routing von Benachrichtigungskanälen, Parsing stiller Zeitfenster
- Knowledge Injection (5): Personalisierte Antworten mithilfe eingespeisten Wissens
- VLM-to-Alert Triage (5): Vision-Ausgabe → Einschätzung der Dringlichkeit → Versand einer Benachrichtigung
Zentrale Bewertungsfragen
- Kann das richtige Tool mit den passenden Parametern ausgewählt werden?
- Kann eine „Person mit Maske in der Nacht“ als Critical klassifiziert werden?
- Kann das System Prompt Injection innerhalb von Ereignisbeschreibungen abwehren?
- Kann es dieselbe Person über 3 Kameras hinweg ohne Duplikate erkennen?
- Kann es in Multi-Turn-Gesprächen den Sicherheitskontext aufrechterhalten?

Der Wert lokaler KI

Benchmarks auf Apple Silicon lassen sich in Echtzeit visualisieren
Das 9B-Modell erreicht offline eine Leistung innerhalb von 4 % von GPT-5.4
Vollständige Privatsphäre und null API-Kosten sind der Kernwert lokaler KI

Systemaufbau

System: Aegis-AI — lokal priorisierte Home-Security-KI auf Basis von Consumer-Hardware
Benchmark: HomeSec-Bench — 96 LLM- + 35-VLM-Tests, aufgebaut aus 16 Suites
Skill Platform: DeepCamera — verteiltes KI-Skill-Ökosystem

1 Kommentare

GN⁺ 2026-03-21

Hacker-News-Kommentare

Ich habe mir schon lange vorgestellt, dass irgendwann die Zeit kommt, in der Familien beim Kauf eines Hauses oder von Haushaltsgeräten gleich auch einen AI-Server mitkaufen
Da sich die Hardwareentwicklung verlangsamt, könnte es reichen, einmal ein AI-System für den Haushalt zu kaufen, das man dann jahrzehntelang nutzt
Ich denke, dieses System würde die Historie einer Familie übernehmen, vollständig offline arbeiten und wie ein generationsübergreifender permanenter Assistent sein
- Sehe ich nicht so. Schon ein Blick auf den Vergleich zwischen M1 und M5 zeigt, dass in nur fünf Jahren CPU/GPU, AI, 3D-Rendering und fast alles andere mehr als sechsmal schneller geworden sind
  Die Idee eines „AI-Servers, der die Familienlinie fortführt“, ist cool, aber realistisch gesehen lässt sich Hardware-Alterung nicht vermeiden
- Hätte man vor 10 Jahren einen Server für zu Hause gekauft, hätte er wahrscheinlich gar keine GPU oder AI-Beschleuniger gehabt
  Auch wenn die Single-Core-Leistung heute stagniert, entwickelt sich AI wegen des Fokus auf Parallelverarbeitung weiterhin schnell
  Ich denke, die Vorstellung eines Servers, den man jahrzehntelang nutzt, ist noch verfrüht
- Das vorgeschlagene Konzept unterscheidet sich im Grunde kaum von einem Homelab
  Die meisten Menschen sind zufrieden damit, Dienste wie Fotospeicherung oder Sicherheit der Cloud zu überlassen
- Die Prognose „ein Server für Jahrzehnte“ klingt nach einer zu schwachen Behauptung
- Außerdem fehlt solchen Produkten aus Unternehmenssicht ein Abo-Umsatzmodell, daher gibt es wenig Anreiz, so etwas zu bauen
Diese Seite wirkt spektakulär, ist in Wirklichkeit aber nur ein einfacher Home-Security-Benchmark
Verglichen werden nur Qwen-Modelle, und die neueste Version ist sogar langsamer als die vorherige
Je nach Aufgabe ist ein anderes Modell optimal; für VL, Mehrsprachigkeit oder Reasoning sind teils jeweils andere Modelle besser
Qwen 3.5 ist hervorragend, aber ein „einziges Modell, das alles gut kann“, gibt es nicht
Die Wahl des passenden Modells und das Prompt-Design sind wichtiger
Dafür braucht man nicht einmal einen aktuellen M5 Mac; ein zwei Jahre altes Notebook oder Smartphone reicht völlig aus
- Danke für das Feedback :) Nachdem ich gesehen habe, dass Qwen3.5 langsamer geworden ist, habe ich den Thinking Mode deaktiviert
  Derzeit teste ich auf einem MBP Pro 64GB nur LLMs, und ich halte LFM 450M für das beste VLM
  Ein Update kommt bald
- Ich würde gern lernen, welches Modell für welche Aufgabe gut ist
  Ich experimentiere mit LM Studio und suche als lokalen Claude-Ersatz ein Modell für Coding in Rust und SQL
- Ich betreibe ebenfalls mehrere Kameras auf einem Mac mini M2 16GB
  Die Kombination aus Qwen 9B + LFM 450M funktioniert auch mit einem Budget von unter 400 $ gut
  Ich werde die Tests auf mehr Modelle ausweiten
Der M5 Pro ist erschienen, also habe ich reale AI-Workloads getestet
Qwen3.5-9B erreichte 93,8 % und lag damit nur 4 Punkte hinter GPT-5.4, alles komplett lokal ausgeführt
25 tok/s, 765 ms TTFT und nur 13,8 GB Speicherverbrauch
Alle Ergebnisse ansehen
- Danke fürs Teilen der Ergebnisse, aber die Seite und die Kommentare haben einen übertriebenen Stil, als wären sie von AI geschrieben, sodass schwer zu erkennen ist, was genau getestet wurde
  Ein Link, auf dem die Testpunkte klar ersichtlich sind, wäre hilfreich
- Bei einem „vollständig lokalen Home-Security-System“ würde mich interessieren, ob die GPU 24/7 unter Volllast läuft
  Ich würde auch gern wissen, ob es bei längerer Nutzung Schäden am Silizium gab
Derzeit braucht man zum Ausführen lokaler Modelle etwa 2.500 $
Interessanterweise haben meine Eltern 1995 für einen 166-MHz-PC ungefähr ähnlich viel bezahlt
- Ich erinnere mich auch daran, in den 80ern und 90ern PCs für mehrere tausend Dollar gekauft zu haben
  Nachdem ich erlebt habe, wie schnell der Wert von Elektronik sinkt, bin ich heute sehr preissensibel
  Allerdings könnte es wegen der Verlangsamung von Moores Gesetz sein, dass die Preise nicht mehr so stark fallen wie früher
- Ich habe 1989 einen 386sx für 3.800 $ gekauft; inflationsbereinigt wären das heute fast 10.000 $
  Kaum zu glauben, dass das damals als „gutes Preis-Leistungs-Verhältnis“ galt
- Das beste lokale Modell im Benchmark, Qwen3.5-9B (Q4_K_M), ist ein auf 4,5 Bit quantisiertes Modell mit 9B Parametern
  Es läuft auch auf einem Mac Mini für 500 $ gut
- Als Einstieg reicht ein Mac Mini 16GB (<499 $) völlig aus
  Auch auf einem M2 Mini laufen kleine Modelle gut
Dieser Prompt-Injection-Test wirkt wenig überzeugend
- Das wird hauptsächlich zur Erkennung von Man-in-the-Middle-Angriffen verwendet
  Danke fürs Review
Technisch ist das großartig, aber es fehlt die Funktion zur Ausstellung eines Alarmzertifikats für Versicherungen
Im realen Geschäft ist das nötig, damit Versicherungsrabatte oder Schadensersatz möglich sind
Am Ende sind nicht die Technologie, sondern Regulierung und Compliance die größere Hürde
- Stimmt, dieser Maßstab scheint sehr hoch zu sein
Ich frage mich, wie sich dieses System mit Frigate vergleichen lässt
Mich interessiert, ob es einfach nur eine Schicht über dem NVR ist oder ob es auch bewegungserkannte Aufnahmen macht
- Wenn man für Frigate eine Coral TPU kauft, kann man viele Inferenzaufgaben günstig auslagern
- Aegis unterstützt ONVIF-Kamera-Integration, bewegungserkannte Aufnahmen und VLM-basiertes Kontextverständnis
  Es kann Aufnahmen von BLINK/RING-Kameras lokal speichern und als persistenten Speicher nutzen
Es klingt wie ein Witz, aber das S in AI steht für Security
In Zukunft könnten Token wie Datentraffic verkauft werden und zu alltäglichen Konsumgütern werden

Lokales KI-Sicherheitssystem auf Basis von MacBook M5 Pro und Qwen3.5

Leistungsvergleich: Local AI vs Cloud

Qwen3.5-35B-MoE** hat** mit TTFT 435 ms eine geringere Latenz als alle OpenAI-Cloud-Modelle

Überblick über HomeSec-Bench

Wichtige Test-Suites (insgesamt 15)

Zentrale Bewertungsfragen

Der Wert lokaler KI

Systemaufbau

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare

Qwen3.5-35B-MoE hat mit TTFT 435 ms eine geringere Latenz als alle OpenAI-Cloud-Modelle