- Das Qwen3.5-9B-Modell läuft vollständig lokal auf dem MacBook Pro M5 und erreicht mit 93,8 % Leistung, 4 Punkte weniger als GPT-5.4
- In HomeSec-Bench mit 96 Tests und 15 Suites werden reale Home-Security-Workflows wie Tool-Nutzung, Sicherheitsklassifizierung und Event-Deduplizierung bewertet
- Qwen3.5-35B-MoE ist mit einer TTFT von 435 ms schneller als alle OpenAI-Cloud-Modelle, bei einer GPU-Speichernutzung von 27,2 GB
- Lokale Ausführung verursacht keine API-Kosten und garantiert vollständige Datenprivatsphäre, mit Echtzeitvisualisierung auf Apple Silicon
- Mit dem Aegis-AI-System und der DeepCamera-Plattform wird ein lokal priorisiertes Home-Security-KI-Ökosystem auf Basis von Consumer-Hardware möglich
Leistungsvergleich: Local AI vs Cloud
- Das Modell Qwen3.5-9B läuft vollständig lokal auf dem MacBook Pro M5 und erzielt eine Bestehensquote von 93,8 %, also 4 Punkte weniger als GPT-5.4
- Verarbeitungsgeschwindigkeit von 25 Tokens pro Sekunde, TTFT (Time to First Token) 765 ms, Nutzung von 13,8 GB Unified Memory
- Keine API-Kosten und vollständig garantierte Datenprivatsphäre
- In einem Benchmark mit 96 Tests und 15 Suites wurden reale Home-Security-Workflows wie Tool-Nutzung, Sicherheitsklassifizierung und Event-Deduplizierung bewertet
- Im Leaderboard liegt GPT-5.4 (97,9 %) auf Platz 1, GPT-5.4-mini (95,8 %) auf Platz 2 und Qwen3.5-9B sowie 27B (93,8 %) gemeinsam auf Platz 3
- Qwen3.5-9B liegt 1 Punkt vor GPT-5.4-nano (92,7 %)
-
Qwen3.5-35B-MoE** hat** mit TTFT 435 ms eine geringere Latenz als alle OpenAI-Cloud-Modelle
- GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
- Bei der Decoding-Geschwindigkeit ist GPT-5.4-mini mit 234,5 tok/s am schnellsten, Qwen3.5-9B erreicht 25 tok/s
- Die GPU-Speichernutzung beträgt bei Qwen3.5-9B 13,8 GB, bei Qwen3.5-35B-MoE 27,2 GB und bei Qwen3.5-122B-MoE 40,8 GB
Überblick über HomeSec-Bench
- HomeSec-Bench ist ein LLM-Benchmark zur Bewertung realer Workflows für Home-Security-Assistenten
- Er prüft nicht nur einfache Konversationen, sondern auch für Sicherheitssysteme erforderliche Fähigkeiten wie Reasoning, Klassifizierung und Tool-Nutzung
- Nutzt 35 KI-generierte Bilder und kann auf OpenAI-kompatiblen Endpunkten ausgeführt werden
-
Wichtige Test-Suites (insgesamt 15)
- Context Preprocessing (6): Entfernen von Gesprächsduplikaten, Beibehaltung von Systemnachrichten
- Topic Classification (4): Domain-Routing von Anfragen
- Knowledge Distillation (5): Extraktion dauerhafter Fakten aus Gesprächen
- Event Deduplication (8): Erkennung derselben Person über mehrere Kameras hinweg
- Tool Use (16): Auswahl des richtigen Tools und der passenden Parameter
- Chat & JSON Compliance (11): Persona, JSON-Ausgabe, Mehrsprachigkeit
- Security Classification (12): Klassifizierung der Stufen Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4): Zusammenfassung von Event-Logs
- Prompt Injection Resistance (4): Verhinderung von Rollenverwirrung, Prompt-Extraktion und Privilegieneskalation
- Multi-Turn Reasoning (4): Interpretation von Verweisen, Wahrung zeitlicher Kontinuität
- Error Recovery (4): Umgang mit unmöglichen Anfragen und API-Fehlern
- Privacy & Compliance (3): Anonymisierung personenbezogener Daten, Ablehnung illegaler Überwachung
- Alert Routing (5): Routing von Benachrichtigungskanälen, Parsing stiller Zeitfenster
- Knowledge Injection (5): Personalisierte Antworten mithilfe eingespeisten Wissens
- VLM-to-Alert Triage (5): Vision-Ausgabe → Einschätzung der Dringlichkeit → Versand einer Benachrichtigung
-
Zentrale Bewertungsfragen
- Kann das richtige Tool mit den passenden Parametern ausgewählt werden?
- Kann eine „Person mit Maske in der Nacht“ als Critical klassifiziert werden?
- Kann das System Prompt Injection innerhalb von Ereignisbeschreibungen abwehren?
- Kann es dieselbe Person über 3 Kameras hinweg ohne Duplikate erkennen?
- Kann es in Multi-Turn-Gesprächen den Sicherheitskontext aufrechterhalten?
Der Wert lokaler KI
- Benchmarks auf Apple Silicon lassen sich in Echtzeit visualisieren
- Das 9B-Modell erreicht offline eine Leistung innerhalb von 4 % von GPT-5.4
- Vollständige Privatsphäre und null API-Kosten sind der Kernwert lokaler KI
Systemaufbau
- System: Aegis-AI — lokal priorisierte Home-Security-KI auf Basis von Consumer-Hardware
- Benchmark: HomeSec-Bench — 96 LLM- + 35-VLM-Tests, aufgebaut aus 16 Suites
- Skill Platform: DeepCamera — verteiltes KI-Skill-Ökosystem
1 Kommentare
Hacker-News-Kommentare
Ich habe mir schon lange vorgestellt, dass irgendwann die Zeit kommt, in der Familien beim Kauf eines Hauses oder von Haushaltsgeräten gleich auch einen AI-Server mitkaufen
Da sich die Hardwareentwicklung verlangsamt, könnte es reichen, einmal ein AI-System für den Haushalt zu kaufen, das man dann jahrzehntelang nutzt
Ich denke, dieses System würde die Historie einer Familie übernehmen, vollständig offline arbeiten und wie ein generationsübergreifender permanenter Assistent sein
Die Idee eines „AI-Servers, der die Familienlinie fortführt“, ist cool, aber realistisch gesehen lässt sich Hardware-Alterung nicht vermeiden
Auch wenn die Single-Core-Leistung heute stagniert, entwickelt sich AI wegen des Fokus auf Parallelverarbeitung weiterhin schnell
Ich denke, die Vorstellung eines Servers, den man jahrzehntelang nutzt, ist noch verfrüht
Die meisten Menschen sind zufrieden damit, Dienste wie Fotospeicherung oder Sicherheit der Cloud zu überlassen
Diese Seite wirkt spektakulär, ist in Wirklichkeit aber nur ein einfacher Home-Security-Benchmark
Verglichen werden nur Qwen-Modelle, und die neueste Version ist sogar langsamer als die vorherige
Je nach Aufgabe ist ein anderes Modell optimal; für VL, Mehrsprachigkeit oder Reasoning sind teils jeweils andere Modelle besser
Qwen 3.5 ist hervorragend, aber ein „einziges Modell, das alles gut kann“, gibt es nicht
Die Wahl des passenden Modells und das Prompt-Design sind wichtiger
Dafür braucht man nicht einmal einen aktuellen M5 Mac; ein zwei Jahre altes Notebook oder Smartphone reicht völlig aus
Derzeit teste ich auf einem MBP Pro 64GB nur LLMs, und ich halte LFM 450M für das beste VLM
Ein Update kommt bald
Ich experimentiere mit LM Studio und suche als lokalen Claude-Ersatz ein Modell für Coding in Rust und SQL
Die Kombination aus Qwen 9B + LFM 450M funktioniert auch mit einem Budget von unter 400 $ gut
Ich werde die Tests auf mehr Modelle ausweiten
Der M5 Pro ist erschienen, also habe ich reale AI-Workloads getestet
Qwen3.5-9B erreichte 93,8 % und lag damit nur 4 Punkte hinter GPT-5.4, alles komplett lokal ausgeführt
25 tok/s, 765 ms TTFT und nur 13,8 GB Speicherverbrauch
Alle Ergebnisse ansehen
Ein Link, auf dem die Testpunkte klar ersichtlich sind, wäre hilfreich
Ich würde auch gern wissen, ob es bei längerer Nutzung Schäden am Silizium gab
Derzeit braucht man zum Ausführen lokaler Modelle etwa 2.500 $
Interessanterweise haben meine Eltern 1995 für einen 166-MHz-PC ungefähr ähnlich viel bezahlt
Nachdem ich erlebt habe, wie schnell der Wert von Elektronik sinkt, bin ich heute sehr preissensibel
Allerdings könnte es wegen der Verlangsamung von Moores Gesetz sein, dass die Preise nicht mehr so stark fallen wie früher
Kaum zu glauben, dass das damals als „gutes Preis-Leistungs-Verhältnis“ galt
Es läuft auch auf einem Mac Mini für 500 $ gut
Auch auf einem M2 Mini laufen kleine Modelle gut
Dieser Prompt-Injection-Test wirkt wenig überzeugend
Danke fürs Review
Technisch ist das großartig, aber es fehlt die Funktion zur Ausstellung eines Alarmzertifikats für Versicherungen
Im realen Geschäft ist das nötig, damit Versicherungsrabatte oder Schadensersatz möglich sind
Am Ende sind nicht die Technologie, sondern Regulierung und Compliance die größere Hürde
Ich frage mich, wie sich dieses System mit Frigate vergleichen lässt
Mich interessiert, ob es einfach nur eine Schicht über dem NVR ist oder ob es auch bewegungserkannte Aufnahmen macht
Es kann Aufnahmen von BLINK/RING-Kameras lokal speichern und als persistenten Speicher nutzen
Es klingt wie ein Witz, aber das S in AI steht für Security
In Zukunft könnten Token wie Datentraffic verkauft werden und zu alltäglichen Konsumgütern werden