5 Punkte von xguru 2024-03-14 | Noch keine Kommentare. | Auf WhatsApp teilen
  • AICI – Artificial Intelligence Controller Interface
  • Ermöglicht den Aufbau von Controllern, die die Ausgabe großer Sprachmodelle (LLMs) in Echtzeit einschränken und steuern können
  • Controller können eingeschränktes Decoding, dynamische Bearbeitung von Prompts und generiertem Text sowie Koordination zwischen parallelen Generierungen durchführen
  • Controller integrieren benutzerdefinierte Logik während des tokenweisen Decodings und behalten während der LLM-Anfrage ihren Zustand bei
  • Ziel von AICI ist es, bestehende und neue Controller-Strategien einfach aufzubauen und zu erproben
    • indem Implementierungsdetails der zugrunde liegenden LLM-Inferenz- und Bereitstellungs-Engines abstrahiert werden
      • um die Controller-Entwicklung zu vereinfachen,
      • schnelle Controller leichter schreibbar zu machen und
      • die Kompatibilität zwischen LLM-Inferenz- und Bereitstellungs-Engines zu erleichtern
  • AICI ist für die Ausführung lokal und in der Cloud konzipiert, einschließlich (letztlich) mandantenfähiger LLM-Bereitstellungen
    • Controller werden als leichtgewichtige WebAssembly-(Wasm-)Module implementiert, die auf demselben System wie die LLM-Inferenz-Engine laufen und die CPU nutzen, während die GPU mit der Token-Generierung beschäftigt ist
    • AICI ist als Schicht im Inferenz-Stack konzipiert, auf der Steuerungsbibliotheken wie Guidance, LMQL usw. laufen können, um sowohl Portabilität als auch Effizienz- und Leistungsverbesserungen über verschiedene LLM-Inferenz- und Service-Engines hinweg zu erzielen
  • AICI ist
    • flexibel: Controller können in jeder Sprache geschrieben werden, die nach Wasm kompiliert werden kann (Rust, C, C++, ...), oder innerhalb von Wasm interpretiert werden (Python, JavaScript, ...)
    • sicher: Controller laufen in einer Sandbox und können nicht auf Dateisystem, Netzwerk oder andere Ressourcen zugreifen
    • schnell: Wasm-Module werden zu nativem Code kompiliert und parallel zur LLM-Inferenz-Engine ausgeführt, sodass nur minimaler Overhead im Generierungsprozess entsteht
  • Ein von Microsoft Research entworfenes und entwickeltes Prototyp-System

Noch keine Kommentare.

Noch keine Kommentare.