13 Punkte von xguru 2023-05-02 | 1 Kommentare | Auf WhatsApp teilen
  • Unterstützung für Integer-Quantisierung: ggml-Whisper-Modelle können von den standardmäßigen 16-Bit-Gleitkomma-Gewichten auf 4-, 6- oder 8-Bit-Integer-Gewichte umgestellt werden
    • Reduziert den Speicherplatz auf der Festplatte und den Speicherverbrauch und läuft dadurch auf einigen Architekturen schneller
    • Ermöglicht durch Code, der zum llama.cpp-Projekt beigetragen wurde
  • Unterstützung für NVIDIA-GPUs mithilfe von cuBLAS