Ollama v0.1.33 - Unterstützung für Llama 3 + Phi 3 + Qwen 110B

xguru · 2024-04-30T09:22:01+09:00

Unterstützung für neue Modelle Llama 3: Metas neues Modell und bislang das leistungsstärkste offene LLM Phi 3 Mini: Microsofts neues leichtgewichtiges offenes Modell mit 3,8 Milliarden Parametern Moondream: Kleines Vision-Language-Modell, das für effiziente Ausführung auf Edge-Geräten entwickelt wurde Dolphin Llama 3: Unzensiertes, von Eric Hartford auf Basis von Llama 3 trainiertes Modell. Enthält vielfältige Fähigkeiten für Lehre, Dialog und Coding Qwen 110B: Modell mit 100B Parametern, das in Evaluierungen hervorragende Leistung zeigte (Alibaba) Fehlerbehebungen Problem behoben, bei dem die API blockiert wurde, weil Modelle nicht beendet wurden Out-of-Memory-Fehler auf Apple-Silicon-Macs behoben Out-of-Memory-Fehler beim Ausführen von Modellen mit Mixtral-Architektur behoben Experimentelle Parallelitätsfunktionen OLLAMA_NUM_PARALLEL: Verarbeitet mehrere Anfragen für ein einzelnes Modell gleichzeitig OLLAMA_MAX_LOADED_MODELS: Lädt mehrere Modelle gleichzeitig Einrichtung per Umgebungsvariablen erforderlich OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve

(github.com/ollama)

8 Punkte von xguru 2024-04-30 | 1 Kommentare | Auf WhatsApp teilen

Unterstützung für neue Modelle
- Llama 3: Metas neues Modell und bislang das leistungsstärkste offene LLM
- Phi 3 Mini: Microsofts neues leichtgewichtiges offenes Modell mit 3,8 Milliarden Parametern
- Moondream: Kleines Vision-Language-Modell, das für effiziente Ausführung auf Edge-Geräten entwickelt wurde
- Dolphin Llama 3: Unzensiertes, von Eric Hartford auf Basis von Llama 3 trainiertes Modell. Enthält vielfältige Fähigkeiten für Lehre, Dialog und Coding
- Qwen 110B: Modell mit 100B Parametern, das in Evaluierungen hervorragende Leistung zeigte (Alibaba)
Fehlerbehebungen
- Problem behoben, bei dem die API blockiert wurde, weil Modelle nicht beendet wurden
- Out-of-Memory-Fehler auf Apple-Silicon-Macs behoben
- Out-of-Memory-Fehler beim Ausführen von Modellen mit Mixtral-Architektur behoben
Experimentelle Parallelitätsfunktionen
- OLLAMA_NUM_PARALLEL: Verarbeitet mehrere Anfragen für ein einzelnes Modell gleichzeitig
- OLLAMA_MAX_LOADED_MODELS: Lädt mehrere Modelle gleichzeitig
- Einrichtung per Umgebungsvariablen erforderlich
  - OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve

1 Kommentare

siabard 2024-04-30

Ich brauchte die Nutzung mehrerer Modelle, und jetzt ist das möglich. ^^=b

Ollama v0.1.33 - Unterstützung für Llama 3 + Phi 3 + Qwen 110B

Verwandte Beiträge

1 Kommentare