- Dank LLaMA.cpp, das den LLaMA-Inferenzcode in reinem C++ neu geschrieben hat, kann es auf verschiedenster Hardware wie dem Pixel 5, dem M2 MacBook Pro und dem Raspberry Pi ausgeführt werden
- Große Modelle benötigen normalerweise teure GPUs – wie ist das also möglich?
- GPUs sind für Deep Learning wegen ihrer hohen Speicherbandbreite und Rechenleistung vorteilhaft, aber die Speicherbandbreite wird bei der Inferenz oft zum Flaschenhals
- Denn für die eigentliche Berechnung müssen Daten aus dem HBM-Speicher (RAM) in den On-Chip-Speicher übertragen werden
- Quantisierung ist entscheidend für den RAM-Verbrauch der LLaMA-Gewichte
- Wenn man die Präzision reduziert, lässt sich der zum Speichern des Modells benötigte Speicher drastisch verringern
- Durch Quantisierung wird der zum Speichern des Modells benötigte Speicher so weit reduziert, dass es in den Speicher von Standard-Data-Center-GPUs und leistungsstarken Consumer-GPUs passt
- Die Speicherbandbreite ist bei fast allen mit dem Sampling von Transformern verbundenen Aufgaben der limitierende Faktor
- Wenn man den Speicherbedarf mit Methoden wie Quantisierung reduziert, wird das Bereitstellen des Modells deutlich einfacher
- Das ist auch ein weiterer Grund für Distillation oder dafür, „kleinere Modelle länger zu trainieren“
3 Kommentare
Ich habe auf einem lokalen Rechner
llama2mit LlamaCpp geladen und einen Embedding-Test durchgeführt.https://breezymind.com/llamacpp-embedding
Der erste Kommentar auf HN ist nützlich.
Hacker-News-Kommentare