30 Punkte von GN⁺ 2024-09-22 | 7 Kommentare | Auf WhatsApp teilen
  • Modelle für Künstliche Intelligenz (KI) werden normalerweise online genutzt, doch mehrere offene Tools verändern das derzeit.
  • Der Bioinformatiker Chris Thorpe nutzt große Sprachmodelle (LLMs) als KI-Werkzeug, um histo.fyi, eine Datenbank für Moleküle des Haupthistokompatibilitätskomplexes (MHC) des Immunsystems, in leicht lesbare Zusammenfassungen zu verwandeln.
  • Statt webbasierter LLMs wie ChatGPT betreibt Thorpe KI auf seinem Laptop.

Jüngste Trends bei LLMs

  • Organisationen erstellen „Open-Weight“-Versionen von LLMs, die Nutzer lokal herunterladen und ausführen können, sofern genügend Rechenleistung vorhanden ist.
  • Technologieunternehmen entwickeln abgespeckte Versionen, die auf Consumer-Hardware laufen und mit der Leistung früherer großer Modelle mithalten können.

Warum Forschende lokale Modelle nutzen

  • Kostensenkung
  • Schutz vertraulicher Patienten- oder Unternehmensdaten
  • Sicherstellung der Reproduzierbarkeit
  • Da Computer schneller werden und Modelle effizienter, werden Menschen KI zunehmend auf Laptops oder mobilen Geräten ausführen.

Beispiele für kürzlich veröffentlichte kleine Open-Weight-Modelle

  • Google DeepMind, Meta, das Allen Institute for Artificial Intelligence und andere haben Modelle mit mehreren Milliarden Parametern veröffentlicht.
  • Microsoft hat kleine Sprachmodelle wie Phi-1, Phi-1.5, Phi-2, Phi-3 und Phi-3.5 veröffentlicht; einige davon können auch Bilder verarbeiten.
  • Sébastien Bubeck, Vice President für generative KI bei Microsoft, erklärt die Leistung von Phi-3 mit seinem Trainingsdatensatz.

Entwicklung maßgeschneiderter Anwendungen

  • Forschende können auf Basis dieser Tools maßgeschneiderte Anwendungen entwickeln.
  • Das chinesische Unternehmen Alibaba hat ein Modell namens Qwen entwickelt; ein biomedizinischer Wissenschaftler aus New Hampshire hat es mit wissenschaftlichen Daten feinabgestimmt und daraus Turbcat-72b gemacht.

Schutz der Privatsphäre

  • Ein weiterer Vorteil lokaler Modelle ist der Schutz der Privatsphäre.
  • Die Übertragung personenbezogener Informationen an kommerzielle Dienste kann gegen Datenschutzvorschriften verstoßen.
  • Der Arzt Cyril Zakka, Leiter des Medical-Teams bei Hugging Face, nutzt lokale Modelle, um Trainingsdaten für andere Modelle zu erzeugen.
  • Johnson Thomas, Endokrinologe beim Mercy-Gesundheitssystem in Springfield, entwickelt zum Schutz der Privatsphäre von Patienten ein System auf Basis von OpenAIs Whisper und Google DeepMinds Gemma 2, das Arzt-Patienten-Gespräche transkribiert und zusammenfasst.
  • CELLama, entwickelt vom Pharmaunternehmen Portrai in Seoul, nutzt lokale LLMs, um Informationen über Genexpression und andere Eigenschaften von Zellen auf zusammenfassende Sätze zu verdichten, und hebt Privatsphäre als zentralen Vorteil hervor.

Einsatz der Modelle

  • Forschende sehen sich einer sich schnell wandelnden Auswahl an LLM-Optionen gegenüber.
  • Thorpe nutzt derzeit Llama auf seinem Laptop und sagt, dass lokale Modelle aus Sicht der Reproduzierbarkeit Vorteile haben, weil sie unverändert bleiben.
  • Thorpe schreibt Code, um MHC-Moleküle anhand ihrer 3D-Struktur zu sortieren, und nutzt dafür sowie für das Design neuer Proteine ein Open-Weight-Modell namens ProtGPT2.
  • Manchmal reichen lokale Apps jedoch nicht aus, und Thorpe nutzt für das Programmieren den cloudbasierten GitHub Copilot.

Vorgehensweise

  • Mit Software wie Ollama, GPT4All und Llamafile lassen sich LLMs lokal ausführen.
  • Je nach Präferenz können Nutzer eine App oder die Kommandozeile wählen.
  • Stephen Hood von Mozilla sagt, dass lokale LLMs bald für die meisten Anwendungen gut genug sein werden.

Meinung von GN+

  • Lokale LLMs können für Forschende ein sehr nützliches Werkzeug sein. Sie bieten Vorteile wie geringere Kosten, besseren Schutz der Privatsphäre und gesicherte Reproduzierbarkeit.
  • Manchmal können cloudbasierte Dienste jedoch die bessere Leistung liefern, daher sollten Forschende je nach Anforderungen ihrer Anwendung das passende Werkzeug wählen.
  • Da sich lokale LLMs sehr schnell weiterentwickeln, sollten Forschende neue Modelle und Tools kontinuierlich erkunden und ausprobieren.
  • Je nach Forschungsgebiet kann es sich außerdem lohnen, maßgeschneiderte Modelle zu entwickeln. Biomedizinische Forschende könnten etwa Modelle mit medizinischen Daten feinabstimmen, um bessere Leistung zu erzielen.
  • Da sich lokale LLMs noch in einem frühen Stadium befinden, sollten Forschende mögliche Probleme und Grenzen bei ihrem Einsatz im Blick behalten, etwa Modell-Bias, Datenqualität und ethische Aspekte.

7 Kommentare

 
savvykang 2024-09-24

Bisher ist sie heiß, langsam und ungenau. Für Nature ist die Qualität des Artikels ziemlich schwach.

 
yangeok 2024-09-24

Wird es am Edge nicht langsam und ungenau ausgeführt?

 
kandk 2024-09-23

Sofern es sich nicht um einen Bereich handelt, in dem Latenz und Datenschutz tatsächlich problematisch sind, gibt es im Grunde keinen Grund, Edge Computing (lokal) zu verwenden.. Nahezu alle Daten der Welt werden ohnehin bereits von AWS und Google verarbeitet, und jetzt plötzlich mit Datenschutz zu argumentieren, ist letztlich nur ein Verkaufsargument von Unternehmen, denen die Technik fehlt, um LLMs zu entwickeln..

 
lcanon 2024-09-22

Im Titel des Nature-Artikels taucht zwar small auf, aber im Großteil des Inhalts steht eigentlich local im Mittelpunkt.

 
dohyun682 2024-09-22

Jedes Mal heißt es, man solle ChatGPT vergessen ...

 
kandk 2024-09-23

Haha

 
GN⁺ 2024-09-22
Hacker-News-Kommentare
  • Empfehlung zur Nutzung lokaler Modelle

    • Für Menschen, die lokale Modelle für zu komplex halten oder glauben, dass ihr Computer nicht leistungsfähig genug ist, wird empfohlen, Llamafile herunterzuladen.
    • Es gibt auch Whisperfiles, wodurch Echtzeit-Sprachtranskription möglich ist.
    • Mit Twinny sind rein lokale Code-Autovervollständigung und Chat möglich.
    • Kostenlos, privat und offline nutzbar.
  • Erfahrungen mit der Nutzung lokaler LLMs

    • Während des morgendlichen Spaziergangs werden Sprachmemos aufgenommen, lokal mit Whisper in Text umgewandelt und anschließend mit einem LLM aufbereitet.
    • Aus Datenschutzgründen wird die lokale Nutzung bevorzugt.
  • AMD Strix Halo APU

    • Geräte mit AMD Strix Halo APU, 128 GB Unified Memory und 50 TOPS NPU sollen bald erscheinen.
    • Sie gelten als vielversprechende Alternative zu MacBook-Pro-Modellen.
  • Lizenzprobleme bei Llama 3.1

    • Llama 3.1 ist nicht Open Source.
    • Es muss klar zwischen Lizenzmodellen und Open Source unterschieden werden.
  • Nutzung von Docker und Ollama

    • Mit Ollama in Docker wird eine ChatGPT-ähnliche Leistung erlebt.
    • Integration mit Obsidian-Notizen zur Erstellung von Notizen und für Fuzzy Search.
    • Nutzung als Hilfswerkzeug für Fragen zu psychischer Gesundheit und Medizin.
  • Leistung lokaler LLMs

    • Auf einem M1 Max erreicht Llama 8bn etwa 25 Token pro Sekunde.
    • Auf einem Ryzen 5600h ist es mit 10 Token pro Sekunde langsamer.
    • Für Problemlösungen werden ChatGPT oder phind.com verwendet.
    • Für sensible Informationen kommen Online-Anbieter nicht infrage.
  • Experimente mit lokalen LLMs

    • Experiment zur Ausführung von Llama-3.1-8b-instruct auf einer Nvidia RTX 4060.
    • Ein 20k-Token-Kontext kann vollständig in den GPU-Speicher geladen werden.
    • Da die multimodalen Funktionen von Gemini bessere Qualität liefern, wird der Nutzen lokaler LLMs als geringer eingeschätzt.
  • LLM-basierte Produkte großer Unternehmen

    • Im Bereich Schaltungsdesign ist die Nutzung lokaler Modelle notwendig.
    • Lokale Modelle werden bevorzugt, um nicht von bestimmten Anbietern wie OpenAI abhängig zu sein.
    • Auch privat wird die Nutzung lokaler Modelle bevorzugt.
  • Trainingsdaten für LLMs

    • Microsoft trainiert LLMs mit von LLMs erzeugten Inhalten.
    • Eine Leistung ähnlich früher ChatGPT-Versionen wird auf Mobiltelefonen erreicht.
  • Empfohlene Spezifikationen zum Ausführen kleiner Modelle

    • Es wird nach empfohlenen Spezifikationen gefragt, um kleine Modelle wie Llama3.1 oder Mistral-Nemo auszuführen.
    • Außerdem wird gefragt, ob es sinnvoll ist, auf neue Mac-, AMD- oder Nvidia-Hardware zu warten.