Ich verstehe nicht, warum manche Menschen bei LLMs immer noch bullish sind
(twitter.com/skdh)"I genuinely don't understand why some people are still bullish about LLMs."
- Ich nutze täglich verschiedene LLMs wie GPT, Grok, Gemini und Mistral
- Ich nutze sie in der Erwartung, bei Informationssuche und Zusammenfassungen Zeit zu sparen, aber sie erfinden nach wie vor häufig Quellen, Zitate und Links
- Klickt man auf die Links, landet man oft auf einem 404-Fehler, oder die zitierten Formulierungen existieren bei einer Suche gar nicht
- Selbst wenn wissenschaftliche Arbeiten zitiert werden, stellt sich bei der Suche oft heraus, dass sie nicht existieren
Einige Verbesserungen gab es, aber die Zuverlässigkeit ist weiterhin gering
- Durch Techniken wie DeepSearch oder Chain of Thought hat sich die Genauigkeit gegenüber früher leicht verbessert
- Meiner persönlichen Einschätzung nach ist DeepResearch in GPT-4o derzeit am verlässlichsten
- Grok liefert selbst auf Anfrage selten Referenzlinks und schafft es nicht einmal, Tweet-Links korrekt zu verknüpfen
- Bei Gemini ist die Lage noch schlechter; statt Quellen zu finden, bekommt man nur den Hinweis, selbst zu suchen
Für einfache Berechnungen oder das Nachschlagen von Konstanten nützlich, aber Genauigkeit bleibt ein Problem
- Dinge wie Einheitenumrechnung oder physikalische Konstanten werden schnell geliefert und sparen dadurch Zeit
- Bei einfachen Berechnungen wie Größenschätzungen treten jedoch häufig Fehler auf
- Es ist fraglich, ob man für solche Aufgaben ein LLM mit mehr als 100 Milliarden Parametern braucht
Auch bei Dokumentenzusammenfassungen enttäuschende Ergebnisse
- Ich habe ein PDF-Dokument hochgeladen und um eine Zusammenfassung gebeten, doch ein im Header klar als 2025 gekennzeichnetes Dokument wurde für eines aus 2023 gehalten
- Solche Fehler wirken weit entfernt von dem, was man als "Intelligenz" bezeichnen würde
Wissensgraphen sind ebenfalls keine Lösung
- Viele erwarten, dass Wissensgraphen die Probleme von LLMs lösen werden, doch in der Praxis ist das nicht möglich
- Logisch konsistente Sätze stehen oft weiterhin in keinerlei Bezug zur Realität
- Selbst wenn Wissensgraphen logische Fehler verhindern, können weiterhin Aussagen erzeugt werden, die mit den Fakten nichts zu tun haben
Sorge über die Überbewertung des Marktes
- Unternehmen überhöhen LLMs weiterhin massiv, und das ist ein Risikofaktor
- Wenn ein völlig neuer Typ von KI-Modell erscheint und LLMs übertrifft, könnte der Wert heutiger LLM-zentrierter Unternehmen drastisch einbrechen
- Wenn dieser Tag kommt, ist ein großer Schock für den Aktienmarkt zu erwarten
2 Kommentare
Ich hatte ungefähr letztes Jahr auch eine ähnliche Meinung, aber wenn man die Geschwindigkeit der Entwicklung betrachtet, bin ich eher optimistisch geworden.
Hacker-News-Meinung
LLMs sind eine erstaunliche Technologie und machen Dinge möglich, von denen man lange geträumt hat. Sie verstehen und führen Gespräche trotz Rechtschreibfehlern oder unklaren Fragen, erzeugen beeindruckende Bilder und helfen auch beim Schreiben von Code. Dennoch beklagen sich manche Menschen darüber, dass sie keine perfekte Superintelligenz sind. Das Entwicklungstempo der Technologie ist erstaunlich schnell. Einige beschweren sich, dass sie „keinen Code wie ein Senior Engineer mit 20 Jahren Erfahrung schreiben können“
Die Erfahrung mit der vorwiegenden Nutzung von Claude ist ganz anders. Man versucht keine Aufgaben, bei denen LLMs voraussichtlich schlecht abschneiden. Menschen, die AI nutzen, teilen sich in diejenigen, die nach Fehlschlägen suchen, und diejenigen, die nach Erfolgen suchen. Für einfache Scripting-Aufgaben sind LLMs nahezu perfekt. Wenn man herausfindet, wie man AI so einsetzt, dass sie funktioniert, kann sie ein mächtiges Werkzeug sein
Die Nutzbarkeit von LLMs ist weiterhin unzureichend. Zitate oder Quellenangaben werden nicht gut geliefert. Dass Computer Fakten nicht präzise finden können, widerspricht einer traditionellen Stärke von Computern
Viele Menschen verwenden LLMs falsch. In letzter Zeit gibt es viele Diskussionen darüber, ob Sprachmodelle wirklich am besten für die Transkription von Sprache geeignet sind. Vor 10 Jahren gab es keine Echtzeit-Maschinentranskription, jetzt ist sie möglich und entwickelt sich weiter. Trotz der Fehler von AI-Modellen ist maschinelle Transkription in vielen Situationen nützlich
Ich bin unschlüssig, ob man auf Sabines Meinung hören sollte. LLMs können Sequence Modeling und Vorhersageaufgaben durchführen. Wenn sich ein Problem auf Sequence Modeling reduzieren lässt, können LLMs die Aufgabe ausführen
Gemeinsam ist der Kritik an LLMs, dass sie nicht perfekt sind. Ich nutze ChatGPT häufig für akademische Forschung. Manchmal erfindet es Literaturangaben, aber es hilft dabei, wichtige Forschungsarbeiten zu finden. Die Genauigkeit zu überprüfen ist einfach, Wissen zu finden ist schwierig. Insgesamt hat das einen großen positiven Effekt
Viele Menschen verwechseln die Leistungsfähigkeit der Technologie mit der Blase, in der wir leben. Ich sende AI Millionen von Anfragen und bekomme, was ich brauche. Die Technologie entwickelt sich weiter, und auch die Kosten verändern sich. Es gibt die Tendenz zu glauben, AI könne Dinge tun, die sie nicht kann
Ich nutze Claude viel und lasse Programme für gesundheitsbezogene Fragen erstellen. Die Fähigkeit, komplexe Fragen logisch zu erklären und die Analyse zu überarbeiten, ist sehr wertvoll. Im Vergleich zu einem Arzt liegt die Verantwortung beim Nutzer
Viele Menschen sind nicht gut darin, mit „unvollkommenen“ Werkzeugen umzugehen. Ein LLM ist ein Werkzeug mit keiner 100%igen Erfolgswahrscheinlichkeit und erfordert einen anderen Ansatz. Wenn man sich ein probabilistisches Orakel vorstellt, hängt seine Nützlichkeit von der Erfolgswahrscheinlichkeit ab
Ich habe viele Freunde, die nicht gut mit Menschen auskommen, aber ich komme mit allen gut aus. Bei AI ist es ähnlich: nicht perfekt, aber ein erstaunliches Werkzeug. Die Vorteile von AI überwiegen ihre Fehler bei Weitem. Zu lernen, wie man mit AI und Menschen umgeht, ist die wichtigste Fähigkeit, die man im 21. Jahrhundert braucht