Probabilistische KI-Techniken

(arxiv.org)

1 Punkte von GN⁺ 2025-03-12 | 1 Kommentare | Auf WhatsApp teilen

Probabilistische KI geht über AI hinaus, die nur Vorhersagewerte ausgibt, und befasst sich mit Ansätzen, die Unsicherheit ableiten und in Entscheidungen einfließen lassen
Der erste Teil des Materials konzentriert sich auf probabilistisches Machine Learning und unterscheidet zwischen epistemischer Unsicherheit, die durch Datenmangel entsteht, und aleatorischer Unsicherheit, die sich wie Beobachtungsrauschen nur schwer reduzieren lässt
Anhand von Bayesian linear regression, Gaussian process models und Bayesian neural networks wird probabilistische Modellierung behandelt; für rechnerisch schwierige Inferenz und Vorhersage kommt approximative Inferenz zum Einsatz
Der zweite Teil erklärt, wie Unsicherheit bei sequenzieller Entscheidungsfindung wie active learning, Bayesian optimization und reinforcement learning die Datenerhebung und Exploration steuert
Das Material ist auf einen einsemestrigen Einführungskurs im Masterstudium ausgelegt; Kenntnisse in Wahrscheinlichkeit, Analysis, linearer Algebra und grundlegendem Machine Learning erleichtern das Verständnis

Kernprobleme probabilistischer KI

Künstliche Intelligenz bezeichnet die Wissenschaft und Technik künstlicher Systeme, die Aufgaben ausführen, für die bestimmte Aspekte menschlicher Intelligenz als erforderlich gelten, etwa Spiele spielen, Sprachübersetzung oder Autofahren
Die jüngsten Fortschritte in der KI hängen eng mit lernbasierten und datengetriebenen Ansätzen zusammen; Machine Learning und Deep Learning erweitern die Art und Weise, wie Computersysteme die Welt wahrnehmen
Reinforcement Learning erzielt Erfolge in komplexen Spielen wie Go und in Robotikaufgaben wie vierbeinigem Gehen
Intelligente Systeme benötigen nicht nur Vorhersagewerte, sondern auch die Fähigkeit, die Unsicherheit von Vorhersagen abzuleiten und sie bei der Auswahl von Handlungen zu berücksichtigen

Probabilistisches Machine Learning

Der erste Teil ist auf Ansätze des probabilistischen Machine Learning ausgerichtet
Unsicherheit wird in zwei Arten unterteilt
- Epistemische Unsicherheit (epistemic uncertainty): Unsicherheit, die aus Datenmangel entsteht und durch mehr Information reduziert werden kann
- Aleatorische Unsicherheit (aleatoric uncertainty): Unsicherheit, die wie verrauschte Beobachtungen und Ergebnisse im Kern schwer zu reduzieren ist
Wichtige probabilistische Inferenzmodelle sind:
- Bayesian linear regression
- Gaussian process models
- Bayesian neural networks
In solchen Modellen werden Inferenz und Vorhersage oft rechnerisch anspruchsvoll, daher werden auch moderne Methoden der approximativen Inferenz behandelt

Nutzung von Unsicherheit bei sequenzieller Entscheidungsfindung

Der zweite Teil konzentriert sich auf Aufgaben der sequenziellen Entscheidungsfindung, bei denen über die Zeit Daten gesammelt und Handlungen ausgewählt werden müssen
Active learning und Bayesian optimization sind Ansätze zur Datenerhebung, die Experimente vorschlagen, die nützlich sind, um epistemische Unsicherheit zu reduzieren
Reinforcement Learning ist ein Formalismus zur Modellierung von Agenten, die in unsicheren Umgebungen Handlungen lernen
Ausgehend von der Grundform der Markov Decision Processes führt dies zu modernen Deep-RL-Ansätzen, die neuronale Netze zur Funktionsapproximation verwenden
Abschließend werden model-based RL-Ansätze behandelt, die epistemische und aleatorische Unsicherheit nutzen, um Exploration zu steuern und zugleich Sicherheit zu berücksichtigen

Zielgruppe und vorausgesetztes Wissen

Das Material kann als Einführung für einen einsemestrigen Masterkurs zu probabilistischem Machine Learning und sequenzieller Entscheidungsfindung genutzt werden
Es richtet sich an Leser mit unterschiedlichen Hintergründen, setzt aber folgende Grundlagen voraus:
- Grundbegriffe der Wahrscheinlichkeit
- Analysis
- Lineare Algebra
- Grundlegendes Machine Learning einschließlich neuronaler Netze
Kapitel 1 führt sanft in die probabilistische Inferenz ein, die für die folgenden Inhalte benötigt wird, und wiederholt zugleich zentrale Konzepte der Wahrscheinlichkeitstheorie
Im hinteren Teil des Manuskripts ist ein Kapitel enthalten, das zentrale Konzepte des zusätzlichen mathematischen Hintergrunds wiederholt

Lernaufbau

Der Fokus liegt auf Kernkonzepten und Ideen statt auf der historischen Entwicklung
Vertiefendes Lernen und historischer Kontext werden über die Literaturangaben erschlossen
Am Ende jedes Kapitels sind Übungsaufgaben enthalten
Im Text mit einem Fragezeichen hervorgehobene Elemente verweisen auf Übungsaufgaben
Die Lösungen zu allen Übungsaufgaben sind im hinteren Teil des Manuskripts zu finden

1 Kommentare

GN⁺ 2025-03-12

Hacker-News-Meinungen

Der Artikel hat hervorragende erklärende Diagramme und wirkt wie ein hochwertiger Überblick, der Machine Learning aus probabilistischer Perspektive mathematisch gut durchgeht.
In letzter Zeit fand ich auch Zhaos kostenloses Lehrbuch und seine YouTube-Vorlesung Mathematical Foundation of Reinforcement Learning beeindruckend: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
Wer wenig Zeit hat, sollte sich zumindest Zhaos Übersichtsdiagramm zum Inhaltsverzeichnis ansehen; es ist eine gute Konzeptkarte des gesamten Feldes: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
Wenn möglich, empfehle ich auch das Einführungsvideo.
- Die erste Vorlesung ist wirklich gut. Nicht nur inhaltlich, sondern auch die Art, wie Zhao erklärt, wie man Lernen als Student betrachten sollte, ist hervorragend.
Ich habe dieses Material vor ein paar Tagen gesehen, und der Grund, es ernsthaft zu lesen, ist, dass Andreas Krause tiefgehende und interessante Forschung zu gaußschen Prozessen und Bandits betrieben hat.
[1] https://scholar.google.com/scholar?start=10&q=andreas+krause...
- Krause ist einer der großen Forscher in diesem Bereich. Nach den anderen Arbeiten, die ich von ihm gelesen habe, schreibt er auch recht gut, also scheint es lesenswert zu sein.
Vielleicht ist das eine dumme Frage, aber kann ein LLM die Wahrscheinlichkeit der Antwort angeben, die es gerade ausgespuckt hat? Anders gesagt: Kann es sich in Richtung Fuzzy-Logik verändern?
Und darüber hinaus: Kann es auch sagen, wie sehr es sich selbst glaubt? Also die Wahrscheinlichkeit, dass die obige Wahrscheinlichkeit stimmt – so etwas wie Konfidenz oder intuitionistische Fuzzy-Logik.
Vor langer Zeit habe ich an der Uni kurz etwas darüber gelernt und auch einen Prolog-Interpreter gebaut, bei dem jeder Term F+IF hatte, also Wahrscheinlichkeit und Konfidenzkoeffizient.
- Im Grundzustand halte ich das für schwierig. Einer solchen Selbsteinschätzung würde ich nicht trauen.
  Wenn genug Rechenressourcen vorhanden sind, könnte man Beam Search verwenden und dann mit einem LLM bewerten, wie viele der resultierenden Antworten im Wesentlichen gleich sind, um so eine Ersatzmetrik für „Konfidenz“ zu erzeugen.
- Soweit ich es verstehe, ist eine LLM-Antwort eine Kette von Tokens, die an jeder Position jeweils die höchste Wahrscheinlichkeit haben. Es kann komplexere Verfahren zur Kandidatenerzeugung und -auswahl geben, aber man kann es vereinfacht als Auswahl des größten Werts betrachten.
  Wenn man Tokens der Einfachheit halber als Wörter betrachtet, kann man die Wahrscheinlichkeit jedes Wortes in der Satzreihenfolge sehen. Wie man daraus allerdings die Wahrscheinlichkeit des gesamten Satzes oder die Wahrscheinlichkeit seiner Wahrheit bewertet, weiß ich nicht so recht.
- Wenn man fragt: „Für wie wahrscheinlich in Prozent hältst du, dass das passiert, und warum?“, liefert es ziemlich viel Kontext und Gedankengang.
  Ich bin kein Mathematiker und weiß, dass „Wahrscheinlichkeit“ komplexere mathematische Bedeutungen hat, aber aus der Perspektive „Warum glaubst du das so stark?“ habe ich den Eindruck, dass es recht gute Erklärungen gibt, denen man zustimmen oder widersprechen kann.
  Wenn ich zusätzlichen Kontext einbringe, den ich kenne, verfeinert es auch seine Schätzung. Deshalb behandle ich LLMs heutzutage wie ein System zum Verknüpfen von Kontext und nutze sie, um zu prüfen, ob es überhaupt mögliche Verbindungen gibt, bevor ich die Punkte selbst verbinde.
- Ich bin mir nicht zu 100 % sicher, was genau gemeint ist, aber einige Anbieter stellen Token-Wahrscheinlichkeiten bereit: https://cookbook.openai.com/examples/using_logprobs
- Mit passenden Anpassungen ist das möglich. Bayessche neuronale Netze bieten Unsicherheitsquantifizierung.
  Schwierig ist es, die Vorhersagen zu kalibrieren, und zu entscheiden, ob es besser ist, Modellkapazität für Unsicherheitsquantifizierung zu verwenden, statt einfach ein größeres, unsicheres Modell zu bauen.
  https://en.wikipedia.org/wiki/Calibration_(statistics)
  Beispiel: Efficient and Effective Uncertainty Quantification for LLMs (https://openreview.net/forum?id=QKRLH57ATT)
Um Interpretierbarkeit zu popularisieren, sodass auch Gamer Modelle erkunden können, scheint eine GUI für Modelle nötig zu sein. Im Grunde trainiert man ein anderes Modell, um ein LLM in eine 3D-Form zu verwandeln und es in einer für Menschen verständlichen 3D-Welt zu platzieren.
Als einfacheres Beispiel kann man sich vorstellen, ein LLM als grüne Wiese mit Objekten darzustellen, in einem Raum, in dem nur der Mensch ein Akteur ist.
Man steht in der Nähe eines Affen, sieht in der Nähe einen kauenden Mund und geht dorthin; dann lautet der aktuelle Prompt „monkey chews“. In der Nähe zeigt ein Pfeil auf eine Banane, weiter entfernt auf einen Apfel, und ganz weit am Horizont zeigt ein Pfeil auf einen Reifen. Dass ein Affe einen Reifen kaut, ist schließlich selten.
Nahe Dinge sind wahrscheinlichere Tokens, entfernte Dinge weniger wahrscheinliche Tokens, und man kann alles auf einmal sehen, als stünde man auf einem Hügel. Ich denke, auf diese Weise könnte man eine statische, ortsartige KI schaffen, in der nur der Mensch Akteur ist.
- Eine Salvia-Halluzination, die ich mit 18 hatte, war ungefähr so.
  Mein Geist verwandelte sich in ein unendlich großes Kaufhaus; jeder Gang war ein parallel ablaufender Zweig des Denkens, und die gemeinsamen Zutatenlisten über jedem Gang waren mit Wörtern, Gefühlen und Konzepten gefüllt, die zu diesem Zweig gehörten.
  Die Lautsprecheranlage ersetzte meinen inneren Monolog; es gab keinen inneren Monolog mehr, aber ich hörte meine Gedanken von außen, wie die Stimme einer anderen Person.
  Während ich durch diese Gänge ging, konnte ich voller Staunen ein riesiges, fraktales, wechselseitig abhängiges Netz gleichzeitiger Gedanken betrachten, das mein Gehirn in Echtzeit erzeugte.
- Ich glaube, noch niemand hat einen guten Weg gefunden, hochdimensionale Räume in eine 4D-Visualisierung abzubilden.
  Vielleicht sind Tokens und Sprache genau deshalb so nützlich für Menschen. Sie könnten die nächstliegende Analogie sein, die wir haben.
Als ähnliches oder zumindest teilweise überlappendes Material fällt mir Introduction to Statistical Learning von Gareth James et al. ein, das wohl als das beste Referenzbuch zu diesem Thema gelten kann.
Dieses Material hier ist vielleicht etwas zugänglicher, aber bei Letzterem helfen die R-/Python-Beispiele schon.
[1] https://www.statlearning.com/
- So weit würde ich nicht gehen. ISLR ist ein ziemlich grundlegendes Buch, während dieses Material fortgeschrittenere Techniken wie Propagation of probabilistic estimates statt Punktschätzungen behandelt.
  Ehrlich gesagt empfehle ich ISLR heutzutage nicht mehr. Meiner Ansicht nach ist es zu alt.
Kevin Murphy dürfte gleich angerannt kommen, um seine Reihe Probabilistic Machine Learning umzubenennen.
Interessant ist die Unterscheidung zwischen verrauschten Eingaben, verrauschter Verarbeitung und verrauschten Ketten.
Ontologische Realität ist keine Anordnung von Zuständen, sondern eine Verteilung von Potenzialitäten.
Potenzialität existiert, und Wahrscheinlichkeit ist ihre mathematische Beschreibung. Jede Eigenschaft ist eine Dimension, also ein Vektor. Ein Zustand ist nur eine momentane Messung der Auflösung.
Potenzialitäten interagieren durch konstruktive und destruktive Interferenz, und konstruktive bzw. destruktive Interferenz löst sich in einer momentanen Messung namens „Jetzt“ zu Zuständen auf. Das ist eine Aussage, in der Notwendigkeit kollabiert.
Ontologische Realität ist keine Zustandsanordnung, sondern ein Prozess, in dem Potenzialitäten verteilt sind.
Gemini 2.0 Experimental 02-05 sieht dieses Material als „nur“ 107K Tokens.
Nützlich, wenn man Hilfe dabei möchte, den Inhalt in Stücke zu zerlegen und zu verstehen.
https://aistudio.google.com
Die „Laplace-Approximation“ ist eine schnelle, grobe Methode, um eine komplexe Wahrscheinlichkeitsverteilung in eine einfache Gauß-Verteilung, also eine glockenförmige Kurve, zu überführen.
Sie funktioniert, indem sie den höchsten Punkt, den Modus, findet und die Krümmung an dieser Stelle anpasst.
Sie ist schnell und einfach, kann aber sehr ungenau und übermäßig selbstsicher sein, wenn die tatsächliche Verteilung nicht glockenförmig ist.
- Man kann das auch so sehen, dass im Log-Bereich nur die ersten zwei Terme der Taylorreihen-Approximation verwendet und die übrigen verworfen werden.
Ich habe diesen Kurs an der ETH Zürich belegt, und er war einer meiner Lieblingskurse. Besonders gut gefiel mir, wie er Methoden zur Quantifizierung von Unsicherheit vermittelt und die Ausgangsbausteine für Reinforcement Learning legt.
Aus meiner Sicht eine hervorragende Lektüre für Data Scientists und Machine-Learning-Engineers. Dieses Dokument sind die Vorlesungsnotizen dazu.

Probabilistische KI-Techniken

Kernprobleme probabilistischer KI

Probabilistisches Machine Learning

Nutzung von Unsicherheit bei sequenzieller Entscheidungsfindung

Zielgruppe und vorausgesetztes Wissen

Lernaufbau

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen