5 Punkte von GN⁺ 2023-10-25 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Artikel, der das Konzept der Technik „Embeddings“ erläutert, mit der Inhalte in Arrays aus Gleitkommazahlen umgewandelt werden, um sie in verschiedenen Anwendungen zu nutzen.
  • Autor Simon Willison hielt auf der PyBay 2023 einen Vortrag über Embeddings; dieser Artikel ist eine überarbeitete und verbesserte Version dieses Vortrags.
  • Embeddings werden im Bereich großer Sprachmodelle eingesetzt, die Technologien wie ChatGPT, Bard und Claude antreiben.
  • Der Autor erklärt, wie er mit dem Modell OpenAI text-embedding-ada-002 auf seinem Blog eine Funktion für „verwandte Inhalte“ aufgebaut hat.
  • Der Artikel behandelt außerdem, wie sich Embeddings für Code mit einem Tool namens Symbex nutzen lassen, das Embeddings für alle Funktionen einer Codebasis berechnet und damit eine Code-Suchmaschine aufbauen kann.
  • Der Autor stellt außerdem ein Tool namens LLM (Large Language Models) vor, mit dem sich Embeddings verwenden und semantische Suchmaschinen aufbauen lassen.
  • Der Artikel erläutert auch, wie sich Embeddings für Bilder mit einem Modell namens CLIP einsetzen lassen, das Text und Bilder in denselben Vektorraum einbetten kann.
  • Der Autor beschreibt, wie sich Embeddings zur Klassifizierung verwenden lassen, indem die durchschnittliche Position einer Embedding-Gruppe berechnet und neue Inhalte mit dieser Position verglichen werden, um eine Kategorie zuzuweisen.
  • Der Artikel schließt mit einer Diskussion über Retrieval-Augmented Generation (RAG), eine Technik, die Embeddings nutzt, um auf Basis persönlicher Dokumente oder interner Unternehmensdokumente Fragen zu beantworten.
  • Der Artikel enthält außerdem eine Q&A-Session, in der der Autor Fragen zu LangChain, Distanzfunktionen jenseits der Kosinusähnlichkeit, der Verarbeitung großer Datenmengen und zukünftigen Verbesserungen von Embedding-Modellen beantwortet.

1 Kommentare

 
GN⁺ 2023-10-25
Hacker-News-Kommentare
  • Der Autor hat nach der Veröffentlichung des Artikels zusätzliches Material entdeckt, um Embeddings besser zu verstehen.
  • Embeddings sind in Computer Vision und visuellen SLAM-Algorithmen zur Standardmethode für Place Recognition geworden.
  • Ein berühmtes Beispiel für Wort-Embeddings ist King - Man + Women = Queen, aber bei der Projektion in zwei Dimensionen hinterlässt das keinen visuellen Eindruck.
  • Autoencoding funktioniert trotz seiner Einfachheit gut, und es gibt Interesse an guten Dokumenten-Embedding-Modellen, die auf eigener Hardware laufen können.
  • Embeddings ließen sich überraschend einfach zu einer bestehenden spezialisierten Suchfunktion in einer Notiz-App hinzufügen und waren leistungsfähiger als erwartet.
  • Ein mentales Modell für Embeddings in der Sprache beschreibt, dass es in einem extrem hochdimensionalen Raum viele Punkte an mehreren Positionen gibt.
  • Beim Aufbau in einer bestimmten Domäne gibt es Grenzen bei kommerziellen Embedding-Modellen, und es gibt die Erwartung besserer Werkzeuge und Literatur zum Fine-Tuning von Embedding-Modellen.
  • Der Artikel war selbst für Menschen mit kaum vorhandenem Machine-Learning-Hintergrund nützlich und interessant.
  • Es gibt die Frage, warum der Autor das Dot Product mit einer bestimmten Methode statt mit vektorisierten numpy-Operationen berechnet.
  • Es gibt Verwirrung über den im Artikel verwendeten Clustering-Code, insbesondere darüber, wie jede Zeile der Datenbank in ein numpy-Array umgewandelt und mit dem MiniBatchKMeans-Modell Labels erzeugt werden.