22 Punkte von sigridjineth 2025-01-06 | 4 Kommentare | Auf WhatsApp teilen

Dies ist ein Blogbeitrag darüber, wie BGE-M3, ein speziell für RAG entwickeltes Embedding-Modell mit der besten Koreanisch-Performance, über die von Huggingface bereitgestellte Python-Implementierung hinaus mit TensorFlow/Keras in einer Form neu implementiert wird, die großskaliges Serving in Enterprise-Umgebungen ermöglicht.

  1. Unterstützung für Enterprise-Serving
  • Groß angelegte verteilte Verarbeitung in Java/Scala-basierten Hadoop-Spark-Umgebungen möglich
  • Implementierung eines Hochleistungsservers mit Kotlin/Spring Boot
  • Unterstützung großer Produktionsumgebungen durch TensorFlow Serving
  • Unterstützung mobiler/embedded Umgebungen durch TensorFlow Lite
  1. Vereinfachung der Modellstruktur
  • Implementierung der Kernstruktur nur mit Dense Layer und LayerNorm
  • Entfernung komplexer Python-Abhängigkeiten
  • Hoher Durchsatz durch eine leichtgewichtige Struktur
  1. Merkmale der Implementierung
  • Implementierung von Word-/Position-/Token-Type-Embeddings als grundlegende Dense Layer
  • Aufbau von 24 Transformer-Blöcken mit reinen TensorFlow-Operationen
  • Performance-Optimierung durch eine benutzerdefinierte Implementierung von Multi-Head Self-Attention
  1. Praxisbeispiele
  • Verteilte Embedding-Verarbeitung in großen Hadoop-Umgebungen
  • Föderiertes Lernen und RAG-Services auf Basis von Spring Boot
  • Mobile Inferenz mit der Apple Neural Engine
  • Deployment von TensorFlow Serving auf Enterprise-Niveau

Die im Beitrag erklärte Implementierung zeichnet sich dadurch aus, dass Python-Abhängigkeiten entfernt und ausschließlich native Funktionen von TensorFlow genutzt werden, sodass in groß angelegten Enterprise-Umgebungen stabile Services möglich sind.

4 Kommentare

 
sigridjineth 2025-01-07

https://github.com/sionic-ai/BGE-M3-Model-Converter
Wir haben den gesamten Code veröffentlicht.

 
aer0700 2025-01-07

Der Artikel selbst ist nicht besonders schwierig, aber die im Text angehängten Codes sind etwas unvollständig. Es wäre noch besser, wenn der vollständige Code, der auf diese Weise implementiert wurde, geteilt würde.

 
sigridjineth 2025-01-07

https://github.com/sionic-ai/BGE-M3-Model-Converter
Der gesamte Code wurde veröffentlicht.

 
aer0700 2025-01-09

Danke
Ich glaube, ich muss es mir langsam noch einmal anschauen, haha