11 Punkte von xguru 2023-05-24 | 1 Kommentare | Auf WhatsApp teilen
  • Ein General Representation Model, das Vision-, Audio- und Sprachmodalitäten umfassend abdeckt
  • Erzielt auch ohne vortrainierte Modelle hervorragende Ergebnisse bei integrierten Aufgaben
  • Ermöglicht mit starkem emergentem Zero-shot Retrieval die Ausrichtung von Modalitäten, die in den Trainingsdaten nicht gepaart sind
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 Kommentare

 
dbs0829 2023-05-24

Sieht so aus, als hätte es bei vielen Tasks den SOTA-Stand übertroffen.