Meta FAIR veröffentlicht neun neue Forschungsarbeiten, Modelle und Datensätze

(ai.meta.com)

1 Punkte von GN⁺ 2024-12-14 | 1 Kommentare | Auf WhatsApp teilen

Meta FAIR hat für die Forschung an fortgeschrittener Maschinenintelligenz neun Ergebnisse in Form von Code, Modellen, Datensätzen und Demos veröffentlicht, die Agenten, Robustheit und Sicherheit sowie Modellarchitekturen abdecken
Zu den wichtigsten Veröffentlichungen gehören Meta Motivo für die Steuerung virtueller Humanoide, Meta Video Seal für Video-Watermarking, die Flow-Matching-Codebasis, Explore Theory-of-Mind und das Large Concept Model
Meta Motivo nutzt unbeschriftete Bewegungsdaten und einen neuen Algorithmus, um Zustände, Bewegungen und Belohnungen im selben latenten Raum zu platzieren und so Ganzkörper-Steuerungsaufgaben ohne zusätzliches Training oder Planung auszuführen
Meta Video Seal bettet unsichtbare Wasserzeichen und optional versteckte Nachrichten in Videos ein und ist darauf ausgelegt, gängige Bearbeitungen wie Unschärfe, Zuschnitt und Kompression beim Online-Sharing zu überstehen
Forschende können die veröffentlichten Ergebnisse herunterladen, experimentell nutzen, integrieren und erweitern; Meta betont reproduzierbare offene Wissenschaft und ein offenes Ökosystem

Umfang der Meta-FAIR-Veröffentlichung

Meta FAIR stellt der Forschungsgemeinschaft aktuelle Forschung, Code, Modelle und Datensätze bereit
Diese Veröffentlichung konzentriert sich auf drei Bereiche
- Aufbau leistungsfähigerer Agenten
- Robustheit und Sicherheit
- Architekturinnovationen, die es Modellen ermöglichen, neue Informationen effektiver zu lernen und über heutige Grenzen hinaus zu skalieren
Insgesamt sind 9 Projekte und Ergebnisse direkt herunterladbar und nutzbar
Ziel ist es, durch frühe Forschungsfreigaben iterative Forschung zu fördern und den Fortschritt der KI verantwortungsvoll voranzubringen

Meta Motivo: Basismodell zur Verhaltenssteuerung virtueller Humanoide

Meta Motivo ist ein verhaltensbasiertes Modell, das die Bewegungen virtuell verkörperter humanoider Agenten steuert, um komplexe Aufgaben auszuführen
Bisheriges unüberwachtes Reinforcement Learning benötigt häufig kuratierte Interaktionsdatensätze oder stützt sich auf unüberwachte Loss-Funktionen, die Policies erzeugen können, die nicht gut zu Zielaufgaben passen
Meta Motivo wird mit einem neuen Algorithmus trainiert, der unbeschriftete Bewegungsdatensätze nutzt
- Er lernt Repräsentationen, die Zustände, Bewegungen und Belohnungen in denselben latenten Raum einbetten
- Er löst Ganzkörper-Steuerungsaufgaben wie Motion Tracking, das Erreichen einer Zielpose und Belohnungsoptimierung ohne zusätzliches Training oder Planung
Die Leistung ist mit aufgabenspezifischen Methoden konkurrenzfähig und übertrifft aktuelle unüberwachte Reinforcement-Learning- und modellbasierte Baselines
Auch bei nicht trainierten Umweltveränderungen wie Schwerkraft, Wind und direkten Störungen zeigt es hohe Robustheit
Diese Forschung könnte zu vollständig verkörperten Agenten im Metaverse, lebendigeren NPCs, einer Demokratisierung der Charakteranimation und neuen immersiven Erfahrungen führen
Paper lesen
Demo ausprobieren
Code und Modell herunterladen

Meta Video Seal: Open-Source-Video-Watermarking

Meta Video Seal ist ein modernes Framework für neuronales Video-Watermarking
Es bettet unsichtbare Wasserzeichen in Videos ein und kann optional auch versteckte Nachrichten enthalten
Eingebettete Wasserzeichen können später extrahiert und zur Überprüfung der Herkunft eines Videos genutzt werden
Es ist darauf ausgelegt, gängigen Videobearbeitungs- und Sharing-Prozessen standzuhalten
- Unschärfe
- Zuschnitt
- Kompressionsalgorithmen, die häufig beim Teilen von Online-Inhalten verwendet werden
Das Video-Seal-Modell wird unter einer permissiven Lizenz veröffentlicht; Paper, Trainingscode, Inferenzcode und Demo werden ebenfalls bereitgestellt
Zugehörige Watermarking-Ergebnisse werden ebenfalls veröffentlicht
- Meta Omni Seal Bench: ein Leaderboard für neuronales Watermarking über mehrere Modalitäten hinweg
- Meta Watermark Anything: erneut unter einer permissiven Lizenz veröffentlicht
- ICLR-Watermarking-Workshop 2025
Watermark Anything, Video Seal und Audio Seal werden zum Download und zur Integration bereitgestellt
Paper lesen
Demo ausprobieren
Video-Seal-Code und -Modell herunterladen
Watermark-Anything-Code und -Modell herunterladen
Omni-Seal-Bench-Leaderboard ansehen

Flow-Matching-Leitfaden und Codebasis

Flow Matching ist ein generatives Paradigma, das in mehreren Modalitäten eingesetzt wird, etwa bei Bildern, Videos, Audio, Musik und 3D-Strukturen wie Proteinen
Intern bei Meta ersetzt es klassische Diffusionsverfahren in mehreren generativen Anwendungen
- Meta Movie Gen
- Meta Audiobox
- Meta Melody Flow
In der Branche gibt es Beispiele wie Stable-Diffusion-3, Flux, Fold-Flow und Physical Intelligence Pi_0
Flow Matching ist ein einfaches, aber flexibles generatives KI-Framework, das Leistung und Effizienz verbessert und die Generalisierung auf komplexe Daten erleichtert
Die Veröffentlichung umfasst ein Paper, Kernimplementierungen für kontinuierliches und diskretes Flow Matching sowie aktuelle Trainingsskripte
Paper lesen
Code herunterladen

Explore Theory-of-Mind: Datengenerierung für Theory-of-Mind-Schlussfolgerungen

Meta Explore Theory-of-Mind ist ein programmgesteuertes adversariales Datengenerierungs-Framework für Theory-of-Mind-Schlussfolgerungen
Bestehende Theory-of-Mind-Datensätze sind dadurch begrenzt, dass sie sich nur auf Evaluation konzentrieren und nur einen engen Bereich von Interaktionen abdecken
Dieses Framework erzeugt vielfältige, schwierige und skalierbare ToM-Schlussfolgerungsdaten, die sowohl für Training als auch Evaluation genutzt werden können
Es kann robuste und verlässliche Geschichten erzeugen, die die Grenzen großer Sprachmodelle testen
Beim Fine-Tuning von Llama-3.1 7B erzielte es auf dem häufig verwendeten ToMi-Benchmark eine Verbesserung der Genauigkeit um 27 Punkte
Einsatzbereiche umfassen die Erstellung von Datensätzen zur Verbesserung von LLMs, die Verstärkung zielorientierter Szenarien, das Sammeln von Interaktionsdatensätzen und Benchmarks zur Bewertung der LLM-Leistung
Paper lesen
Code herunterladen
Datensatz herunterladen

Large Concept Model: Konzepte statt Token vorhersagen

Large Concept Model(LCM) ist ein anderes Trainingsparadigma für Sprachmodellierung
Heutige Mainstream-Sprachmodelle arbeiten in der Regel auf Token-Ebene und schließen nicht explizit hierarchisch
Der Kern von LCM liegt darin, Schlussfolgern und sprachliche Darstellung voneinander zu trennen
- Inspiriert ist dies davon, dass Menschen bei einem Vortrag dieselbe Abfolge von Ideen beibehalten können, während die Wortwahl jedes Mal variiert
LCM wird darauf trainiert, nicht das nächste Token, sondern das nächste Konzept oder eine übergeordnete Idee vorherzusagen
Konzepte werden als ganze Sätze in einem multimodalen und mehrsprachigen Einbettungsraum repräsentiert
Bei rein generativen Aufgaben wie Zusammenfassung ist es aktuellen LLMs überlegen oder erreicht vergleichbare Leistung und bietet starke Zero-Shot-Generalisierung für ungesehene Sprachen
Mit längerem Eingabekontext wird es zudem recheneffizienter
Paper lesen
Code herunterladen

Dynamic Byte Latent Transformer: Tokenizer-freies Modell auf Byte-Ebene

Dynamic Byte Latent Transformer ist ein hierarchisches Modell auf Byte-Ebene, das dynamisches Patching nutzt
Klassische Sprachmodelle tokenisieren Text in einem heuristischen Vorverarbeitungsschritt; das beschränkt End-to-End-Training, erschwert Optimierungen in der Praxis und kann die Leistung bei seltenen Textsequenzen beeinträchtigen
Dieses Modell arbeitet auf Bytes, ohne Tokenisierungsheuristiken
Es verbessert außerdem die Effizienz bei der Verarbeitung langer Sequenzen in Training und Inferenz
Gegenüber tokenizerbasierten Modellen zeigt es bei der Robustheit im Schnitt einen Vorsprung von 7 Punkten
Es hat Stärken bei Long-Tail- und seltenen Sequenzen mit ungesehenen Symbolen
Dieser Ansatz kann Fortschritte beim Schlussfolgern in Bereichen wie ressourcenarmen Sprachen, Programmierung und Faktizität unterstützen
Paper lesen
Code herunterladen

Meta Memory Layers: Sparse-Memory-Erweiterung für Faktenwissen

Meta Memory Layers at Scale ist eine Methode, die durch Skalierung von Memory Layers die Faktizität auf gängigen Faktizitäts-Benchmarks erhöht
Parametrisches Gedächtnis ist ein Speicher für Fakteninformationen, die während des Pretrainings in den Gewichten neuronaler Netze gespeichert werden, und trägt dazu bei, dass LLMs komplexe Konzepte und sprachliche Nuancen verstehen
Da bestehende Skalierungsansätze an die Grenzen effizienter Erweiterung stoßen, werden neue Architekturen benötigt, die Informationen effektiver lernen
Memory Layers fügen einem Modell über einen lernbaren Key-Value-Lookup-Mechanismus zusätzliche Parameter hinzu, ohne die FLOPs zu erhöhen
Sparse aktivierte Memory Layers ergänzen rechenintensive dichte Feedforward-Layers und bieten dedizierte Kapazität, um Informationen kostengünstig zu speichern und abzurufen
Sprachmodelle mit verbesserten Memory Layers schneiden bei Downstream-Aufgaben besser ab als folgende Modelle
- dichte Modelle mit mehr als doppeltem Rechenbudget
- MoE-Modelle mit angepasster Rechenmenge und Parameterzahl
Entgegen der verbreiteten Annahme, dass Sparse-Memory-Architekturen nur schwer konkurrenzfähig skalieren, wurden sie effizient auf 128B Parameter und ein 8B-Basismodell skaliert und zeigen auf gängigen Faktizitäts-Benchmarks Verbesserungen bei vergleichbarer Rechenmenge
Paper lesen
Code herunterladen

Image Diversity Modeling und EvalGIM

FAIR betreibt Forschung, um die sichere Entwicklung von Bildgenerierungsmodellen zu verstehen und neue Methoden zu entwickeln
Das im Forschungsprozess entwickelte Bildgenerierungsmodell baut auf früherer Forschung zu Architekturen und Loss-Funktionen generativer Modelle auf
Dieses Modell priorisiert die Erzeugung von Bildern, die die physische Welt repräsentieren, und bewahrt dabei eine mit aktuellen Modellen konkurrenzfähige Bildqualität
Externe Fachleute können das Modell nutzen, um Bereiche zu untersuchen, die Sicherheit und Verantwortung im gesamten Image Diversity Modeling verbessern können
Außerdem soll eine umfassende Evaluierungs-Toolbox für Text-zu-Bild-Generierungsmodelle als Open Source veröffentlicht werden
- Sie erhöht die Einfachheit und Reproduzierbarkeit von Benchmarks für Bildgenerierung
- Sie fördert interpretierbare Ergebnisse, die verantwortungsvolle Text-zu-Bild-Forschung unterstützen
Paper lesen
Code herunterladen

Meta CLIP 1.2: Vision-Language-Encoder und Datenkuratierung

Meta CLIP 1.2 ist ein Release zur Entwicklung leistungsfähiger Vision-Language-Encoder
Meta hat Algorithmen entwickelt, um große Bild-Text-Datenmengen effektiv zu kuratieren und auszurichten, damit Modelle menschliches Wissen über die Welt lernen
Große, hochwertige und vielfältige Datensätze sind entscheidend für den Aufbau von Basismodellen, die über die Welt lernen
Meta CLIP ist Metas Arbeit zum Aufbau solcher Datensätze und Basismodelle
Für hochwertige und sichere Vision-Language-Encoder-Basismodelle entwickelt Meta Datenkuratierungs- und Alignment-Algorithmen und setzt Maßnahmen für Integrität und Datenschutz um
Die Veröffentlichungen können von Forschenden und Entwicklern genutzt werden, um das Vision-Language-Verständnis voranzubringen
- Datenalgorithmen
- Trainingsrezepte
- Basismodelle, die mit kuratierten Datensätzen trainiert wurden
Beispielhafte Einsatzgebiete sind Vision-Encoding für MLLMs, multimodale Embeddings für Suche, Zero-Shot-Klassifikation und ein Ausgangspunkt für Forschung zur Datenqualität
Algorithmen und Trainingsmethoden können auch genutzt werden, um hochwertige, großskalige CLIP-ähnliche Datensätze von Grund auf zu erstellen
Paper lesen
Datensatz herunterladen
Code herunterladen
Modell herunterladen

1 Kommentare

GN⁺ 2024-12-14

Meinungen auf Hacker News

Hier steckt wirklich viel Interessantes drin, besonders die LLM-bezogenen Ideen fallen auf.
Ein großes Konzeptmodell, das nicht mit Tokens, sondern mit Konzepten arbeitet und diese vorhersagt; ein Dynamic Byte Latent Transformer als Byte-basierte Alternative zur Standard-Tokenisierung; sowie eine Sparse-Memory-Schicht, die die Key-Value-Memory-Hierarchie ohne steigende Rechenanforderungen erweitert – all das wird jeweils als eigener Ansatz vorgestellt, um Qualität oder Effizienz zu verbessern.
Ich frage mich, wie stark Qualität und Effizienz steigen würden, wenn man all diese Methoden kombiniert; vielleicht könnte genau das Llama 4 sein.
- Ich hoffe, Llama 4 oder 5 hat eine andere Architektur.
  Die bisher veröffentlichten Llamas hatten bei der Inferenzstruktur fast dasselbe Design und vor allem eine verbesserte Trainingspipeline.
  Der Nachteil wäre, dass llamacpp neue Modelle möglicherweise nicht ausführen kann und womöglich ein größeres Rewrite nötig wird, sodass neue Programme in C, C++, Go und Rust gebraucht werden könnten.
- Ich frage mich, ob es eine bessere Art gibt, solche Inhalte zu präsentieren.
  Ich erstelle gerade ähnliche Dokumente oder Demos; bei einer Dokumentationsseite könnte man jeden Abschnitt einheitlich mit Titel, Inhalt, Code-Link und Paper-Link strukturieren.
  Aber diese Seite selbst ist ein Blogpost, und ich glaube, sie wird nächstes Jahr schwer wiederzufinden sein.
  Gibt es andere Beispiele von Unternehmen, die technische Zusammenfassungen gut aufbereiten und sie auch dauerhaft über die Homepage auffindbar machen?
- Es ist schon etwas ironisch, dass Meta am Ende zur größten offenen AI-Organisation geworden ist.
  Natürlich ist es nicht „Open Source“, aber sie stellen es zur Nutzung bereit und veröffentlichen auch ihre Forschung offen.
Wirklich großartig.
Es macht sehr viel Spaß, mit der ersten Demo herumzuspielen, und es fühlt sich an wie ein Spiel, bei dem gewinnt, wer das Modell zum Moonwalk bringt.
Mein bester Versuch war wahrscheinlich etwa (body_speed_forward < -0.3) * (head_height > 1.0) * (stay_still > 0.2) * (body_speed_vertical < 0.1) * (stay_upright > 0.9).
https://i.imgur.com/O5hGMo5.gif
Und „Meta Explore Theory of Mind“ ist noch interessanter.
Vor etwa einem Monat gab es schon einen Thread, in dem es um Konzepte wie „Glauben“ und darum ging, das Weltmodell entsprechend zu aktualisieren.
https://news.ycombinator.com/item?id=42035985
Ich hoffe, der Dynamic Byte Latent Transformer setzt sich durch.
Tokenizer sollten inzwischen einfach verschwinden.
Interessant ist auch, dass es eine Hierarchie ist, aber nur mit zwei Ebenen; mehr Ebenen daraufzusetzen wirkt wie eine natürliche Richtung für Anschlussforschung.
- Ich bin einer der Autoren :)
  Ich halte das für eine gute Forschungsrichtung.
  Allerdings ist das für einen Schritt ziemlich viel, und man muss vorsichtig sein, wie man das FLOP-Budget über die gesamte Hierarchie verteilt.
  Bei zwei Ebenen kann man die eine als Byte-/Local-Encoder FLOP-effizient machen und die andere als Patch-/Global-Encoder deutlich FLOP-intensiver auslegen.
  Man muss auch noch Methoden finden, Patches zu größeren Einheiten zusammenzufassen, aber von hier aus gibt es viele mögliche Richtungen.
Wenn man sich den geschäftlichen Hintergrund anschaut, warum Meta das macht: Mit 70 Milliarden Dollar an Cash wirken ein paar Hundert Millionen Dollar für AI-Experten wie Kleingeld.
- Man muss sich vorstellen, dass es in der Welt der AI-Forschung zu einem grundlegenden Wandel kommt.
  AI könnte plötzlich die Produktivität von Programmierern stark erhöhen, sehr gut darin werden, Schwachstellen zu finden, AI-Chat könnte zu einer neuen großen Unterhaltungsform werden, oder AI-Bilder könnten zu Inhalten werden, die auf Instagram breit geteilt werden.
  Wenn auch nur eines davon eintritt, könnte Facebook für interne Entwickler oder Tools sowie für Einbettungen in Apps Zugriff auf State-of-the-Art-Modelle haben und sie anpassen wollen.
  Wenn der einzige Weg dahin aber ein sieben- bis neunstelliges Vertragsvolumen mit einem Modellverkäufer wie OpenAI wäre, wäre das furchtbar.
  Noch schlimmer: Ein wichtiger Wettbewerber im Werbemarkt könnte anfangen, Werbekunden leistungsfähige AI-Tools anzubieten, mit denen sie Creatives für verschiedene Formate anpassen.
  Dann würde Facebook stark zurückfallen und könnte, obwohl es Unternehmen wie OpenAI Millionen zahlt, jedes Quartal Werbeanteile im Wert von Milliarden verlieren.
  In diesem Worst-Case-Szenario sähe Facebook dumm aus, und wenn auch nur eines davon möglich ist, ergibt die Investition Sinn.
  Open Source oder der Effekt, Meta zu einem attraktiven Arbeitsplatz zu machen, sind zusätzliche strategische Boni.
- Man kann es gut als „Komplementärgüter zur Commodity machen“ betrachten.
  Wenn OpenAI extrem erfolgreich wird und zur einzigen Option wird, kann es von allen, die den Dienst nutzen, enorme Monopolrenten verlangen.
  Deshalb liegt es im Interesse anderer Unternehmen und aller, die AI nutzen wollen, dass es im AI-Ökosystem viele Wettbewerber gibt und die Preise niedrig bleiben.
- Um genügend Top-Forscher zu gewinnen, bleibt einem nichts anderes übrig, als die Veröffentlichung von Papers zu erlauben.
- Diese AI-Experten haben überhaupt erst eine Schlüsselrolle dabei gespielt, dass Meta 70 Milliarden Dollar verdient.
- Ich denke, alle bisherigen Antworten sind naiv und falsch.
  Facebook verkauft Werbeflächen in verschiedenen Apps, und damit diese Werbeflächen wertvoll sind, müssen Menschen in den Apps sein.
  Damit Menschen in den Apps sind, braucht es Inhalte, die sie anziehen.
  Also ist es einfach: Man sorgt dafür, dass jeder, ob Einzelperson oder Unternehmen, günstig massenhaft Inhalte erstellen und sie in den Apps teilen kann.
Kürzlich hatte ich bei einem AI Engineer London Meetup die Gelegenheit, einen Vortrag von Ross Taylor, ehemals Meta, zu hören.
Das vollständige Video des Vortrags ist ebenfalls online.
https://www.youtube.com/watch?v=S5l5OvJ01ws
Mir war nicht klar, wie viel Meta im Bereich Reasoning und Theory of Mind gearbeitet hat.
- Gutes Video.
  Es hilft, o1 in den Kontext einzuordnen.
  Bei dem Tempo, mit dem OpenAI, Google und Meta veröffentlichen, dürfte als Nächstes Anthropic dran sein.
Jedes Mal, wenn Text bereinigt werden muss, frage ich mich, warum man nicht einfach einen Byte-basierten Denoising-Autoencoder trainiert hat, um das stattdessen zu erledigen.
- Interessante Idee.
  In Vision erfassen solche Modelle globalen und lokalen Kontext effizient; ich habe mich immer gefragt, wie es wäre, U-Net oder ein hourglass net auf Textdaten auszuprobieren, habe es aber nie selbst gemacht.
Kann jemand erklären, wie es dazu beiträgt, KI sicherer zu machen, wenn man freiwillig Wasserzeichen in KI-Videos einfügt?
- Es ermöglicht den Anbietern von KI-Videogenerierungsdiensten, alle von ihnen erstellten Videos mit Wasserzeichen zu versehen.
  Die Idee ist also nicht freiwillig, sondern eine Anwendung auf Diensteebene.
  Am Ende könnten nur noch Dienste übrig bleiben, die sich nicht an die aktuellen Regeln von Big Tech halten.
  Zum Beispiel so, wie Grok/X.ai zwar eine schlechtere Qualität hatte, Menschen aber Grok/X.ai nutzten, um Trump-Unterstützerbilder zu erstellen.
  https://arstechnica.com/information-technology/2024/08/musks...
- Wie hoch sind derzeit wohl die Kosten für das Training eines Modells?
  Ich denke, dass sie in den nächsten Jahren auf einem Niveau liegen werden, das große Staaten oder die meisten Oligarchen stemmen können; vielleicht ist das schon jetzt der Fall.
  Deshalb scheint es am realistischsten, wenn alle Watermarking als etwas Freiwilliges verstehen.
  Aus heutiger Sicht haben Bilder und Videos als Beleg für eine bestimmte Tatsache nicht einmal den Wert ihrer Bits.
Das ist absurd interessant.
Alle reden darüber, wie spannend diese Dinge sind, insbesondere LCM und der Tokenizer, der nicht tokenisiert, aber falls jemand zugesehen hat, würde ich gerne fragen:
Warum verwenden sie den Begriff „advanced machine intelligence“?
Mein erster Gedanke war, ob sie damit Untergangspropheten beschwichtigen oder ablenken wollen, aber vielleicht bin ich da einfach zu selbstbezogen.
- Der Begriff stammt aus einem Paper von Yann LeCun aus dem Jahr 2022.
  AMI war ein Begriff, der von AGI abgegrenzt wurde.
  Allerdings hat sich das A in den vergangenen Jahren je nach Kontext zu autonomous, advanced oder augmented geändert.
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
- LeCun scheint den Begriff AGI nicht zu mögen.
- Ich warte auf den Tag, an dem diese Dinge Minds genannt werden :)
- Das dürfte eine Reaktion auf jüngste Marktforschung sein, der zufolge die breite Öffentlichkeit Dinge, die mit „AI“ versehen sind, im Allgemeinen für betrügerisch und schwer vertrauenswürdig hält.
Meta hat sein Image definitiv verbessert und trägt dazu bei, dass KI zu einer Technologie ohne Burggraben wird.
- Meta verkauft zwar weder IaaS noch PaaS, aber wenn KI nicht nur in den Händen von Google und OpenAI liegt, sondern bei mehr Akteuren, steigt Metas Fit.
  Wenn KI zur Allzwecktechnologie wird, entstehen verschiedene Unternehmen, und diese Unternehmen erreichen ihre Kunden über Metas Plattformen.
- Egal, wie viel Gutes sie mit LLMs tun: Mit Facebook ruinieren sie weiterhin die Gesellschaft.
- Wenn man weiter die Erbsünde begeht, ist das keine Erlösung.
Es fühlt sich an, als würde man etwa zehn neue Architekturen auf einmal lernen.

Meta FAIR veröffentlicht neun neue Forschungsarbeiten, Modelle und Datensätze

Umfang der Meta-FAIR-Veröffentlichung

Meta Motivo: Basismodell zur Verhaltenssteuerung virtueller Humanoide

Meta Video Seal: Open-Source-Video-Watermarking

Flow-Matching-Leitfaden und Codebasis

Explore Theory-of-Mind: Datengenerierung für Theory-of-Mind-Schlussfolgerungen

Large Concept Model: Konzepte statt Token vorhersagen

Dynamic Byte Latent Transformer: Tokenizer-freies Modell auf Byte-Ebene

Meta Memory Layers: Sparse-Memory-Erweiterung für Faktenwissen

Image Diversity Modeling und EvalGIM

Meta CLIP 1.2: Vision-Language-Encoder und Datenkuratierung

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News