1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Epicure ist ein Modell, das 300-dimensionale Einbettungen für 1.790 standardisierte Zutaten auf Basis von 4,14 Mio. Rezepten und den Verbindungsdaten von FlavorDB trainiert hat
  • Es wurde so entworfen, dass Probleme des bestehenden FlavorGraph reduziert werden: ein englischzentriertes Korpus, eine feste Mischung aus chemischen und rezeptbasierten Signalen sowie ein verstreutes Zutatenvokabular
  • Cooc, Chem und Core vergleichen bei gleicher Struktur die Gewichtung von gemeinsamem Auftreten in Rezepten und chemischen Signalen, indem nur das Random-Walk-Schema verändert wird
  • Die drei Einbettungen rekonstruieren linear 27 sensorische und ernährungsbezogene Richtungen sowie 8 große kulinarische Weltregionen und gewinnen auf unüberwachtem Weg 20 Faktoren
  • Mit nächsten Nachbarn und SLERP-Richtungsarithmetik ist eine Zutatenexploration möglich, etwa indem rice in eine südasiatische Richtung rotiert wird; Code und Artefakte sind jedoch nicht veröffentlicht

Das Ziel von Epicure

  • Zutateneinbettungen bilden die Grundlage, um die Passung zwischen Zutaten, ähnliche Zutaten je Kulturraum und ihre Position auf sensorischen und ernährungsbezogenen Achsen zu finden
    • Wissen wie „Zu Doenjang passen Mirin, Dashi und Sesamöl, zu Olivenöl passen Basilikum, Tomate und Prosciutto“ ist in Rezeptkorpora vieler Kulturkreise und in der Intuition von Köchen angesammelt
    • Es kann für Menü- und Rezept-Assistenten, Empfehlungen auf Basis vorhandener Zutaten, die Suche nach Pendants ostasiatischer Zutaten zu mediterranen Zutaten sowie für Exploration entlang von Achsen wie Fettigkeit, Fermentation, Bitterkeit oder hoher Proteingehalt genutzt werden
  • Frühere Forschung entwickelte sich von chemiebasierten Geschmacksnetzwerken hin zu rezept- und wissensgraphbasierten Ansätzen
    • Ahn et al. [2011] führten ein Geschmacksnetzwerk ein und zeigten, dass sich bei geteilten Verbindungen Unterschiede zwischen Kulturkreisen zeigen
    • FlavorDB von Garg et al. [2017] listete Aromamoleküle für 936 Lebensmittelentitäten auf, während FooDB die chemische Abdeckung mit 70.000 Verbindungen erweiterte
    • FlavorGraph [Park et al., 2021] ist eine offene Lebensmitteleinbettung, die FlavorDB und Recipe1M+ kombiniert, um einen heterogenen Graphen aus 6.653 Zutaten und 1.645 Verbindungen zu erstellen und mit Metapath2Vec zu trainieren
    • FoodKG [Haussmann et al., 2019] integriert Rezept-, Ernährungs- und Ontologiedaten in einen RDF-Wissensgraphen mit dem Ziel von Empfehlungen

Grenzen von FlavorGraph und das Design von Epicure

  • Frühere Analysen bestätigten in den 300-dimensionalen Einbettungen von FlavorGraph mehr als 15 interpretierbare kulinarische Dimensionen einschließlich Geschmack, Textur, Ernährung, Geografie, Kultur und Verarbeitung; außerdem zeigte sich, dass eine durch LLMs angereicherte Vokabularintegration die meisten Signale verstärkte
  • Das feste Vortraining von FlavorGraph hatte drei Einschränkungen
    • Es stützte sich auf ein einziges englischzentriertes Korpus
    • Chemische Signale und rezeptkontextuelle Signale waren in einem festen induktiven Bias verschmolzen und ließen sich als Designachse kaum steuern
    • Im Zutatenvokabular blieb eine verstreute Struktur erhalten, in der Details zur Zubereitungsart und Nicht-Lebensmittel-Einträge vermischt waren
  • Um diese Einschränkungen zu verringern, besteht Epicure aus drei verwandten, von Grund auf neu trainierten Skip-Gram-Zutateneinbettungen
    • Es wurden 4,14 Mio. Rezepte aus 11 Quellen gesammelt
    • Die Sprachabdeckung umfasst Englisch, Chinesisch, Russisch, Vietnamesisch, Spanisch, Türkisch, Indonesisch, Deutsch und Indian English
    • Roh-Zutatenstrings wurden mit einer LLM-gestützten Pipeline auf 1.790 standardisierte Zutaten normalisiert
    • Die drei Modelle teilen sich Architektur und Hyperparameter; nur das Random-Walk-Schema, das die Skip-Gram-Zielfunktion sieht, unterscheidet sich

Daten und die drei Einbettungen

  • Epicure nimmt zwei Arten von Graphen als Ausgangspunkt
    • Der Zutat-Zutat-NPMI-Graph besteht aus 203.508 Kanten
    • Der FlavorDB-Zutat-Verbindung-Graph besteht aus 80.019 Kanten und enthält 2.247 typisierte Verbindungs-Knoten aus 15 Kategorien
  • Die drei Metapath2Vec-Varianten besetzen unterschiedliche Positionen auf dem Spektrum zwischen Chemie und Rezeptkontext
    • Cooc

      • Ein Modell, das nur auf dem Rezept-Koauftretensgraphen läuft
      • Es fokussiert auf Kontextsinale aus dem tatsächlichen gemeinsamen Auftreten von Zutaten in Rezepten
    • Chem

      • Ein Modell, das nur auf typisierten Verbindungs-Metapfaden läuft
      • Es fokussiert auf chemische Signale aus den Beziehungen zwischen Zutaten und Verbindungen
    • Core

      • Es verwendet sowohl verbindungsbasierte Pfade als auch Zutaten-Zutaten-Pfade
      • Mit einem kontrollierten Mischungsverhältnis werden Zutaten-Zutaten-Walks eingespeist, um chemische Signale und Rezeptkontextsignale zu mischen
      • Diese Konfiguration macht das Verhältnis Chemie vs. Rezeptkontext innerhalb derselben Eingabedaten und Trainingsstruktur als Designachse sichtbar
      • Die Unterschiede zwischen den drei verwandten Modellen sind absichtlich auf das Random-Walk-Schema beschränkt
      • Dadurch lassen sich Unterschiede in den Eigenschaften der Einbettungen als Effekt des Walk-Schemas und nicht der Eingabedaten vergleichen

Im Einbettungsraum rekonstruierte kulinarische Bedeutung

  • Die drei Epicure-Modelle rekonstruieren in überwachten Probes linear 27 kontinuierliche sensorische und ernährungsbezogene Richtungen sowie 8 große kulinarische Weltregionen
    • Das durchschnittliche Cohen’s d für die Trennbarkeit kulinarischer Regionen beträgt für Cooc/Core/Chem 2,43/2,70/3,07
    • Der Probe-Umfang umfasst cuisine, food-group, den NOVA-Verarbeitungsgrad, USDA-Makronährstoffe und 19 sensorische Kategorien
  • Die unüberwachte Analyse gewinnt in jedem Modell 20 interpretierbare Faktoren
    • Auf nach food-group residualisierten Einbettungen wird FastICA mit mehreren Seeds und Stabilitätsprüfung angewandt
    • Die Einträge im oberen Quartil jedes Faktors werden mit GMM segmentiert, wodurch je Modell 150–200 benannte kulinarische Modi entstehen
  • Die mittlere Kohärenz der GMM-Modi lag über der Zufalls-Paar-Baseline
    • Die mittlere Kohärenz für Cooc/Core/Chem beträgt 0,611/0,833/0,703
    • Die entsprechenden Zufalls-Paar-Baselines sind 0,097/0,348/0,115
  • Auch Perspektiven aus früherer Einbettungsforschung wurden zur Validierung genutzt
    • Die Perspektive linearer Richtungen aus word2vec von Mikolov et al. [2013] bildet die Grundlage für 27 überwachte kulinarische Probes, 20 FastICA-Faktoren und SLERP-Rotationsoperationen
    • Gemäß der Isotropie-Perspektive von Mu et al. [2017] werden participation ratio und mittlere paarweise Kosinusähnlichkeit direkt zur Messung der Isotropie der Einbettungen verwendet
    • Die drei verwandten Modelle liegen an klar unterschiedlichen Positionen im Isotropie-Spektrum, was als Eigenschaft des Walk-Schemas und nicht der Eingabedaten behandelt wird
    • WEAT von Caliskan et al. [2017] wird als ergänzende Diagnose eingesetzt, um zu prüfen, ob benannte semantische Achsen in der geometrischen Struktur reflektiert werden

Explorationsoperationen und mögliche Nutzung

  • Epicure bietet im selben 300-dimensionalen Einbettungsraum zwei komplementäre Operationsfamilien
    • Paarbildung auf Basis nächster Nachbarn

      • Mit top-K-Nachbarsuche werden nahe Einträge im Umfeld einer Zutat gefunden
      • Über die Abfrage der Moduszugehörigkeit lassen sich Einträge erkunden, die zu einem bestimmten kulinarischen Modus gehören
    • SLERP-Richtungsarithmetik

      • Eine Seed-Zutat wird in Richtung eines überwachten Pole-Vektors oder eines emergenten Faktor-Modus-Pols rotiert
      • Der kontinuierliche Winkel θ interpoliert zwischen einer seed-dominierten Suche und einer target-dominierten Suche
      • Wenn man beispielsweise rice um die südasiatische Richtung ergänzt, verschiebt es sich in Richtung curry leaf, urad dal, chana dal und fenugreek seed
      • Sowohl überwachte semantische Richtungen als auch unüberwachte emergente Modi können für die Zutatenexploration genutzt werden
      • Ein auf Köche ausgerichtetes Tool könnte Zutaten rotieren, mischen und durchsuchen und dabei entlang sensorisch, ernährungsbezogen und kulturell konsistenter Richtungen explorieren
      • Beziehungen auf chemischer Basis und auf Basis des Rezeptkontexts lassen sich über Modellauswahl und Walk-Schema steuern
      • Code und trainierte Artefakte sind derzeit nicht veröffentlicht

1 Kommentare

 
GN⁺ 4 시간 전
Hacker-News-Kommentare
  • Die Forschung selbst ist interessant, aber der Titel ist irreführend
    Ein besserer Titel wäre wohl eher „Komprimierung der von Menschen verwendeten Zutaten auf 1.800 primitive Elemente“
    Tatsächliche Kochanleitungen, also Dinge wie Zubereitungsmethoden oder Verhältnisse, sind kaum enthalten, aber Informationen wie etwa, dass Tomaten weltweit gut zu Rindfleisch passen, können beim Entwickeln von Geschmackskombinationen eine ziemlich nützliche und interessante Ressource sein

    • Ein großartiges Buch über Karten gut zusammenpassender Aromen ist The Flavor Bible
      Es enthält zwar nicht alle Kombinationen der 1.800 Zutaten, behandelt aber gängige Kräuter, Gewürze, Gemüse und Fleisch ziemlich gut. Selbst komprimiert wäre die Textgröße dieses Buches vermutlich nicht besonders groß
      Das Problem mit von LLMs erzeugten Rezepten ist, dass sie die Feinheiten der Kochtechnik übersehen. Oft hängt Erfolg oder Misserfolg an einem einzigen Schritt oder einem einzigen Verhältnis, und zum Beispiel gibt es von „Fried Chicken“ unzählige Varianten auf der ganzen Welt, aber aus dem Durchschnitt von Rezepten entsteht noch lange kein gutes Fried Chicken
    • Falls ich nichts übersehen habe, sehe ich im Paper nirgends eine Begründung dafür, dass es alle Zutaten der Menschheit abdeckt
      Die 11 Datenquellen behandeln verschiedene verbreitete Küchen, aber englische und chinesische Quellen machen 90 % des Datensatzes aus. Afrika und der arabische Raum sind ebenfalls gar nicht in den Daten enthalten, und diese beiden zusammen machen schon etwa 25 % der Weltbevölkerung aus
      Dass alle nichtenglischen Begriffe per KI ins Englische übersetzt wurden, ist methodisch zwar nachvollziehbar, lässt aber eindeutig Raum für Fehler
    • Ich habe einmal einen Rindereintopf für 12 Personen gerettet, indem ich Tomatensauce hinzugefügt habe
      Rindfleisch wird zäh, wenn man es falsch kocht, aber die Säure der Tomaten macht es wieder zart
    • Wenn dich dieses Thema interessiert, ist auch dieses Paper sehenswert: https://www.nature.com/articles/srep00196
    • Tomaten enthalten viel Glutaminsäure, was das Rindfleischaroma noch stärker hervorhebt
  • Interessant
    Ich versuche gerade, Rezepte in kleine Diagramme zu komprimieren: https://leontrolski.github.io/recipes.html

    • Gefällt mir. Erinnert mich ein wenig an das tabellarische Format von Cooking for Engineers. Man sieht es, wenn man auf der Rezeptseite ganz nach unten scrollt: https://www.cookingforengineers.com/recipe/19/Erics-Chocolat...
    • Schön. Erinnert mich an https://www.reddit.com/r/flowchartrecipes/ und an die Tabellenansicht auf https://www.cookingforengineers.com/recipe/87/Carrot-Pulp-Ca...
    • Ah, Rezeptkarten als Abhängigkeitsgraphen. Wirklich toll
      So etwas habe ich mir schon immer vorgestellt, und es hat mich immer gestört, dass Rezepte die Zutaten einfach als riesige, unstrukturierte Liste aufführen und dann sagen: „Mische die trockenen Zutaten in einer tiefen Schüssel“
      Eine Zeit lang dachte ich, dass so eine gute Umsetzung profitabel sein könnte, aber inzwischen scheint es, als würde sie leicht kopiert werden, sobald einmal ein starkes Interface auftaucht
    • Wirklich eine tolle Website. Die handgezeichneten Graphen haben mir gefallen
      Die Tabelle erinnert mich an die Rezepte in Modernist Cuisine. Dort werden Zutaten nach Verfahrensschritten gruppiert und zusammen mit Gewichten, manchmal auch Volumen und Verhältnissen, angegeben
      Beispiel: https://modernistcuisine.com/wp-content/uploads/2013/01/Mac-...
    • Ich mag diesen Ansatz wirklich sehr. Jemand könnte Erfolg haben, wenn er ein großformatiges, diagrammbasiertes Rezeptbuch macht, das man bei der Arbeit in der Küche auch aus der Entfernung lesen kann
  • Nur als Hinweis: Die gesamte Website https://publicdomainrecipes.com ist als einzelne 22-MiB-Datei auf https://browse.library.kiwix.org verfügbar: https://browse.library.kiwix.org/viewer#publicdomainrecipes....
    Rezepte hinzufügen kann man unter https://github.com/ronaldl29/public-domain-recipes

  • Bei „11 Quellen in 7 Sprachen, darunter Englisch, Chinesisch, Russisch, Vietnamesisch, Spanisch, Türkisch, Indonesisch, Deutsch und indisches Englisch“ kann man kaum von der gesamten Küche der Menschheit sprechen

    • Trotzdem repräsentiert es ungefähr 70 % der heutigen Weltbevölkerung. Es sind nicht 100 %, aber ein großer Teil großer Bevölkerungsgruppen ist immerhin enthalten
      Allerdings fehlen italienische, japanische, griechische und mexikanische Küche, obwohl sie weltweit sehr beliebt sind, und Afrika sowie der Nahe Osten fehlen komplett, daher ist es unvollständig
    • Stimmt. Wenn man sich den Korpus ansieht, stammt fast die Hälfte der Rezepte aus dem chinesisch/koreanischen Bereich
      Das wird im Paper auch schnell eingeräumt, aber ein ausgewogener Datensatz ist es ganz sicher nicht
  • In [1] kann man eine Demo sehen, die wie eine frühere Iteration dessen wirkt, was dieses Paper beschreibt.
    Ich war neugierig, welche Zutaten die Demo ausgewählt hatte, und habe deshalb einige ungewöhnliche Zutaten aus Peter Gilmores [2] „Organum: Nature, Texture, Intensity, Purity“ ausprobiert. Er ist für das Restaurant Quay in Sydney, Australien, bekannt.
    Sie kennt recht abenteuerliche Zutaten wie Wacholderbeeren, Macadamia, Nigellasamen, Orangenblütenwasser und Zitronenverbene und unterscheidet sogar zwischen Sesamöl und geröstetem Sesamöl. Obwohl die Zutatenliste nur „Reis“, „schwarzen Reis“, „Naturreis“ und „Klebreis“ enthält, ist sie klug genug, bei der Auswahl von „Reis“ für gebratenen Reis die Verwendung von gekochtem, abgekühltem Jasminreis zu empfehlen und für Pilaw Basmatireis einzuweichen und zu spülen.
    Wenn man „Lamm“ auswählt und dazu Gemüse, das häufig zum Schmoren verwendet wird, nimmt, schlägt sie passende Teilstücke wie Schulter oder Haxe vor.
    Traubenkernöl, Orzo, Mangostan und Zitronenmyrte kennt sie nicht, und Zutaten wie Karkalla, die wohl nur jemand wie Peter Gilmore verwenden würde und von denen die meisten Köche noch nie gehört haben, natürlich ebenfalls nicht. Solche Zutaten sind aber stark regional oder sehr speziell, daher sehe ich das nicht als große Einschränkung.
    Sie kennt zwar „Kürbiskerne“, aber nicht „pumpkin“, sondern behandelt es als „squash“, daher wäre für britisches/amerikanisches Englisch mehr Lokalisierung nötig. Ich hatte gehofft, mit der Kombination aus „Lamm“ und „Avocado“ einen Salat erzeugen zu können, aber das scheiterte; später stellte ich fest, dass es in der Zutatenliste weder Kopfsalat noch Rucola gab, sondern nur den US-Ausdruck „salad greens“. Ich habe es auch mit anderen Salatzutaten, mit Hähnchen oder ganz ohne Protein versucht, aber statt eines Salats erzeugte sie immer wieder nur eine pseudogehobene Speise mit Tomatengelee (Agar) und Avocadopüree um einen Proteinblock herum.
    [1] https://epicure.kaikaku.ai/
    [2] https://en.wikipedia.org/wiki/Peter_Gilmore_(chef)

    • Dass „pumpkin“ als „squash“ behandelt wird, ist ein viel größeres Problem als nur ein einfacher Wortunterschied.
      Aus US-Sicht gibt es viele häufig verwendete Arten von squash, und pumpkin ist nur eine davon. Mir fallen spontan acorn, butternut und spaghetti ein, und wenn man es genau nimmt, gehört auch zucchini dazu.
  • Ich habe das auf X/Twitter gesehen, und es fällt mir schwer zu glauben, dass man menschliche Küche mit all ihren Techniken, Zutaten und kulturspezifischen Zubereitungsweisen auf 2 Megabyte komprimieren kann.
    Das ist ähnlich wie bei der Aussage „ein 1-GB-Modell, das Tool-Calling und Coding beherrscht“: Wenn man es dann ausprobiert, funktioniert es kaum. Technisch gesehen ist es ein 1-GB-Coding-Modell, aber eben kein gutes Modell.

    • Der Raum essbarer menschlicher Nahrung ist klein. Es gibt nur ein paar tausend Zutaten und ein paar tausend Kochtechniken, daher lässt sich das mit einem hochgradig treuen Modell leicht komprimieren.
  • Ein Food-Modell/Korpus, das Englisch und Deutsch einschließt, aber Italienisch und Französisch ausschließt, ist schwer ernst zu nehmen.

    • In der Tabelle tauchen viele Küchen wie die italienische und französische auf. Die Liste mit den 11 Quellen bezieht sich auf Sprachen.
      Echte auf Französisch geschriebene Rezepte fehlen zwar, aber englischsprachige Rezepte für französische Zwiebelsuppe wird es dort sicher geben.
  • Es heißt, „[Claude] habe die gesamte Zutatenklassifikation mit deterministischem Decoding (temperature 0–0.1) durchgeführt“, und das ist in diesem Kontext zwar kein großes Problem, aber eine niedrige temperature ist nicht gleich Determinismus.

    • Stimmt. Temperature 0 ist weder eine notwendige noch eine hinreichende Bedingung für deterministische Inferenz.
  • Wenn man das Clickbait weglässt, ist es ein ziemlich interessantes Konzept. Ich frage mich, ob es mit solchen Embeddings einen word2vec-Moment für Zutaten oder Geschmacksprofile geben könnte.
    Wie andere schon richtig angemerkt haben, ließe sich das mit repräsentativeren Datenquellen neu aufziehen, und ich bin gespannt, wie effektiv dieser Ansatz am Ende wäre.

  • Ich habe versucht, das mit den entsprechenden Daten und Informationen in Claude Code umzusetzen, und es sieht ziemlich gut aus.
    Für Empfehlungen von Ersatzzutaten könnte es besser geeignet sein als für die Rezeptgenerierung: https://viz.roshangeorge.dev/recipe-model/