Word2Vec erhielt auf der ICLR 2013 viermal die Bewertung „starke Ablehnung“

(openreview.net)

1 Punkte von GN⁺ 2023-12-19 | 1 Kommentare | Auf WhatsApp teilen

Effiziente Schätzung von Vektorräumen für Wortrepräsentationen

Die Forschenden schlagen zwei neue Modellarchitekturen vor, um kontinuierliche Vektorrepräsentationen von Wörtern auf sehr großen Datensätzen zu berechnen.
Die Qualität dieser Repräsentationen wird anhand von Aufgaben zur Wortähnlichkeit gemessen und mit verschiedenen Typen neuronaler Verfahren verglichen, die zuvor die beste Leistung gezeigt hatten.
Das Forschungsteam beobachtete eine deutlich verbesserte Genauigkeit bei wesentlich geringeren Rechenkosten. Das heißt, aus einem Datensatz mit 1,6 Milliarden Wörtern lassen sich hochwertige 300-dimensionale Vektoren für einen Wortschatz von 1 Million Wörtern innerhalb eines Tages auf einer einzigen CPU ableiten.
Außerdem wird gezeigt, dass diese Vektoren auf Testsets zur Messung verschiedener Arten von Wortähnlichkeit Ergebnisse auf dem neuesten Stand der Technik liefern.
Dieses Testset soll der Forschungsgemeinschaft zur Verfügung gestellt werden.

Meinungen

Die Reviewer bemängelten, dass eine klare Motivation dafür fehle, wie sich das vorgeschlagene Modell von bestehenden Modellen unterscheidet und warum es überlegen ist.
Die Beschreibung des Modells ist sehr knapp, sodass schwer zu bestimmen ist, wie es sich von früheren Arbeiten unterscheidet.
Die Reviewer betonten, dass das Paper inkonsistente Vergleiche zwischen Modellen enthält, die auf verschiedenen Datensätzen und mit unterschiedlichen Dimensionen trainiert wurden, obwohl genau dies nötig wäre, um die Behauptungen des Papers überzeugend zu machen.

Meinung von GN⁺

Diese Forschung schlägt eine neue Technik zur effizienten Schätzung von Wortvektoren vor, was einen wichtigen Fortschritt im Bereich der natürlichen Sprachverarbeitung darstellt.
Das vorgeschlagene Modell kann viel schneller trainiert werden als bestehende komplexe neuronale Modelle, was für Forschung an großskaligen Sprachdaten nützlich sein kann.
Das Paper präsentiert eine neue Methode zur Bewertung der Qualität von Wortvektoren, die sich in künftiger Forschung möglicherweise als Standard zur Messung von Wortähnlichkeit etablieren könnte.

1 Kommentare

GN⁺ 2023-12-19

Meinungen auf Hacker News

In einem aktuellen FB-Beitrag von Tomas Mikolov (Autor von word2vec) stehen weitere Details: https://www.facebook.com/share/p/kXYaYaRvRCr5K2Ze
Der interessante und zugleich bittere Punkt ist: Auch Experten machen Fehler. Von Reaktionen à la Geoff Hinton zu Wortanalogien — „das wusste ich auch, habe nur vergessen, es zu veröffentlichen“ — bis hin zu Leuten, die das Paper weder gelesen noch selbst ausprobiert hatten und meinten: „Das ist reiner Trick und kann unmöglich funktionieren.“ Auch Ian Goodfellow wird erwähnt, sinngemäß als jemand, der sich auf Twitter aufgeregt habe.
- Tomas sagt, die Idee des Encoder-Decoder (seq-to-seq) sei ihm gekommen, und nachdem er zu Facebook gegangen sei, hätten Ilya und Quoc sie weitergeführt.
  Quoc sagt jedoch, das stimme nicht: https://twitter.com/quocleix/status/1736523075943125029
  Aus Quocs Sicht hat Tomas die Idee nicht vorgeschlagen; vielmehr sei er sehr skeptisch gewesen, als die Idee einer End-to-End-Übersetzung geteilt wurde, und trotz dieser Skepsis habe man daran gearbeitet, sie zum Laufen zu bringen. Es wirkt weniger so, als würde jemand lügen, sondern eher, als erinnere sich eine Seite falsch — aber es hinterlässt keinen guten Beigeschmack.
- Fairerweise habe ich auch in Erinnerung, dass das damalige Paper und die umliegende Technik ziemlich schwach waren. Weit verbreitete Implementierungen verhielten sich tatsächlich anders als im Paper beschrieben, und die Technik war auch nicht besonders gut für viel mehr als Vergleiche auf Wortebene.
  Wenn man bestimmten Wörtern tf-idf-Gewichte gab, half das ein wenig, aber eine entsprechend gewichtete Menge von Wörtern war ähnlich stark. Die Methode, die Summe mehrerer Wortvektoren zu bilden und darauf Kosinus-Ähnlichkeit anzuwenden, klingt aus heutiger Sicht wirklich töricht.
- In einem anderen Thread wurde gefragt, inwiefern Goodfellow sich aufgeregt haben soll; das Einzige, was ich gefunden habe, war das hier: https://twitter.com/goodfellow_ian/status/113352818965167718...
  Wenn das gemeint ist, vermittelt Mikolov ehrlich gesagt den Eindruck, ziemlich instabil zu wirken.
- Der Beitrag klingt ehrlich gesagt wegen der vielen Seitenhiebe auf verschiedene Leute wie eine Tirade. Man hätte das deutlich würdevoller schreiben können.
  Allerdings ist glaubhaft, dass auch die meisten Forschenden Menschen sind und stärker von Ego und Geld beeinflusst werden, als den Fortschritt gemeinsamen Wissens an erste Stelle zu setzen. hust OpenAI hust
- Der Beitrag hätte eher auf Twitter gepasst als auf das „vergessene“ FB. Dann hätten die erwähnten oder angedeuteten Personen und Organisationen die Chance gehabt, den Beitrag zu sehen und ihre Sicht zu teilen.
  Sonst klingt es einfach wie ein Beschwerdepost.
Ich finde, die Reviewer haben ihre Sache ziemlich gut gemacht. Auch die Reviews sind recht vernünftig. Ein Review sollte die Qualität des Papers beurteilen, nicht wie einflussreich es in Zukunft sein wird.
Nicht jedes einflussreiche Paper ist tatsächlich auch ein gutes Paper.
- Stimme zu. Auch mein einflussreichstes Paper bekam bei der ersten Einreichung eine starke Ablehnung, und rückblickend halte ich das für gerechtfertigt.
  Die Motivation war schwach, der Beitrag wurde nicht klar herausgearbeitet, und die Erklärung war sehr verworren. Der Kern der Idee änderte sich kaum, aber das schließlich veröffentlichte Paper wurde viel besser — gerade weil das erste Review so hart war. Das Review selbst war nicht besonders tiefsinnig, eher auf dem Niveau von „verwirrend, ich verstehe nicht, was ihr macht und warum“, aber manchmal braucht man genau diesen Blick von außen.
  Ich habe selbst schon Papers begutachtet und abgelehnt, bei denen man den Keim einer großartigen Idee sehen konnte, das geschriebene Paper selbst aber nicht gut war. Es freut mich immer, wenn solche Papers später in deutlich besserer Form veröffentlicht werden.
- Ich stimme zu, dass Papers in der Praxis oft so bewertet werden, widerspreche aber entschieden, dass es so sein sollte. Das ist wie das Problem, unter der Straßenlaterne zu suchen, statt dort, wo man den Schlüssel verloren hat.
  Man sollte nicht fragen: „Erfüllt dieses Paper die Checklisten?“, sondern: „Bringt dieses Paper das Feld voran und sollte deshalb mehr Sichtbarkeit bekommen?“ Dass Ersteres nicht besser zu Letzterem führt, ist ein Versagen des Systems.
  Es ähnelt einer Einstellungspraxis, bei der man Bewerber mit ordentlicher Frisur und den richtigen Codewörtern auswählt, aber die Leute übersieht, die tatsächlich Einfluss auf den Umsatz haben.
  Ist ein „gutes“ Paper, das sehr rigoros ist, aber zu nichts führt, wirklich ein gutes Paper? Wenn man wissenschaftlichen Fortschritt so betrachtet, dass rigorose Papers Würfel mit hoher Erfolgswahrscheinlichkeit sind und weniger rigorose Papers Würfel mit niedriger Wahrscheinlichkeit, dann muss man nur nach rigorosen Papers suchen. Dann wäre die Schlussfolgerung, dass das weniger rigorose word2vec nur „wirklich Glück hatte“, als es Fortschritt brachte, und keine gute Bewertung verdient hätte.
  Aber word2vec war auch sehr innovativ, und das sollte in einem Review ein positiver Faktor sein. Ich denke sogar, dass innovative Papers schwer sehr rigoros sein können, weil in ihrem Feld die Definition von Rigorosität noch nicht etabliert ist. An den extremen Rändern würde ich behaupten, dass Rigorosität und Innovation negativ korreliert sind.
- „Der achtgliedrige Aufsatz war früher notwendig, damit Kandidaten der kaiserlichen Beamtenprüfung die für ein Amt erforderlichen Eigenschaften zeigen konnten … In Struktur und Stil war der achtgliedrige Aufsatz restriktiv und starr. Es gab zahlreiche Regeln, bis hin zur Anzahl der Sätze, der Anzahl der Wörter, Form und Struktur sowie Reimtechniken.“
  https://en.wikipedia.org/wiki/Eight-legged_essay#Viewpoints
- Wenn dem so ist, verstehe ich nicht, warum so viel Fokus und Aufwand in das Peer-Review-System gesteckt wird.
  Wenn man diejenigen fragt, die Forschung finanzieren, wollen sie wahrscheinlich eher in einflussreiche Ideen investieren als in die Produktion einflussloser, aber „hochwertiger“ Papers.
- Das ist die richtige Interpretation. Manche wollen daraus vielleicht „die Reviewer sind dumm“ machen, aber das stimmt nicht.
Im Nachhinein ist der Kommentar des Reviewers f5bf interessant. Er meinte, es wäre gut zu erklären, wie diese Modelle intransitive semantische Ähnlichkeit behandeln, etwa bei „river“, „bank“ und „bailout“, und dass Leute wie Tversky kritisiert hätten, Modelle semantischer Räume könnten solche Ähnlichkeiten nicht angemessen modellieren.
Auffällig an heutigen Modellen (GPT, Bild-Diffusionsmodelle usw.) ist ihre Fähigkeit, mit Wörtern zu spielen, wenn es mehrdeutige Bedeutungen gibt. Früher wirkte das wie eine sehr menschliche Fähigkeit, jetzt scheint sie in den Werkzeugkasten generativer Modelle gewandert zu sein. Ich vermute, dass die meisten von ihnen etwas Word2Vec-Ähnliches verwenden, um aus Prompts Embedding-Vektoren zu gewinnen.
Ich weiß nicht, ob die Mehrdeutigkeit von Word2Vec zur Fähigkeit zu Wortspielen beiträgt, aber sie zeigt eine Feature-versus-Bug-Situation: Für kreative Zwecke ist diese Mehrdeutigkeit ein Feature, während sie zum Bug wird, wenn man semantische Räume streng als Vektorräume modellieren will.
Ich interpretiere die Wort-/Prompt-Embeddings heutiger Modelle als so groß, dass sie mit redundanten Dimensionen überladen sind und vermutlich keinen mathematischen Formalismus erfüllen, der einem gut funktionierenden Vektorraum ähnelt.
- Der zentrale Unterschied lässt sich wohl kontextfreie Embeddings versus kontextuelle Embeddings nennen. Verfahren wie Word2Vec müssen konstruktionsbedingt jedem „bank“ in jedem Satz exakt denselben Vektor zuweisen.
  Spätere Modelle dagegen, etwa die Transformer-Familie, BERT, GPT usw., weisen demselben „bank“ je nach Kontext der umgebenden Wörter völlig andere Vektoren zu.
- Auch kleine Modelle (z. B. mit versteckter Dimension 32) sollten mit Attention Token-Mehrdeutigkeit verarbeiten können. Es steckt viel mehr Information im Kontext als im Token selbst.
Es sieht so aus, als seien frühe Versionen des Papers abgelehnt worden, woraufhin es anhand der Reviews Updates und zusätzliche Erklärungen gab. Am Ende war das nützlich und wirkt wie die Art, wie der Review-Prozess funktionieren sollte.
Gerade weil dieses Paper eine bahnbrechende Arbeit war, ist es sinnvoll, mehr Mühe darauf zu verwenden, zu erklären, warum es funktioniert, statt sich nur auf gute Benchmark-Ergebnisse zu stützen.
Rückblickend dürften sich die anonymen Reviewer, die damals klug wirkten, ziemlich dumm vorkommen.
Peer Review funktioniert bei neuen Ideen nicht gut, weil niemand die Zeit oder den Spielraum hat, Stunden um Stunden darauf zu verwenden, etwas Neues zu verstehen.
- Es ist erwähnenswert, dass der Großteil der besten Wissenschaft entstand, bevor Peer Review dominierend wurde.
  Ich habe früher einmal einen Artikel dazu gelesen, den ich jetzt nicht leicht wiederfinde; er skizzierte grob die Geschichte des heutigen Peer-Review-Systems. Peer Review, wie wir es heute kennen, entstand vor allem in den 1970er-Jahren als Reaktion auf verschiedene Finanzierungskrisen in der Wissenschaft. Es war demnach eine Strategie, Forschung vertrauenswürdiger erscheinen zu lassen.
  Die vernichtendste Kritik an Peer Review ist natürlich, dass es die Reproduzierbarkeitskrise vollständig nicht verhindert hat – und sie vielleicht sogar befördert hat. Die Wissenschaft ist ein System, dessen zentrales Motiv darin besteht, über das Image von Vertrauenswürdigkeit Mittel einzuwerben; prinzipiell ist das ein Rezept für großflächigen Betrug.
- Ich habe im vergangenen Jahr meinen KI-Doktor abgeschlossen und kann sagen, dass es tatsächlich Reviewer gibt, die mehrere Stunden in ein ordentliches Review investieren. Zwar ist es heute wahrscheinlicher, auf faule Reviewer zu treffen und Pech zu haben, aber bei diesem Paper sieht es nicht danach aus.
  Zum Beispiel fasste das Review von f5bf CBOW und Skip-Gram zusammen und wies darauf hin, dass die Modellbeschreibung sehr minimal sei, sodass schwer zu beurteilen sei, wie sehr sie sich von bestehenden Modellen unterscheidet. Grafische Darstellungen oder mathematische Details wären hilfreich; da viel Platz auf eine eher unnötige Gleichung zur Anzahl der Parameter verwendet werde und fast eine Seite frei sei, sollte das problemlos möglich sein.
  Solche Reviews führten zu deutlichen Überarbeitungen des Papers, auch wenn sie offenbar nicht groß genug waren: https://openreview.net/forum?id=idpCdOWtqXd60&noteId=C8Vn84f...
  Das waren ziemlich hochwertige Reviews, und ich persönlich denke, dass das Paper von diesem Review-Prozess profitiert hat.
- Ich war im vergangenen Jahr von den Tracks der Machine-Learning-Konferenzen sehr enttäuscht. Es gibt zu viele Papers und zu wenige Reviewer, wodurch ungewöhnlich viele Doktoranden als Reviewer eingesetzt werden.
  Ich habe wirklich absurde Reviews bekommen, darunter auch Sünden gegen den wissenschaftlichen Geist. Zum Beispiel bestand ein Reviewer im Grunde darauf, dass etwas ohne neue Architekturidee und State-of-the-Art-Ergebnisse nicht veröffentlichungswürdig sei. Als dürfe man bereits vorhandene Werkzeuge keinesfalls besser verstehen und vereinfachen.
- Zu diesem Schluss bin ich nicht gekommen. Der Review-Prozess hat das Paper verbessert und strenger gemacht. Ich sehe nicht, warum das schlecht sein soll.
  Natürlich konzentrieren sich Reviewer manchmal auf andere Fragen statt darauf, ob „das A, B, C revolutionieren wird“.
- Das Problem hier war nicht, dass die Reviewer mit einer neuen Idee nicht zurechtkamen. Sie waren alle sehr vertraut mit Word Embeddings und deren Erzeugung.
  An Word2Vec gab es nicht besonders viele neue Konzepte; anders war, dass es einfach, schnell und qualitativ gut war. Die Software und die vortrainierten Vektoren waren leichter zugänglich und nutzbar als frühere Ansätze.
Es gibt zwar vier „strong reject“, aber sie scheinen alle vom selben Reviewer zur selben Zeit mit demselben Inhalt geschrieben worden zu sein. Ist das nicht einfach eine Ablehnung?
Außerdem frage ich mich, warum nur die Bewertung dieses Reviewers zu sehen ist.
Ich frage mich, wie viele der Leute, die hier starke Aussagen über den Wert oder Unwert von Peer Review machen, tatsächlich sowohl als Autor als auch als Reviewer daran teilgenommen haben. Noch mehr würde mich interessieren, wer schon einmal die Rolle eines Editors übernommen hat, der mehrere Reviews zu einer Empfehlung zusammenführen und synthetisieren muss.
Es gibt viele Orte, an denen man Forschung oder Ideen ohne formales Peer Review teilen kann; arXiv/bioRxiv sind die bekanntesten Beispiele. Wenn man Peer Review an sich ablehnt, scheint es genug Alternativen zu geben.
- Es ist das Internet, also kommt bei jedem Thema ein großer Teil der starken Überzeugungen von Leuten, die kaum Erfahrung oder Kompetenz auf dem jeweiligen Gebiet haben.
  Da es HN ist, ist es wohl etwas besser als der Durchschnitt, zugleich aber auch zugunsten von Leuten verzerrt, die gerade prokrastinieren. Das kann man entsprechend einordnen.
Als Student hatte ich im Rahmen einer Kursaufgabe ein einfaches System gebaut, das Texte anhand einiger Heuristiken korrigierte.
Die Lehrkraft dieses Kurses schlug mir vor, im Sommer bei einer regionalen Konferenz ein Paper einzureichen, das das System und die Ergebnisse beschreibt. Ich schrieb es mit Unterstützung, aber es wurde sofort abgelehnt, sinngemäß wegen schlechter Grammatik. Die Konferenz fand in Brasilien statt, verlangte das Paper aber auf Englisch. Ich war Student und dachte, mein Englisch sei wirklich schlecht.
Die Lehrkraft riet mir, den Reviewern eine E-Mail zu schicken, Feedback einzuholen, das Paper zu überarbeiten und erneut einzureichen. Also fragte ich konkret, welche Absätze unklar seien, und sie schickten mir offensichtlich falsche Satzfragmente zurück. Das waren allerdings die Sätze vor der Korrektur in den Beispielen, die zeigten, wie mein System Sätze vor/nach der Korrektur veränderte.
Ich versuchte zu erklären, dass diese Stellen grammatikalisch falsch sein sollten, aber die Antwort lautete: „Korrigieren Sie die Englischfehler und reichen Sie erneut ein.“ Nach zwei oder drei weiteren Versuchen gab ich schließlich auf.
- Das erinnert an Feynmans Anekdoten aus Brasilien. Besonders nach „I was invited to give a talk at the Brazilian Academy of Sciences“ suchen reicht, aber falls man es nicht kennt, ist der ganze Text lesenswert.
  https://southerncrossreview.org/81/feynman-brazil.html
- Genau so etwas hatte ich befürchtet, da verdreht man die Augen. Wenn du es trotzdem veröffentlichen willst, könntest du es auf arXiv hochladen und die kollektive Intelligenz von HN nach geeigneten Einreichungsorten fragen.
  Falls du keinen arXiv-Zugang hast, kannst du dir einen Endorser suchen: <https://info.arxiv.org/help/endorsement.html>. Schreib eine kurze, höfliche E-Mail und priorisiere Kürze vor übertriebener Förmlichkeit. Etwa: „Ich habe yyyy an der Universität ein Paper zu automatischer Grammatikkorrektur geschrieben, das bei Venue wegen der Grammatikfehler in den Abbildungen abgelehnt wurde. Ich möchte es immer noch veröffentlichen. Könnten Sie meinen arXiv-Account endorsen? Und könnten Sie mir einen passenden Einreichungsort empfehlen?“ Für die Endorsement-Anfrage einfach den Anweisungen auf der arXiv-Website folgen.
- Ich war Reviewer und habe gelegentlich ähnliche Reviews geschrieben.
  Ein Paper ist eine Übung darin, Informationen an Leser zu vermitteln. Wenn der Schreibstil es den Lesern sehr schwer macht, diese Informationen zu verstehen, ist das Paper unabhängig von der Qualität der zugrunde liegenden Ideen kaum nützlich und nicht zur Veröffentlichung geeignet.
  Es ist nicht die Aufgabe der Reviewer, ein Paper so umzuschreiben, dass es verständlich wird. Sie haben weder die Zeit dafür, noch gehört es zu ihrer Arbeit.
  Schreiben ist nicht leicht, und das Verfassen technischer Papers ist wirklich eine schwer zu erlernende Fähigkeit. Aber sie ist nötig, damit Forschung nützlich wird.
  Ehrlich gesagt klingt es so, als hätte die Lehrkraft, die vorgeschlagen hat, ein Paper daraus zu machen, ihre Rolle nicht richtig erfüllt und dich damit Zeit verschwenden lassen. Wenn die Arbeit eine Veröffentlichung wert war, hätte sie Zeit investieren müssen, sie in eine veröffentlichbare Form zu bringen; wenn nicht, hätte sie den Vorschlag gar nicht erst machen sollen.
Ich habe den Titel geflaggt, weil er irreführend ist. Die vier Strong-Rejects stammen von einem einzigen Autor.
Aus unbekanntem Grund wurden sie viermal aufgeführt, wahrscheinlich wegen eines merkwürdigen Verhaltens von OpenReview. Der tatsächliche Zustand, den die Seite zeigt, sind zwei „unknown“ mit langem Text, ein „weak reject“ und ein „strong reject“.
Der Review-Thread wirkt, wenn man unten anfängt und nach oben liest, wie ein Show-HN-Thread, der negativ verlaufen ist.
Als das Paper zunächst Fragen und negatives Feedback erhielt, stichelten die Autoren in ihren Updates leicht gegen die Reviewer. Sie antworteten: „Wir begrüßen die Diskussion … ein zentraler Beitrag, der in einigen Reviews offenbar übersehen wurde, ist, dass sich auch mit sehr flachen Modellen gute Wortvektor-Repräsentationen berechnen lassen.“
Die Antwort auf dieses Update lautete: „Die Überarbeitungen und die Rebuttal adressieren die von den Reviewern angesprochenen Probleme nicht. In der aktuellen Form sollte das Paper meiner Ansicht nach nicht angenommen werden. Qualitätsbewertung: Strong reject. Sicherheit: Der Reviewer verfügt über Fachwissen.“

Word2Vec erhielt auf der ICLR 2013 viermal die Bewertung „starke Ablehnung“

Effiziente Schätzung von Vektorräumen für Wortrepräsentationen

Meinungen

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News