[2023/09/04 ~ 09/10] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)
(discuss.pytorch.kr)Überblick
Ich habe den von DAIR.AI wöchentlich veröffentlichten Beitrag über ML-Papers automatisch übersetzt.
In dieser Woche fallen besonders viele Papers zu KI-Technologien auf, die sich vor allem um Transformer und Reinforcement Learning drehen.
Transformer als Support Vector Machines / Transformers as Support Vector Machines
Paper-Vorstellung
- Es wird gezeigt, dass die Optimierungsgeometrie der Self-Attention in Transformern mit Hard-Margin-SVM-Problemen zusammenhängt; außerdem wird festgestellt, dass ohne Early Stopping angewandter Gradientenabstieg zu impliziter Regularisierung und Konvergenz der Self-Attention führt. Diese Arbeit hat das Potenzial, das Verständnis von Sprachmodellen zu vertiefen.
> Finds that the optimization geometry of self-attention in transformers exhibits a connection to hard-margin svm problems; also finds that gradient descent applied without early-stopping leads to implicit regularization and convergence of self-attention; this work has the potential to deepen the understanding of language models.
Paper-Abstract
- Seit ihrem Ursprung in „Attention Is All You Need“ hat die Transformer-Architektur zu revolutionären Fortschritten im NLP geführt. Die Attention-Schicht innerhalb des Transformers verarbeitet eine Sequenz von Eingabetokens $X$ und lässt sie über paarweise Ähnlichkeiten interagieren, die als softmax $(XQK^\top X^\top)$ berechnet werden, wobei $(K,Q)$ die trainierbaren Key-Query-Parameter sind. In dieser Arbeit stellen wir eine formale Äquivalenz zwischen der Optimierungsgeometrie von Self-Attention und einem Hard-Margin-SVM-Problem her, das optimale Eingabetokens von nicht optimalen Tokens mithilfe linearer Nebenbedingungen auf den äußeren Produkten von Token-Paaren trennt. Dieser Formalismus erlaubt es uns, den impliziten Bias von 1-Schicht-Transformern zu charakterisieren, die mit Gradientenabstieg optimiert werden: (1) Die Optimierung der Attention-Schicht mit verschwindender Regularisierung, parametrisiert durch $(K,Q)$, konvergiert richtungsmäßig zu einer SVM-Lösung, die die Kernnorm des kombinierten Parameters $W=KQ^\top$ minimiert. Eine direkte Parametrisierung über $W$ minimiert stattdessen ein Frobeniusnorm-Ziel. Wir charakterisieren diese Konvergenz und heben hervor, dass sie zu lokal optimalen statt global optimalen Richtungen erfolgen kann. (2) Ergänzend dazu beweisen wir die lokale/globale Richtungs-Konvergenz des Gradientenabstiegs unter geeigneten geometrischen Bedingungen. Wichtig ist, dass wir zeigen, dass Überparametrisierung die globale Konvergenz fördert, indem sie die Lösbarkeit des SVM-Problems sicherstellt und eine günstige Optimierungslandschaft ohne stationäre Punkte garantiert. (3) Während unsere Theorie in erster Linie auf lineare Prediction-Heads anwendbar ist, schlagen wir eine allgemeinere SVM-Äquivalenz vor, die den impliziten Bias bei nichtlinearen Heads vorhersagt. Unsere Ergebnisse sind auf beliebige Datensätze anwendbar und werden experimentell validiert. Außerdem stellen wir mehrere offene Probleme und Forschungsrichtungen vor. Wir glauben, dass diese Ergebnisse dazu anregen, Transformer als Hierarchie von SVMs zu interpretieren, die optimale Tokens trennen und auswählen.
> Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax $(XQK^\top X^\top)$ , where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.
Paper-Link
https://arxiv.org/abs/2308.16898
RLAIF: Reinforcement Learning aus Human Feedback mit AI-Feedback skalieren / RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
Paper-Vorstellung
- Diese Arbeit testet, ob RLAIF eine geeignete Alternative zu RLHF ist, indem die Effizienz von menschlichem und AI-Feedback verglichen wird. Dafür werden verschiedene Techniken zur Generierung von AI-Labels eingesetzt und Skalierungsstudien durchgeführt, um optimale Einstellungen für die Erzeugung ausgerichteter Präferenzen zu ermitteln. Das wichtigste Ergebnis ist, dass bei der Zusammenfassungsaufgabe menschliche Evaluatoren in etwa 70 % der Fälle die Ausgaben von sowohl RLAIF als auch RLHF gegenüber einem Baseline-SFT-Modell bevorzugen. #rlhf
> Tests whether rlaif is a suitable alternative to rlhf by comparing the efficacy of human vs. ai feedback; uses different techniques to generate ai labels and conduct scaling studies to report optimal settings for generating aligned preferences; the main finding is that on the task of summarization, human evaluators prefer generations from both rlaif and rlhf over a baseline sft model in ∼70% of cases.
Paper-Abstract
- Reinforcement Learning from Human Feedback (RLHF) ist effektiv, um Large Language Models (LLMs) an menschliche Präferenzen anzupassen, doch das Sammeln hochwertiger menschlicher Präferenz-Labels ist ein zentraler Engpass. Ein direkter Vergleich von RLHF mit RLAIF (RL from AI Feedback), einer Technik, bei der ein gebrauchsfertiges LLM anstelle von Menschen Präferenz-Labels vergibt, zeigt, dass beide Verfahren ähnliche Verbesserungen erzielen. Bei der Aufgabe der Zusammenfassung bevorzugten menschliche Evaluatoren in rund 70 % der Fälle die von RLAIF und RLHF erzeugten Ergebnisse gegenüber einem baseline-supervised fine-tuned model. Außerdem bevorzugten Menschen bei der Bewertung von RLAIF- und RLHF-Zusammenfassungen beide in gleichem Maße. Diese Ergebnisse deuten darauf hin, dass RLAIF Leistung auf menschlichem Niveau erreichen kann und eine potenzielle Lösung für die Skalierbarkeitsgrenzen von RLHF bietet.
> Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.
Paper-Link
https://arxiv.org/abs/2309.00267
Weiterführende Lektüre
https://twitter.com/omarsar0/status/1699102486928265530
GPT kann mathematische Probleme ohne Taschenrechner lösen / GPT Can Solve Mathematical Problems Without a Calculator
Paper-Vorstellung
- Es wird gezeigt, dass ein 2b-Sprachmodell mit ausreichend Trainingsdaten mehrstellige arithmetische Operationen ohne Datenleckage mit 100 % Genauigkeit ausführen kann. Bei einem Fine-Tuning von GLM-10b auf einem Datensatz mit zusätzlichen mehrstufigen arithmetischen Operationen und detaillierten mathematischen Problemen kann es zudem mit GPT-4 auf einem chinesischen Mathematik-Testset mit 5.000 Samples konkurrieren. #mathematical-reasoning #wizardmath
> Shows that with sufficient training data, a 2b language model can perform multi-digit arithmetic operations with 100% accuracy and without data leakage; it’s also competitive with gpt-4 on 5k samples chinese math problem test set when fine-tuned from glm-10b on a dataset containing additional multi-step arithmetic operations and detailed math problems.
Paper-Abstract
- Frühere Studien gingen in der Regel davon aus, dass Large Language Models arithmetische Operationen ohne den Einsatz von Taschenrechner-Tools nicht präzise ausführen können, insbesondere keine Multiplikationen mit mehr als 8 Stellen und keine Operationen mit Dezimalzahlen und Brüchen. Dieses Paper will dieses Missverständnis infrage stellen. Mit ausreichend Trainingsdaten kann ein Sprachmodell mit 2 Milliarden Parametern mehrstellige arithmetische Operationen ohne Datenleckage mit nahezu 100 % Genauigkeit korrekt ausführen und übertrifft damit GPT-4 deutlich, dessen Genauigkeit bei mehrstelliger Multiplikation nur 4,3 % beträgt. Außerdem wird gezeigt, dass MathGLM, das aus GLM-10B auf einem Datensatz mit zusätzlichen mehrstufigen arithmetischen Operationen und in Textform beschriebenen mathematischen Problemen feinjustiert wurde, auf einem chinesischen Mathematik-Testset mit 5.000 Samples eine ähnliche Leistung wie GPT-4 erreicht.
> Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set.
Paper-Link
https://arxiv.org/abs/2309.03241
Weiterführende Lektüre
https://twitter.com/_akhaliq/status/1699951105927512399
Large Language Models als Optimierer / Large Language Models as Optimizers
Paper-Vorstellung
- Ein Ansatz, bei dem das Optimierungsproblem in natürlicher Sprache beschrieben wird; ein LLM wird dann angewiesen, auf Basis des definierten Problems und zuvor gefundener Lösungen iterativ neue Lösungen zu erzeugen; bei jedem Optimierungsschritt besteht das Ziel darin, auf Grundlage der Trajektorie zuvor erzeugter Prompts neue Prompts zu generieren, die die Testgenauigkeit erhöhen; die optimierten Prompts übertreffen auf GSM8K und BIG-Bench Hard von Menschen entworfene Prompts teilweise um mehr als 50 %. #optimizing
> An approach where the optimization problem is described in natural language; an llm is then instructed to iteratively generate new solutions based on the defined problem and previously found solutions; at each optimization step, the goal is to generate new prompts that increase test accuracy based on the trajectory of previously generated prompts; the optimized prompts outperform human-designed prompts on gsm8k and big-bench hard, sometimes by over 50%
Paper-Abstract
- Optimierung ist allgegenwärtig. Während gradientenbasierte Algorithmen für verschiedene Probleme leistungsstarke Werkzeuge waren, stellt das Fehlen von Gradienten in vielen realen Anwendungen eine Herausforderung dar. In dieser Arbeit schlagen die Forschenden Optimization by PROmpting (OPRO) vor, einen einfachen und effektiven Ansatz, um große Sprachmodelle (LLMs) als Optimierer zu nutzen, wobei die Optimierungsaufgabe in natürlicher Sprache beschrieben wird. In jedem Optimierungsschritt erzeugt das LLM aus einem Prompt, der zuvor generierte Lösungen zusammen mit ihren Werten enthält, neue Lösungen; diese neuen Lösungen werden dann bewertet und dem Prompt für den nächsten Optimierungsschritt hinzugefügt. Zunächst demonstrieren sie OPRO bei linearer Regression und dem Traveling-Salesman-Problem, bevor sie zur Prompt-Optimierung übergehen, bei der das Ziel darin besteht, Anweisungen zu finden, die die Aufgabengenauigkeit maximieren. Mit einer Vielzahl von LLMs zeigen sie, dass die mit OPRO optimierten besten Prompts von Menschen entworfene Prompts auf GSM8K um bis zu 8 % und bei Big-Bench-Hard-Aufgaben um bis zu 50 % übertreffen.
> Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.
Paper-Link
https://arxiv.org/abs/2309.03409
Weiterlesen
https://twitter.com/omarsar0/status/1700249035456598391
ImageBind-LLM: Multimodalitäts-Instruction-Tuning / ImageBind-LLM: Multi-modality Instruction Tuning
Paper-Vorstellung
- Vorgestellt wird imagebind-llm, eine Methode für multimodales Instruction-Tuning von LLMs über ImageBind. Dieses Modell kann auf Instruktionen aus verschiedenen Modalitäten wie Audio, 3D-Punktwolken und Video reagieren und liefert dabei eine hohe Qualität der Sprachgenerierung. Erreicht wird dies, indem der visuelle Encoder von ImageBind über ein lernbares Bind-Netzwerk mit einem LLM ausgerichtet wird. #imagebind
> Presents imagebind-llm, a multimodality instruction tuning method of llms via imagebind; this model can respond to instructions of diverse modalities such as audio, 3d point clouds, and video, including high language generation quality; this is achieved by aligning imagebind’s visual encoder with an llm via learnable bind network.
Paper-Abstract
- Vorgestellt wird ImageBind-LLM, eine Methode zur Multi-Modality-Instruction-Tuning großer Sprachmodelle (LLMs) über ImageBind. Während sich bisherige Arbeiten hauptsächlich auf Instruction Tuning für Sprache und Bilder konzentrieren, kann ImageBind-LLM allein durch Bild-Text-Alignment-Training auf multimodale Bedingungen wie Audio, 3D-Punktwolken, Video und Operationen im Embedding-Raum reagieren. Im Training wird ein lernbares Bind-Netzwerk eingesetzt, um die Embedding-Räume zwischen LLaMA und dem Bild-Encoder von ImageBind auszurichten. Anschließend werden die vom Bind-Netzwerk transformierten Bildmerkmale zu den Wort-Token in allen Layern von LLaMA hinzugefügt, wodurch visuelle Anweisungen schrittweise über einen aufmerksamkeitsfreien, nullinitialisierten Gating-Mechanismus injiziert werden. Mithilfe des gemeinsamen Embeddings von ImageBind kann das Modell durch einfaches Bild-Text-Training hervorragende Fähigkeiten zum Befolgen multimodaler Anweisungen zeigen. Während der Inferenz werden multimodale Eingaben an die entsprechenden ImageBind-Encoder übergeben und vom vorgeschlagenen Visual-Cache-Modell für eine zusätzliche Cross-Modal-Embedding-Verbesserung verarbeitet. Das trainingsfreie Cache-Modell ruft aus 3 Millionen von ImageBind extrahierten Bildmerkmalen ab und mildert so effektiv die Modalitätsdiskrepanz zwischen Training und Inferenz. Besonders bemerkenswert ist, dass ImageBind-LLM mit diesem Ansatz auf Anweisungen in verschiedenen Modalitäten reagieren und eine deutlich hohe Qualität bei der Sprachgenerierung zeigen kann. Der Code wird unter https://github.com/OpenGVLab/LLaMA-Adapter veröffentlicht.
> We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
Paper-Link
https://arxiv.org/abs/2309.03905
Weiterführende Lektüre
https://twitter.com/arankomatsuzaki/status/1699947731333345750
Erklärung von Grokking durch Schaltkreiseffizienz / Explaining grokking through circuit efficiency
Paper-Vorstellung
- Ziel ist es, das Grokking-Verhalten neuronaler Netze zu erklären; insbesondere werden zwei neue Verhaltensweisen vorhergesagt und gezeigt. Die erste ist Ungrokking, bei dem ein Modell bei weiterem Training auf einem kleineren Datensatz als der kritischen Schwelle von perfekter Generalisierung zu Auswendiglernen übergeht. Die zweite ist Semi-Grokking, bei dem ein zufällig initialisiertes Netzwerk beim Training auf der kritischen Datensatzgröße einen Grokking-ähnlichen Übergang zeigt. #grokking
> Aims to explain grokking behavior in neural networks; specifically, it predicts and shows two novel behaviors: the first is ungrokking where a model goes from perfect generalization to memorization when trained further on a smaller dataset than the critical threshold; the second is semi-grokking where a network demonstrates grokking-like transition when training a randomly initialized network on the critical dataset size.
Paper-Abstract
- Eines der überraschendsten Rätsel bei der Generalisierung neuronaler Netze ist „Grokking“: Ein Netzwerk mit perfekter Trainingsgenauigkeit, aber schwacher Generalisierungsfähigkeit geht durch weiteres Training zu perfekter Generalisierung über. Wir schlagen vor, dass Grokking dann auftritt, wenn eine Aufgabe sowohl eine generalisierende als auch eine memorisierende Lösung zulässt, wobei die generalisierende Lösung langsamer zu lernen, aber effizienter ist und bei gleicher Parameternorm größere Logits erzeugt. Wir stellen die Hypothese auf, dass Memorierungs-Schaltkreise bei größeren Trainingsdatensätzen ineffizienter werden, generalisierende Schaltkreise jedoch nicht, was darauf hindeutet, dass es eine kritische Datensatzgröße gibt, bei der Memorierung und Generalisierung gleich effizient sind. Wir formulieren vier neue Vorhersagen über Grokking und bestätigen diese, was wichtige Belege für unsere Erklärung liefert. Besonders bemerkenswert ist, dass wir zwei neue und überraschende Verhaltensweisen demonstrieren: Ungrokking, bei dem ein Netzwerk von perfekter zu niedriger Testgenauigkeit zurückfällt, und Semi-Grokking, bei dem ein Netzwerk verzögerte Generalisierung auf teilweise statt perfekte Testgenauigkeit zeigt.
> One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.
Paper-Link
https://arxiv.org/abs/2309.02390
Weiterführende Lektüre
https://twitter.com/VikrantVarma_/status/1699823229307699305
AI-Täuschung: Eine Untersuchung zu Beispielen, Risiken und potenziellen Lösungen / AI Deception: A Survey of Examples, Risks, and Potential Solutions
Paper-Einführung
- Bietet einen Überblick über empirische Beispiele von AI-Täuschung. #Survey-Paper
> Provides a survey of empirical examples of ai deception.
Paper-Abstract
- Dieses Paper argumentiert, dass verschiedene heutige AI-Systeme gelernt haben, Menschen zu täuschen. Wir definieren Täuschung als die systematische Erzeugung falscher Überzeugungen, um ein anderes Ergebnis als die Wahrheit zu erreichen. Zunächst untersuchen wir empirische Beispiele für AI-Täuschung und behandeln dabei sowohl spezialisierte AI-Systeme für bestimmte Wettbewerbssituationen (einschließlich Meta's CICERO) als auch General-Purpose-AI-Systeme (wie Large Language Models). Anschließend erläutern wir mehrere Risiken durch AI-Täuschung, etwa Betrug, Wahlmanipulation und den Verlust der Kontrolle über AI-Systeme. Schließlich skizzieren wir einige potenzielle Lösungen für die durch AI-Täuschung verursachten Probleme. Erstens sollten regulatorische Rahmenwerke AI-Systeme, die zu Täuschung fähig sind, robusten Anforderungen an die Risikobewertung unterwerfen. Zweitens sollten politische Entscheidungsträger Bot-or-Not-Gesetze einführen. Und schließlich sollten politische Entscheidungsträger die Finanzierung einschlägiger Forschung priorisieren, einschließlich Tools zur Erkennung von AI-Täuschung und zur Verringerung täuschenden Verhaltens von AI-Systemen. Politische Entscheidungsträger, Forschende und die breite Öffentlichkeit sollten proaktiv daran arbeiten, zu verhindern, dass AI-Täuschung die gemeinsamen Grundlagen unserer Gesellschaft destabilisiert.
> This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.
Paper-Link
https://arxiv.org/abs/2308.14752
Weiterführende Lektüre
https://twitter.com/DanHendrycks/status/1699437800301752332
FLM-101B: Ein offenes LLM und wie man es mit einem Budget von 100.000 Dollar trainiert / FLM-101B: An Open LLM and How to Train It with $100K Budget
Paper-Einführung
- Im Fall von FLM-101B, einem neuen offenen LLM mit 101 Milliarden Parametern und 0,31 TB an Tokens, das mit einem Budget von 100.000 US-Dollar trainiert werden kann, analysieren die Autoren verschiedene Wachstumsstrategien und setzen eine aggressive Strategie ein, bei der die Anzahl der Parameter von kleineren zu größeren Modellen gesteigert wird und die Kosten letztlich um mehr als 50 % gesenkt werden. Mit anderen Worten: Es werden drei Modelle nacheinander trainiert, wobei jedes Modell das Wissen seines kleineren Vorgängers übernimmt (16b -> 51b -> 101b) und dabei eine konkurrenzfähige Leistung erzielt.
> A new open llm called flm-101b with 101b parameters and 0.31tb tokens which can be trained on a $100k budget; the authors analyze different growth strategies, growing the number of parameters from smaller sizes to large ones. they ultimately employ an aggressive strategy that reduces costs by >50%. in other words, three models are trained sequentially with each model inheriting knowledge from its smaller predecessor (16b -> 51b -> 101b) while achieving competitive performance.
Paper-Zusammenfassung
- Große Sprachmodelle (LLMs) haben in NLP und multimodalen Aufgaben bemerkenswerte Erfolge erzielt. Trotz dieser Erfolge steht ihre Entwicklung vor zwei wesentlichen Herausforderungen: (i) hohe Rechenkosten und (ii) Schwierigkeiten bei der Durchführung fairer und objektiver Bewertungen. LLMs sind prohibitv teuer, sodass sich nur wenige große Akteure ihr Training leisten können, was sowohl Forschungs- als auch Anwendungsmöglichkeiten einschränkt. Das unterstreicht die Bedeutung kosteneffizienten LLM-Trainings. In dieser Arbeit nutzen wir eine Wachstumsstrategie, um die Trainingskosten von LLMs deutlich zu senken. Wir zeigen, dass ein LLM mit 101 Milliarden Parametern und 0,31 TB an Tokens mit einem Budget von 100.000 US-Dollar trainiert werden kann. Außerdem übernehmen wir ein systematisches Evaluationsparadigma zur Bewertung des IQ von LLMs als Ergänzung zu bestehenden Evaluierungen, die stärker auf wissensorientierte Fähigkeiten fokussiert sind. Wir führen unseren Benchmark ein, der Bewertungen wichtiger Aspekte von Intelligenz umfasst, darunter symbolisches Mapping, Regelverständnis, Pattern Mining und Störungsresistenz. Solche Evaluierungen minimieren den potenziellen Einfluss von Auswendiglernen. Die experimentellen Ergebnisse zeigen, dass unser Modell FLM-101B, das mit einem Budget von 100.000 US-Dollar trainiert wurde, eine vergleichbare Leistung wie starke und bekannte Modelle wie GPT-3 und GLM-130B erreicht, insbesondere bei IQ-Benchmark-Evaluierungen mit Kontexten, die in den Trainingsdaten nicht vorkamen. Der Checkpoint von FLM-101B wird als Open Source unter https://huggingface.co/CofeAI/FLM-101B veröffentlicht.
> Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.
Paper-Link
https://arxiv.org/abs/2309.03852
Weiterführende Links
https://twitter.com/omarsar0/status/1700156132700963053
Kognitive Architekturen für Sprachagenten / Cognitive Architectures for Language Agents
Paper-Einführung
- Es wird ein systematisches Framework vorgeschlagen, um vollwertige Sprachagenten zu verstehen und aufzubauen, indem Parallelen zu Produktionssystemen und kognitiven Architekturen gezogen werden; innerhalb dieses Frameworks werden verschiedene Methoden für sprachbasiertes Schlussfolgern, Verankerung, Lernen und Entscheidungsfindung als Instanzen von Sprachagenten systematisiert.
> Proposes a systematic framework for understanding and building fully-fledged language agents drawing parallels from production systems and cognitive architectures; it systematizes diverse methods for llm-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework.
Paper-Zusammenfassung
- Jüngste Bemühungen haben große Sprachmodelle (LLMs) mit externen Ressourcen (z. B. dem Internet) oder internen Kontrollflüssen (z. B. Prompt Chaining) für Aufgaben kombiniert, die Grounding oder Schlussfolgerungen erfordern. Diese Bemühungen waren jedoch größtenteils Stückwerk und es fehlte ein systematisches Framework für den Aufbau eines vollwertigen Sprachagenten. Um diese Herausforderung zu bewältigen, entwickeln wir auf Basis der reichen Geschichte des Agenten-Designs in der symbolischen künstlichen Intelligenz einen Bauplan für eine neue Welle kognitiver Sprachagenten. Zunächst zeigen wir, dass LLMs viele der gleichen Eigenschaften wie Produktionssysteme besitzen und dass jüngste Bemühungen zur Verbesserung ihres Groundings oder ihrer Schlussfolgerungsfähigkeit die Entwicklung kognitiver Architekturen widerspiegeln, die um Produktionssysteme herum aufgebaut sind. Anschließend schlagen wir Cognitive Architectures for Language Agents (CoALA) vor, ein konzeptionelles Framework, das verschiedene Methoden für LLM-basiertes Schlussfolgern, Grounding, Lernen und Entscheidungsfindung als Instanziierungen von Sprachagenten im Framework systematisiert. Abschließend nutzen wir das CoALA-Framework, um Lücken aufzuzeigen und umsetzbare Richtungen für künftig leistungsfähigere Sprachagenten vorzuschlagen.
> Recent efforts have incorporated large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning. However, these efforts have largely been piecemeal, lacking a systematic framework for constructing a fully-fledged language agent. To address this challenge, we draw on the rich history of agent design in symbolic artificial intelligence to develop a blueprint for a new wave of cognitive language agents. We first show that LLMs have many of the same properties as production systems, and recent efforts to improve their grounding or reasoning mirror the development of cognitive architectures built around production systems. We then propose Cognitive Architectures for Language Agents (CoALA), a conceptual framework to systematize diverse methods for LLM-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework. Finally, we use the CoALA framework to highlight gaps and propose actionable directions toward more capable language agents in the future.
Paper-Link
https://arxiv.org/abs/2309.02427
Weiterführende Links
https://twitter.com/ShunyuYao12/status/1699396834983362690
Q-Transformer
Paper-Vorstellung
- Eine skalierbare RL-Methode zum Trainieren von Multi-Task-Policies aus großen Offline-Datensätzen unter Nutzung menschlicher Demonstrationen und autonom gesammelter Daten; sie zeigt gute Leistung bei einer großen, vielfältigen Suite realer robotischer Manipulationsaufgaben.
> A scalable rl method for training multi-task policies from large offline datasets leveraging human demonstrations and autonomously collected data; shows good performance on a large diverse real-world robotic manipulation task suite.
Paper-Link
https://q-transformer.github.io/
Weiterführende Links
https://twitter.com/YevgenChebotar/status/1699909244743815677
Original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b88
- Dieser Beitrag ist eine automatisch mit dem GPT-Modell zusammengefasste Beschreibung und kann Fehler enthalten; bitte ziehen Sie den Originaltext zurate!
- Falls Ihnen beim Lesen unnatürliche oder fehlerhafte Inhalte auffallen, geben Sie bitte in den Kommentaren Bescheid!
Noch keine Kommentare.