Generative AIs Akt o1 – der Beginn des Zeitalters agentischer Schlussfolgerung

xguru · 2024-10-21T11:06:01+09:00

Mit dem Eintritt in das zweite Jahr der Generative-AI-Revolution entwickelt sich die Forschung von „schnellem Denken“ zu „langsamem Denken“ „Schnelles Denken“ bedeutet schnelle, vortrainierte Antworten, während „langsames Denken“ Reasoning während der Inference bedeutet Durch diese Entwicklung entstehen neue Arten von Agent-Anwendungen Da sich die Basisschicht des Generative-AI-Marktes stabilisiert, wird der Markt von wenigen großen Anbietern wie Microsoft/OpenAI, AWS/Anthropic, Meta und Google/DeepMind dominiert Nur große Anbieter mit wirtschaftlicher Schlagkraft und enormem Kapital bleiben im Wettbewerb Die Marktstruktur selbst wird robuster, und günstige, reichlich verfügbare Next-Token-Vorhersage wird möglich werden Mit der Stabilisierung der Marktstruktur für LLMs entsteht eine neue Frontier Der Fokus liegt auf der Entwicklung und Skalierung einer Reasoning-Schicht, in der das Denken nach „System 2“ priorisiert wird Inspiriert von Modellen wie AlphaGo zielt diese Schicht darauf ab, AI-Systemen über bloßes Pattern Matching hinaus sorgfältiges Schlussfolgern, Problemlösung und kognitive Fähigkeiten zu verleihen Neue kognitive Architekturen und Benutzeroberflächen prägen, wie diese Reasoning-Fähigkeiten an Nutzer vermittelt werden und mit ihnen interagieren Strawberry Fields Forever Das wichtigste Modell-Update des Jahres 2024 ist OpenAIs o1 (früher als Q* bekannt und auch Strawberry genannt) Das bedeutet nicht nur, dass OpenAI in den oberen Rängen der Modellqualitäts-Leaderboards steht, sondern auch, dass die bestehende Architektur deutlich verbessert wurde Konkret ist es das erste Modell mit echter „allgemeiner Reasoning-Fähigkeit“, die durch Compute zur Inference-Zeit erreicht wird Vortrainierte Modelle vs. Compute zur Inference-Zeit Vortrainierte Modelle führen Next-Token-Prediction mithilfe riesiger Datenmengen aus Eine emergente Eigenschaft von Skalierung ist grundlegendes Reasoning, doch dieses Reasoning ist stark begrenzt Compute zur Inference-Zeit bedeutet, das Modell dazu zu bringen, vor der Antwort innezuhalten und nachzudenken Dafür ist bei der Inference mehr Rechenleistung erforderlich Der Teil des „Innehaltens und Nachdenkens“ ist genau das Reasoning Vergleich von AlphaGo und LLMs AlphaGo schuf im März 2016 in Seoul im Duell mit der Baduk-Legende Lee Sedol einen der wichtigsten Momente der Deep-Learning-Geschichte AlphaGo zeigte der Welt eine Form von „denkender AI“, die über bloße Musterimitation hinausgeht Unterschiede zwischen AlphaGo und früheren AI-Systemen für Gameplay AlphaGo wurde wie ein LLM mithilfe einer Datenbank von rund 30 Millionen früheren Spielzügen und durch Self-Play vortrainiert, um menschliche Experten zu imitieren Anstatt jedoch sofortige Reaktionen aus einem vortrainierten Modell zu liefern, nahm sich AlphaGo Zeit, hielt inne und dachte nach Während der Inference führte AlphaGo eine Suche oder Simulation über ein breites Spektrum potenzieller Zukunftsszenarien aus, bewertete diese Szenarien und antwortete dann mit dem Szenario (oder der Antwort) mit dem höchsten Erwartungswert Je mehr Zeit AlphaGo gegeben wurde, desto besser wurde seine Leistung Ohne jeglichen Compute zur Inference-Zeit könnte AlphaGo die besten menschlichen Spieler nicht schlagen Warum es schwierig ist, AlphaGo in LLMs zu replizieren Es ist schwierig, eine Value Function zur Bewertung von Antworten zu konstruieren Beim Baduk kann man das Spiel bis zum Ende simulieren, prüfen, wer gewinnt, und dann den Erwartungswert des nächsten Zuges berechnen Beim Coding kann man den Code testen und prüfen, ob er funktioniert Doch Dinge wie ein Essay-Entwurf, ein Reiseplan oder eine Zusammenfassung der Schlüsselbegriffe eines langen Dokuments sind schwer zu bewerten Das ist der Grund, warum Reasoning mit heutigen Methoden schwierig ist und warum Strawberry in logisch geprägten Bereichen (z. B. Coding, Mathematik, Wissenschaft) relativ stark ist, aber nicht in offenen und unstrukturierten Bereichen (z. B. Schreiben) Forschung zur Verbesserung der Reasoning-Fähigkeiten des Strawberry-Modells Die tatsächliche Implementierung von Strawberry ist streng abgeschirmt, aber die Kernidee hängt mit Reinforcement Learning auf die vom Modell erzeugte Gedankenkette zusammen Die Auditierung der Gedankenkette des Modells deutet darauf hin, dass etwas Grundlegendes und Interessantes geschieht, das der Art ähnelt, wie Menschen denken und schlussfolgern So zeigt o1 etwa als emergente Eigenschaft der Skalierung zur Inference-Zeit die Fähigkeit, zurückzugehen, wenn es feststeckt Außerdem zeigt es eine menschenähnliche Fähigkeit, über Probleme nachzudenken (z. B. Punkte auf einer Kugel zu visualisieren, um ein Geometrieproblem zu lösen), ebenso wie die Fähigkeit, auf neue Weise über Probleme nachzudenken (z. B. Probleme aus Programmierwettbewerben anders als Menschen zu lösen) Das Forschungsteam verfügt über viele Ideen, um Compute zur Inference-Zeit weiterzuentwickeln, darunter neue Methoden zur Berechnung der Reward Function und neue Wege, die generator/verifier-Lücke zu schließen, um die Reasoning-Fähigkeiten des Modells zu verbessern Mit anderen Worten: Deep Reinforcement Learning rückt wieder ins Rampenlicht und ermöglicht insgesamt eine neue Reasoning-Schicht Der Sprung von System 1 zu System-2-Denken Der Sprung von vortrainierten, instinktiven Reaktionen („System 1“) zu tieferem, sorgfältigerem Schlussfolgern („System 2“) ist die nächste Frontier der AI Es reicht nicht aus, dass ein Modell einfach nur etwas weiß Ein Modell muss innehalten, bewerten und schlussfolgern, um in Echtzeit Entscheidungen zu treffen Vortraining entspricht der System-1-Schicht Ob in AlphaGo Hunderte Millionen Baduk-Züge gelernt werden oder in einem LLM Petabytes an Texten im Internet-Maßstab, das Ziel des Vortrainings ist es, Muster wie menschliches Gameplay oder Sprache zu imitieren Doch Imitation ist, so mächtig sie auch sein mag, kein echtes Reasoning Vor allem kann sie in komplexen und neuartigen Situationen außerhalb des Trainingsdatensatzes nicht richtig denken System-2-Denken steht im Fokus der aktuellen AI-Forschung Wenn ein Modell „innehält und nachdenkt“, erzeugt es nicht einfach gelernte Muster oder stößt Vorhersagen auf Basis vergangener Daten aus Es erzeugt einen Möglichkeitsraum, betrachtet potenzielle Ergebnisse und trifft auf Reasoning basierende Entscheidungen Der angemessene Einsatz von System-1- und System-2-Denken Für viele Aufgaben reicht System-1-Denken aus (z. B. hilft es nicht, länger darüber nachzudenken, was die Hauptstadt von Bhutan ist) Doch bei komplexeren Problemen wie Durchbrüchen in Mathematik oder Biologie reichen schnelle, instinktive Reaktionen nicht aus Solche Fortschritte erfordern tiefes Nachdenken, kreative Problemlösung und vor allem Zeit Für AI gilt das genauso. Um die schwierigsten und bedeutendsten Probleme zu lösen, muss sie sich Zeit nehmen, um über schnelle Reaktionen innerhalb des Trainingsdatensatzes hinaus das durchdachte Reasoning zu liefern, das den menschlichen Fortschritt prägt Neues Skalierungsgesetz: der Beginn des Reasoning-Wettbewerbs Die wichtigste Einsicht aus OpenAIs o1-Paper ist, dass ein neues Skalierungsgesetz entstanden ist Das Skalierungsgesetz des LLM-Vortrainings Das Vortraining von LLMs folgt einem gut verstandenen Skalierungsgesetz Je mehr Compute und Daten für das Vortraining eines Modells verwendet werden, desto besser wird die Leistung Das neue Skalierungsgesetz von Compute zur Inference-Zeit Das o1-Paper hat eine neue Dimension für die Skalierung von Compute eröffnet Je mehr Compute zur Inference-Zeit (oder „Test-Time“) einem Modell gegeben wird, desto besser werden seine Reasoning-Fähigkeiten Was passiert, wenn Modelle über Stunden, Tage oder Jahrzehnte nachdenken können? Könnten sie die Riemannsche Vermutung lösen? Könnten sie Asimovs letzte Frage beantworten? Der Übergang von groß angelegten Vortrainings-Clustern zur Reasoning Cloud Dieser Wandel wird uns aus der Welt groß angelegter Vortrainings-Cluster in die Welt der Reasoning Cloud führen Eine Reasoning Cloud ist eine Umgebung, in der Compute je nach Komplexität der Aufgabe dynamisch skaliert werden kann Wird ein einziges Modell alles beherrschen? Was passiert, wenn OpenAI, Anthropic, Google, Meta und andere die Reasoning-Schicht ausbauen und leistungsfähigere Reasoning-Maschinen entwickeln? Wird ein einziges Modell alles beherrschen? Eine Hypothese lautete, dass ein einzelnes Modellunternehmen so mächtig werden würde, dass es alle anderen Anwendungen absorbiert Diese Vorhersage hat sich bisher in zweierlei Hinsicht als falsch erwiesen Erstens gibt es in der Modellschicht viele Wettbewerber, die sich in einem ständigen Rennen um SOTA-Fähigkeiten befinden Es ist zwar möglich, dass jemand durch breit angelegtes domänenspezifisches Selbstlernen eine kontinuierliche Selbstverbesserung erreicht und den Durchbruch schafft, aber bislang gibt es dafür keine Belege Stattdessen ist die Modellschicht ein Schauplatz intensiven Wettbewerbs, und der Preis pro Token von GPT-4 ist seit dem letzten Developer Day um 98 % gefallen Zweitens tun sich Modelle schwer damit, in die Anwendungsschicht vorzudringen Abgesehen von ChatGPT ist es Modellen weitgehend nicht gelungen, sich in der Anwendungsschicht als bahnbrechende Produkte zu etablieren Der Grund ist, dass die reale Welt komplex ist Ausgezeichnete Forscher wollen nicht die detaillierten End-to-End-Workflows jeder möglichen Funktion in jedem vertikalen Markt verstehen Es ist attraktiv und wirtschaftlich sinnvoll, wenn Forscher bei der API aufhören und die Komplexität der realen Welt dem Entwickler-Ökosystem überlassen Das sind gute Nachrichten für die Anwendungsschicht Die komplexe reale Welt: Warum maßgeschneiderte kognitive Architekturen nötig sind Die Art, wie man als Wissenschaftler Handlungen plant und ausführt, um Ziele zu erreichen, unterscheidet sich stark davon, wie man als Softwareentwickler arbeitet Und auch die Arbeitsweise von Softwareentwicklern unterscheidet sich von Unternehmen zu Unternehmen Forschungslabore verschieben zwar die Grenzen horizontaler, allgemeiner Reasoning-Fähigkeiten immer weiter, doch für wirklich nützliche AI-Agenten braucht es weiterhin anwendungs- oder domänenspezifisches Reasoning Die komplexe reale Welt erfordert in erheblichem Maß domänen- und anwendungsspezifisches Reasoning, das sich nicht effizient in allgemeine Modelle codieren lässt Der Aufstieg kognitiver Architekturen Eine kognitive Architektur bezeichnet die Denkweise eines Systems, also den Ablauf von Code und Modellinteraktionen, der Nutzereingaben aufnimmt und daraus Handlungen oder Antworten erzeugt Bei Factory etwa verfügt jedes der „Droid“-Produkte über eine maßgeschneiderte kognitive Architektur, die menschliche Denkweisen nachahmt, um konkrete Aufgaben zu lösen, etwa Pull-Request-Reviews oder das Schreiben und Ausführen von Migrationsplänen für serviceübergreifende Backend-Updates Factory-Droids analysieren alle Abhängigkeiten, schlagen relevante Codeänderungen vor, fügen Unit-Tests hinzu und ziehen zur Prüfung einen Menschen hinzu Nach der Freigabe führen sie dann die Änderungen in allen Dateien der Entwicklungsumgebung aus und mergen den Code, wenn alle Tests bestanden sind Das ähnelt menschlichem Denken, das nicht aus einer einzigen verallgemeinerten Blackbox-Antwort besteht, sondern aus einer Reihe einzelner Schritte Was passiert in der App-Schicht? Welche Schicht sollte man anvisieren, wenn man ein AI-Unternehmen gründen will? Um in der Infrastrukturschicht zu konkurrieren, muss man NVIDIA und die Hyperscaler schlagen Um in der Modellschicht zu konkurrieren, muss man OpenAI und Mark Zuckerberg schlagen Um in der Anwendungsschicht zu konkurrieren, muss man Unternehmens-IT und globale Systemintegratoren schlagen Wettbewerb in der Anwendungsschicht scheint am ehesten realistisch Die Chance in der Anwendungsschicht Foundation-Modelle wirken magisch, sind aber auch komplex Mainstream-Unternehmen können mit Blackboxes, Halluzinationen und holprigen Workflows nicht umgehen Verbraucher sehen einen leeren Prompt und wissen nicht, was sie eingeben sollen Genau darin liegt die Chance für die Anwendungsschicht Vor zwei Jahren wurden viele Unternehmen der Anwendungsschicht als „nicht mehr als ein Wrapper über GPT-3“ kritisiert Heute haben sich diese Wrapper als einer der wenigen soliden Wege erwiesen, nachhaltigen Wert aufzubauen Was als „Wrapper“ begann, hat sich zu einer „kognitiven Architektur“ weiterentwickelt Merkmale von AI-Unternehmen in der Anwendungsschicht Es geht nicht einfach darum, eine UI auf ein Foundation-Modell zu setzen In der Regel verfügen sie über ausgefeilte kognitive Architekturen, die oft Folgendes umfassen: mehrere Foundation-Modelle mit einer Art Routing-Mechanismus darüber Vektor- und/oder Graph-Datenbanken für RAG Guardrails zur Sicherstellung von Compliance Anwendungslogik, die Reasoning über Workflows hinweg nachbildet Service-as-a-Software Der Cloud-Wandel war „Software-as-a-Service“. Softwareunternehmen wurden zu Cloud-Service-Anbietern, und das war eine Chance im Umfang von 350 Milliarden Dollar Dank agentischem Reasoning ist der AI-Wandel nun „Service-as-a-Software“. Softwareunternehmen verwandeln menschliche Arbeit in Software Das bedeutet, dass der Zielmarkt nicht der Softwaremarkt, sondern der mehrere Billionen Dollar große Dienstleistungsmarkt ist Was es bedeutet, Arbeit zu verkaufen Sierra ist dafür ein gutes Beispiel B2C-Unternehmen platzieren Sierra auf ihren Websites, um mit Kunden zu sprechen Der Job-to-be-done besteht darin, Kundenprobleme zu lösen Sierra rechnet pro gelöstem Fall ab Es gibt keine „Seats“ oder Ähnliches. Es gibt eine zu erledigende Aufgabe, Sierra übernimmt sie und stellt entsprechend Kosten in Rechnung Das ist für viele AI-Unternehmen der wahre Nordstern Sierras Vorteile und die Herausforderungen anderer Unternehmen Sierra profitiert von einem eleganten Failure-Mode, nämlich der Eskalation an menschliche Support-Mitarbeiter Nicht jedes Unternehmen hat dieses Glück Das neue Muster besteht darin, zuerst im Pilotenmodus mit Human-in-the-Loop auszurollen und diese Erfahrung dann zu nutzen, um Chancen für einen Autopilot-Betrieb ohne Human-in-the-Loop zu erschließen GitHub Copilot ist dafür ein gutes Beispiel Neue Arten von Agenten-Anwendungen beginnen zu entstehen Mit den neuen Reasoning-Fähigkeiten von Generative AI entstehen neue Arten agentischer Anwendungen Interessanterweise sehen diese Unternehmen der Anwendungsschicht anders aus als frühere Cloud-Unternehmen: Cloud-Unternehmen zielten auf Softwareumsätze, AI-Unternehmen dagegen auf Serviceumsätze Cloud-Unternehmen verkauften Software ($/Seat), AI-Unternehmen verkaufen Arbeit ($/Ergebnis) Cloud-Unternehmen bevorzugten einen Bottom-up-Ansatz mit reibungsloser Distribution, AI-Unternehmen gehen zunehmend mit einem Top-down-Ansatz über High-Touch- und High-Trust-Bereitstellungsmodelle vor Beispiele für agentische Anwendungen, die in allen Bereichen der Wissensökonomie entstehen Harvey: AI-Anwalt Glean: AI-Arbeitsassistent Factory: AI-Softwareentwickler Abridge: AI-Medizin-Dokumentar XBOW: AI-Penetrationstester Sierra: AI-Kundensupport-Agent Indem sie die Grenzkosten für die Erbringung dieser Dienste auf ein Niveau senken, das dem drastischen Preisverfall bei Reasoning-Kosten entspricht, erweitern und schaffen agentische Anwendungen neue Märkte XBOW ist ein gutes Beispiel: XBOW entwickelt einen AI-„Pentester“ Ein „Pentest“ oder Penetrationstest ist ein simulierter Cyberangriff auf Computersysteme, den Unternehmen durchführen, um ihre eigenen Sicherheitssysteme zu bewerten Vor Generative AI war menschliches Pentesting teuer, weil es manuelle Arbeit durch Fachkräfte erfordert, sodass Unternehmen Pentester nur in begrenzten Fällen beauftragten, etwa wenn dies aus Compliance-Gründen nötig war XBOW demonstriert nun jedoch automatisierte Pentests auf Basis modernster Reasoning-LLMs, die mit der Leistung der fähigsten menschlichen Pentester mithalten können Dadurch wächst der Pentesting-Markt, und für Unternehmen jeder Größe und Art wird kontinuierliches Pentesting möglich Welche Auswirkungen hat das auf die SaaS-Branche? Als wir Anfang dieses Jahres LPs trafen, war die häufigste Frage, die wir bekamen: „Wird der AI-Wandel bestehende Cloud-Unternehmen zerstören?“ Wir sind mit der starken Grundannahme „Nein“ gestartet Der klassische Kampf zwischen Startups und etablierten Unternehmen ist wie ein Rennen, bei dem Startups Distribution aufbauen und etablierte Unternehmen Produkte bauen Können junge Unternehmen mit coolen Produkten Kunden erreichen, bevor etablierte Unternehmen, die bereits die Kundenbeziehung besitzen, ebenfalls coole Produkte herausbringen? Angesichts der Tatsache, dass die Magie von AI größtenteils aus Foundation Models kommt, lautete unsere Grundannahme „Nein“ Etablierte Unternehmen haben genauso Zugang zu Foundation Models wie Startups und werden wegen ihrer bestehenden Vorteile bei Daten und Distribution gut abschneiden Die wichtigste Chance für Startups liegt nicht darin, bestehende Software-Unternehmen zu verdrängen, sondern auf den Pool an Aufgaben zu zielen, die sich automatisieren lassen Allerdings sind wir uns dessen nicht mehr so sicher Siehe die oben erwähnten Punkte zur kognitiven Architektur Es braucht eine enorme Menge an Engineering, um die rohen Fähigkeiten eines Modells in überzeugende und verlässliche End-to-End-Business-Lösungen zu verwandeln Unterschätzen wir vielleicht dramatisch, was „AI-native“ wirklich bedeutet? Vor 20 Jahren haben On-Premises-Software-Unternehmen die Idee von SaaS belächelt „Keine große Sache. Wir können auch einfach unsere eigenen Server betreiben und das über das Internet bereitstellen!“ Konzeptionell war das einfach, aber danach folgte eine vollständige Neuerfindung des Geschäfts: EPD wechselte von Wasserfallmodell und PRD zu agiler Entwicklung und AB-Tests GTM wechselte von Top-down-Enterprise-Sales und Steak-Dinners zu Bottom-up-PLG und Produktanalyse Das Geschäftsmodell wechselte von hohem ASP und Maintenance-Streams zu hohem NDR und nutzungsbasierter Preisgestaltung Nur sehr wenige On-Premises-Unternehmen haben den Übergang erfolgreich geschafft Könnte AI ein ähnlicher Wendepunkt für SaaS sein? Könnte die Chance von AI darin liegen, Arbeit zu verkaufen und gleichzeitig Software zu ersetzen? Mit Day.ai konnten wir einen Blick in die Zukunft werfen Day ist ein AI-native CRM Systemintegratoren verdienen Milliarden Dollar damit, Salesforce an die Anforderungen ihrer Kunden anzupassen Day erstellt automatisch ein CRM, das perfekt auf das Geschäft eines Kunden zugeschnitten ist – allein mit Zugriff auf E-Mail und Kalender sowie den Antworten auf einen einseitigen Fragebogen Es ist noch nicht vollständig ausgereift, aber die Magie eines automatisch generierten CRM, das ohne menschliches Eingreifen stets aktuell bleibt, bringt Menschen schon jetzt dazu, den Wechsel zu wagen Investmentbranche Wofür wenden Investoren ihre Zeit auf, und wohin fließt ihr Kapital? Infrastruktur Dieser Bereich gehört den Hyperscalern Er wird eher von spieltheoretischem Verhalten als von ökonomischer Analyse getrieben Für Venture-Investoren ist das kein passender Bereich Modelle Dies ist das Spielfeld von Hyperscalern und Financial Investors (FI) Hyperscaler investieren, indem sie ihre Asset-Bilanz einsetzen, Renditen erzielen und diese über Rechenkosten wieder in das Cloud-Geschäft zurückfließen lassen Financial Investors werden von einem Bias beeinflusst, der sich als „science awe“ beschreiben lässt Diese Modelle sind sehr spannend und die Teams exzellent, aber die ökonomische Logik wird ignoriert Developer-Tools und Infrastruktur-Software Für strategische Investoren weniger interessant, für Venture-Investoren aber attraktiver Während des Cloud-Wandels sind in dieser Schicht etwa 15 Unternehmen mit mehr als 1 Milliarde Dollar Umsatz entstanden Es wird erwartet, dass im AI-Wandel etwas Ähnliches passiert Anwendungen Die für Venture-Investoren interessanteste Schicht Während des Cloud-Wandels entstanden in der Anwendungsschicht etwa 20 Unternehmen mit mehr als 1 Milliarde Dollar Umsatz Auch im Mobile-Wandel ist eine ähnliche Zahl von Unternehmen entstanden, und für den aktuellen AI-Wandel wird ein ähnlicher Trend erwartet Abschließende Gedanken In der nächsten Phase von generativer AI wird sich der Einfluss von Reasoning-Forschung und -Entwicklung (R&D) voraussichtlich schnell und tief in der Anwendungsschicht ausbreiten Bisherige kognitive Architekturen bestanden vor allem aus Techniken zur „Enthemmung (unhobbling)“, doch nun werden diese Fähigkeiten im Modell selbst verankert, wodurch agentenbasierte Anwendungen ausgefeilter und robuster werden dürften In den Labs bleiben Reasoning und Inference-Time-Compute weiterhin wichtige Themen, und da nun neue Scaling Laws aufgetaucht sind, beginnt der nächste Wettbewerb In bestimmten Domänen bleibt es jedoch schwierig, reale Daten zu sammeln und domänen- sowie anwendungsspezifische kognitive Architekturen zu kodieren Bei der Lösung dieser Probleme könnten Last-Mile-App-Anbieter im Vorteil sein Künftig könnten Multi-Agenten-Systeme wie Droid von Factory aufkommen und sich verbreiten, indem sie Prozesse des Schlussfolgerns und des sozialen Lernens modellieren Von Multi-Agenten-Systemen wird erwartet, dass sie mehr Aufgaben bewältigen können, indem sie Teams bilden, die mehrere Aufgaben gleichzeitig bearbeiten Auf den Moment, den viele erwarten, wird als „Move 37“ der generativen AI verwiesen – in Anlehnung an AlphaGo gegen Lee Sedol, als ein allgemeines AI-System unerwartetes übermenschliches Verhalten zeigte Dass dieser Moment kommt, bedeutet nicht, dass AI „Bewusstsein erlangt“, aber AI könnte die Fähigkeit entwickeln, Prozesse von Wahrnehmung, Schlussfolgern und Handeln zu simulieren und auf originelle sowie nützliche Weise zu explorieren Dies könnte AGI (vollständige Autonomie künstlicher Intelligenz) sein, und es wäre kein einzelnes Ereignis, sondern der Übergang in die nächste Phase der Technologie

(sequoiacap.com)

30 Punkte von xguru 2024-10-21 | 4 Kommentare | Auf WhatsApp teilen

Mit dem Eintritt in das zweite Jahr der Generative-AI-Revolution entwickelt sich die Forschung von „schnellem Denken“ zu „langsamem Denken“
- „Schnelles Denken“ bedeutet schnelle, vortrainierte Antworten, während „langsames Denken“ Reasoning während der Inference bedeutet
- Durch diese Entwicklung entstehen neue Arten von Agent-Anwendungen
Da sich die Basisschicht des Generative-AI-Marktes stabilisiert, wird der Markt von wenigen großen Anbietern wie Microsoft/OpenAI, AWS/Anthropic, Meta und Google/DeepMind dominiert
- Nur große Anbieter mit wirtschaftlicher Schlagkraft und enormem Kapital bleiben im Wettbewerb
- Die Marktstruktur selbst wird robuster, und günstige, reichlich verfügbare Next-Token-Vorhersage wird möglich werden
Mit der Stabilisierung der Marktstruktur für LLMs entsteht eine neue Frontier
- Der Fokus liegt auf der Entwicklung und Skalierung einer Reasoning-Schicht, in der das Denken nach „System 2“ priorisiert wird
- Inspiriert von Modellen wie AlphaGo zielt diese Schicht darauf ab, AI-Systemen über bloßes Pattern Matching hinaus sorgfältiges Schlussfolgern, Problemlösung und kognitive Fähigkeiten zu verleihen
- Neue kognitive Architekturen und Benutzeroberflächen prägen, wie diese Reasoning-Fähigkeiten an Nutzer vermittelt werden und mit ihnen interagieren

Strawberry Fields Forever

Das wichtigste Modell-Update des Jahres 2024 ist OpenAIs o1 (früher als Q* bekannt und auch Strawberry genannt)
- Das bedeutet nicht nur, dass OpenAI in den oberen Rängen der Modellqualitäts-Leaderboards steht, sondern auch, dass die bestehende Architektur deutlich verbessert wurde
- Konkret ist es das erste Modell mit echter „allgemeiner Reasoning-Fähigkeit“, die durch Compute zur Inference-Zeit erreicht wird
Vortrainierte Modelle vs. Compute zur Inference-Zeit
- Vortrainierte Modelle führen Next-Token-Prediction mithilfe riesiger Datenmengen aus
- Eine emergente Eigenschaft von Skalierung ist grundlegendes Reasoning, doch dieses Reasoning ist stark begrenzt
- Compute zur Inference-Zeit bedeutet, das Modell dazu zu bringen, vor der Antwort innezuhalten und nachzudenken
- Dafür ist bei der Inference mehr Rechenleistung erforderlich
- Der Teil des „Innehaltens und Nachdenkens“ ist genau das Reasoning

Vergleich von AlphaGo und LLMs

AlphaGo schuf im März 2016 in Seoul im Duell mit der Baduk-Legende Lee Sedol einen der wichtigsten Momente der Deep-Learning-Geschichte
- AlphaGo zeigte der Welt eine Form von „denkender AI“, die über bloße Musterimitation hinausgeht
Unterschiede zwischen AlphaGo und früheren AI-Systemen für Gameplay
- AlphaGo wurde wie ein LLM mithilfe einer Datenbank von rund 30 Millionen früheren Spielzügen und durch Self-Play vortrainiert, um menschliche Experten zu imitieren
- Anstatt jedoch sofortige Reaktionen aus einem vortrainierten Modell zu liefern, nahm sich AlphaGo Zeit, hielt inne und dachte nach
- Während der Inference führte AlphaGo eine Suche oder Simulation über ein breites Spektrum potenzieller Zukunftsszenarien aus, bewertete diese Szenarien und antwortete dann mit dem Szenario (oder der Antwort) mit dem höchsten Erwartungswert
- Je mehr Zeit AlphaGo gegeben wurde, desto besser wurde seine Leistung
- Ohne jeglichen Compute zur Inference-Zeit könnte AlphaGo die besten menschlichen Spieler nicht schlagen
Warum es schwierig ist, AlphaGo in LLMs zu replizieren
- Es ist schwierig, eine Value Function zur Bewertung von Antworten zu konstruieren
- Beim Baduk kann man das Spiel bis zum Ende simulieren, prüfen, wer gewinnt, und dann den Erwartungswert des nächsten Zuges berechnen
- Beim Coding kann man den Code testen und prüfen, ob er funktioniert
- Doch Dinge wie ein Essay-Entwurf, ein Reiseplan oder eine Zusammenfassung der Schlüsselbegriffe eines langen Dokuments sind schwer zu bewerten
- Das ist der Grund, warum Reasoning mit heutigen Methoden schwierig ist und warum Strawberry in logisch geprägten Bereichen (z. B. Coding, Mathematik, Wissenschaft) relativ stark ist, aber nicht in offenen und unstrukturierten Bereichen (z. B. Schreiben)
Forschung zur Verbesserung der Reasoning-Fähigkeiten des Strawberry-Modells
- Die tatsächliche Implementierung von Strawberry ist streng abgeschirmt, aber die Kernidee hängt mit Reinforcement Learning auf die vom Modell erzeugte Gedankenkette zusammen
- Die Auditierung der Gedankenkette des Modells deutet darauf hin, dass etwas Grundlegendes und Interessantes geschieht, das der Art ähnelt, wie Menschen denken und schlussfolgern
- So zeigt o1 etwa als emergente Eigenschaft der Skalierung zur Inference-Zeit die Fähigkeit, zurückzugehen, wenn es feststeckt
- Außerdem zeigt es eine menschenähnliche Fähigkeit, über Probleme nachzudenken (z. B. Punkte auf einer Kugel zu visualisieren, um ein Geometrieproblem zu lösen), ebenso wie die Fähigkeit, auf neue Weise über Probleme nachzudenken (z. B. Probleme aus Programmierwettbewerben anders als Menschen zu lösen)
- Das Forschungsteam verfügt über viele Ideen, um Compute zur Inference-Zeit weiterzuentwickeln, darunter neue Methoden zur Berechnung der Reward Function und neue Wege, die generator/verifier-Lücke zu schließen, um die Reasoning-Fähigkeiten des Modells zu verbessern
- Mit anderen Worten: Deep Reinforcement Learning rückt wieder ins Rampenlicht und ermöglicht insgesamt eine neue Reasoning-Schicht

Der Sprung von System 1 zu System-2-Denken

Der Sprung von vortrainierten, instinktiven Reaktionen („System 1“) zu tieferem, sorgfältigerem Schlussfolgern („System 2“) ist die nächste Frontier der AI
Es reicht nicht aus, dass ein Modell einfach nur etwas weiß
Ein Modell muss innehalten, bewerten und schlussfolgern, um in Echtzeit Entscheidungen zu treffen
Vortraining entspricht der System-1-Schicht
- Ob in AlphaGo Hunderte Millionen Baduk-Züge gelernt werden oder in einem LLM Petabytes an Texten im Internet-Maßstab, das Ziel des Vortrainings ist es, Muster wie menschliches Gameplay oder Sprache zu imitieren
- Doch Imitation ist, so mächtig sie auch sein mag, kein echtes Reasoning
- Vor allem kann sie in komplexen und neuartigen Situationen außerhalb des Trainingsdatensatzes nicht richtig denken
System-2-Denken steht im Fokus der aktuellen AI-Forschung
- Wenn ein Modell „innehält und nachdenkt“, erzeugt es nicht einfach gelernte Muster oder stößt Vorhersagen auf Basis vergangener Daten aus
- Es erzeugt einen Möglichkeitsraum, betrachtet potenzielle Ergebnisse und trifft auf Reasoning basierende Entscheidungen
Der angemessene Einsatz von System-1- und System-2-Denken
- Für viele Aufgaben reicht System-1-Denken aus (z. B. hilft es nicht, länger darüber nachzudenken, was die Hauptstadt von Bhutan ist)
- Doch bei komplexeren Problemen wie Durchbrüchen in Mathematik oder Biologie reichen schnelle, instinktive Reaktionen nicht aus
- Solche Fortschritte erfordern tiefes Nachdenken, kreative Problemlösung und vor allem Zeit
- Für AI gilt das genauso. Um die schwierigsten und bedeutendsten Probleme zu lösen, muss sie sich Zeit nehmen, um über schnelle Reaktionen innerhalb des Trainingsdatensatzes hinaus das durchdachte Reasoning zu liefern, das den menschlichen Fortschritt prägt

Neues Skalierungsgesetz: der Beginn des Reasoning-Wettbewerbs

Die wichtigste Einsicht aus OpenAIs o1-Paper ist, dass ein neues Skalierungsgesetz entstanden ist
Das Skalierungsgesetz des LLM-Vortrainings
- Das Vortraining von LLMs folgt einem gut verstandenen Skalierungsgesetz
- Je mehr Compute und Daten für das Vortraining eines Modells verwendet werden, desto besser wird die Leistung
Das neue Skalierungsgesetz von Compute zur Inference-Zeit
- Das o1-Paper hat eine neue Dimension für die Skalierung von Compute eröffnet
- Je mehr Compute zur Inference-Zeit (oder „Test-Time“) einem Modell gegeben wird, desto besser werden seine Reasoning-Fähigkeiten
Was passiert, wenn Modelle über Stunden, Tage oder Jahrzehnte nachdenken können?
- Könnten sie die Riemannsche Vermutung lösen?
- Könnten sie Asimovs letzte Frage beantworten?
Der Übergang von groß angelegten Vortrainings-Clustern zur Reasoning Cloud
- Dieser Wandel wird uns aus der Welt groß angelegter Vortrainings-Cluster in die Welt der Reasoning Cloud führen
- Eine Reasoning Cloud ist eine Umgebung, in der Compute je nach Komplexität der Aufgabe dynamisch skaliert werden kann

Wird ein einziges Modell alles beherrschen?

Was passiert, wenn OpenAI, Anthropic, Google, Meta und andere die Reasoning-Schicht ausbauen und leistungsfähigere Reasoning-Maschinen entwickeln?
Wird ein einziges Modell alles beherrschen?
Eine Hypothese lautete, dass ein einzelnes Modellunternehmen so mächtig werden würde, dass es alle anderen Anwendungen absorbiert
- Diese Vorhersage hat sich bisher in zweierlei Hinsicht als falsch erwiesen
- Erstens gibt es in der Modellschicht viele Wettbewerber, die sich in einem ständigen Rennen um SOTA-Fähigkeiten befinden
  - Es ist zwar möglich, dass jemand durch breit angelegtes domänenspezifisches Selbstlernen eine kontinuierliche Selbstverbesserung erreicht und den Durchbruch schafft, aber bislang gibt es dafür keine Belege
  - Stattdessen ist die Modellschicht ein Schauplatz intensiven Wettbewerbs, und der Preis pro Token von GPT-4 ist seit dem letzten Developer Day um 98 % gefallen
- Zweitens tun sich Modelle schwer damit, in die Anwendungsschicht vorzudringen
  - Abgesehen von ChatGPT ist es Modellen weitgehend nicht gelungen, sich in der Anwendungsschicht als bahnbrechende Produkte zu etablieren
  - Der Grund ist, dass die reale Welt komplex ist
  - Ausgezeichnete Forscher wollen nicht die detaillierten End-to-End-Workflows jeder möglichen Funktion in jedem vertikalen Markt verstehen
  - Es ist attraktiv und wirtschaftlich sinnvoll, wenn Forscher bei der API aufhören und die Komplexität der realen Welt dem Entwickler-Ökosystem überlassen
  - Das sind gute Nachrichten für die Anwendungsschicht

Die komplexe reale Welt: Warum maßgeschneiderte kognitive Architekturen nötig sind

Die Art, wie man als Wissenschaftler Handlungen plant und ausführt, um Ziele zu erreichen, unterscheidet sich stark davon, wie man als Softwareentwickler arbeitet
Und auch die Arbeitsweise von Softwareentwicklern unterscheidet sich von Unternehmen zu Unternehmen
Forschungslabore verschieben zwar die Grenzen horizontaler, allgemeiner Reasoning-Fähigkeiten immer weiter, doch für wirklich nützliche AI-Agenten braucht es weiterhin anwendungs- oder domänenspezifisches Reasoning
Die komplexe reale Welt erfordert in erheblichem Maß domänen- und anwendungsspezifisches Reasoning, das sich nicht effizient in allgemeine Modelle codieren lässt
Der Aufstieg kognitiver Architekturen
- Eine kognitive Architektur bezeichnet die Denkweise eines Systems, also den Ablauf von Code und Modellinteraktionen, der Nutzereingaben aufnimmt und daraus Handlungen oder Antworten erzeugt
- Bei Factory etwa verfügt jedes der „Droid“-Produkte über eine maßgeschneiderte kognitive Architektur, die menschliche Denkweisen nachahmt, um konkrete Aufgaben zu lösen, etwa Pull-Request-Reviews oder das Schreiben und Ausführen von Migrationsplänen für serviceübergreifende Backend-Updates
- Factory-Droids analysieren alle Abhängigkeiten, schlagen relevante Codeänderungen vor, fügen Unit-Tests hinzu und ziehen zur Prüfung einen Menschen hinzu
- Nach der Freigabe führen sie dann die Änderungen in allen Dateien der Entwicklungsumgebung aus und mergen den Code, wenn alle Tests bestanden sind
- Das ähnelt menschlichem Denken, das nicht aus einer einzigen verallgemeinerten Blackbox-Antwort besteht, sondern aus einer Reihe einzelner Schritte

Was passiert in der App-Schicht?

Welche Schicht sollte man anvisieren, wenn man ein AI-Unternehmen gründen will?
- Um in der Infrastrukturschicht zu konkurrieren, muss man NVIDIA und die Hyperscaler schlagen
- Um in der Modellschicht zu konkurrieren, muss man OpenAI und Mark Zuckerberg schlagen
- Um in der Anwendungsschicht zu konkurrieren, muss man Unternehmens-IT und globale Systemintegratoren schlagen
- Wettbewerb in der Anwendungsschicht scheint am ehesten realistisch
Die Chance in der Anwendungsschicht
- Foundation-Modelle wirken magisch, sind aber auch komplex
- Mainstream-Unternehmen können mit Blackboxes, Halluzinationen und holprigen Workflows nicht umgehen
- Verbraucher sehen einen leeren Prompt und wissen nicht, was sie eingeben sollen
- Genau darin liegt die Chance für die Anwendungsschicht
Vor zwei Jahren wurden viele Unternehmen der Anwendungsschicht als „nicht mehr als ein Wrapper über GPT-3“ kritisiert
- Heute haben sich diese Wrapper als einer der wenigen soliden Wege erwiesen, nachhaltigen Wert aufzubauen
- Was als „Wrapper“ begann, hat sich zu einer „kognitiven Architektur“ weiterentwickelt
Merkmale von AI-Unternehmen in der Anwendungsschicht
- Es geht nicht einfach darum, eine UI auf ein Foundation-Modell zu setzen
- In der Regel verfügen sie über ausgefeilte kognitive Architekturen, die oft Folgendes umfassen:
  - mehrere Foundation-Modelle mit einer Art Routing-Mechanismus darüber
  - Vektor- und/oder Graph-Datenbanken für RAG
  - Guardrails zur Sicherstellung von Compliance
  - Anwendungslogik, die Reasoning über Workflows hinweg nachbildet

Service-as-a-Software

Der Cloud-Wandel war „Software-as-a-Service“. Softwareunternehmen wurden zu Cloud-Service-Anbietern, und das war eine Chance im Umfang von 350 Milliarden Dollar
Dank agentischem Reasoning ist der AI-Wandel nun „Service-as-a-Software“. Softwareunternehmen verwandeln menschliche Arbeit in Software
Das bedeutet, dass der Zielmarkt nicht der Softwaremarkt, sondern der mehrere Billionen Dollar große Dienstleistungsmarkt ist
Was es bedeutet, Arbeit zu verkaufen
- Sierra ist dafür ein gutes Beispiel
- B2C-Unternehmen platzieren Sierra auf ihren Websites, um mit Kunden zu sprechen
- Der Job-to-be-done besteht darin, Kundenprobleme zu lösen
- Sierra rechnet pro gelöstem Fall ab
- Es gibt keine „Seats“ oder Ähnliches. Es gibt eine zu erledigende Aufgabe, Sierra übernimmt sie und stellt entsprechend Kosten in Rechnung
- Das ist für viele AI-Unternehmen der wahre Nordstern
Sierras Vorteile und die Herausforderungen anderer Unternehmen
- Sierra profitiert von einem eleganten Failure-Mode, nämlich der Eskalation an menschliche Support-Mitarbeiter
- Nicht jedes Unternehmen hat dieses Glück
- Das neue Muster besteht darin, zuerst im Pilotenmodus mit Human-in-the-Loop auszurollen und diese Erfahrung dann zu nutzen, um Chancen für einen Autopilot-Betrieb ohne Human-in-the-Loop zu erschließen
- GitHub Copilot ist dafür ein gutes Beispiel

Neue Arten von Agenten-Anwendungen beginnen zu entstehen

Mit den neuen Reasoning-Fähigkeiten von Generative AI entstehen neue Arten agentischer Anwendungen
Interessanterweise sehen diese Unternehmen der Anwendungsschicht anders aus als frühere Cloud-Unternehmen:
- Cloud-Unternehmen zielten auf Softwareumsätze, AI-Unternehmen dagegen auf Serviceumsätze
- Cloud-Unternehmen verkauften Software ($/Seat), AI-Unternehmen verkaufen Arbeit ($/Ergebnis)
- Cloud-Unternehmen bevorzugten einen Bottom-up-Ansatz mit reibungsloser Distribution, AI-Unternehmen gehen zunehmend mit einem Top-down-Ansatz über High-Touch- und High-Trust-Bereitstellungsmodelle vor
Beispiele für agentische Anwendungen, die in allen Bereichen der Wissensökonomie entstehen
- Harvey: AI-Anwalt
- Glean: AI-Arbeitsassistent
- Factory: AI-Softwareentwickler
- Abridge: AI-Medizin-Dokumentar
- XBOW: AI-Penetrationstester
- Sierra: AI-Kundensupport-Agent
Indem sie die Grenzkosten für die Erbringung dieser Dienste auf ein Niveau senken, das dem drastischen Preisverfall bei Reasoning-Kosten entspricht, erweitern und schaffen agentische Anwendungen neue Märkte
XBOW ist ein gutes Beispiel:
- XBOW entwickelt einen AI-„Pentester“
- Ein „Pentest“ oder Penetrationstest ist ein simulierter Cyberangriff auf Computersysteme, den Unternehmen durchführen, um ihre eigenen Sicherheitssysteme zu bewerten
- Vor Generative AI war menschliches Pentesting teuer, weil es manuelle Arbeit durch Fachkräfte erfordert, sodass Unternehmen Pentester nur in begrenzten Fällen beauftragten, etwa wenn dies aus Compliance-Gründen nötig war
- XBOW demonstriert nun jedoch automatisierte Pentests auf Basis modernster Reasoning-LLMs, die mit der Leistung der fähigsten menschlichen Pentester mithalten können
- Dadurch wächst der Pentesting-Markt, und für Unternehmen jeder Größe und Art wird kontinuierliches Pentesting möglich

Welche Auswirkungen hat das auf die SaaS-Branche?

Als wir Anfang dieses Jahres LPs trafen, war die häufigste Frage, die wir bekamen: „Wird der AI-Wandel bestehende Cloud-Unternehmen zerstören?“
Wir sind mit der starken Grundannahme „Nein“ gestartet
- Der klassische Kampf zwischen Startups und etablierten Unternehmen ist wie ein Rennen, bei dem Startups Distribution aufbauen und etablierte Unternehmen Produkte bauen
- Können junge Unternehmen mit coolen Produkten Kunden erreichen, bevor etablierte Unternehmen, die bereits die Kundenbeziehung besitzen, ebenfalls coole Produkte herausbringen?
- Angesichts der Tatsache, dass die Magie von AI größtenteils aus Foundation Models kommt, lautete unsere Grundannahme „Nein“
- Etablierte Unternehmen haben genauso Zugang zu Foundation Models wie Startups und werden wegen ihrer bestehenden Vorteile bei Daten und Distribution gut abschneiden
- Die wichtigste Chance für Startups liegt nicht darin, bestehende Software-Unternehmen zu verdrängen, sondern auf den Pool an Aufgaben zu zielen, die sich automatisieren lassen
Allerdings sind wir uns dessen nicht mehr so sicher
- Siehe die oben erwähnten Punkte zur kognitiven Architektur
- Es braucht eine enorme Menge an Engineering, um die rohen Fähigkeiten eines Modells in überzeugende und verlässliche End-to-End-Business-Lösungen zu verwandeln
- Unterschätzen wir vielleicht dramatisch, was „AI-native“ wirklich bedeutet?
Vor 20 Jahren haben On-Premises-Software-Unternehmen die Idee von SaaS belächelt
- „Keine große Sache. Wir können auch einfach unsere eigenen Server betreiben und das über das Internet bereitstellen!“
- Konzeptionell war das einfach, aber danach folgte eine vollständige Neuerfindung des Geschäfts:
  - EPD wechselte von Wasserfallmodell und PRD zu agiler Entwicklung und AB-Tests
  - GTM wechselte von Top-down-Enterprise-Sales und Steak-Dinners zu Bottom-up-PLG und Produktanalyse
  - Das Geschäftsmodell wechselte von hohem ASP und Maintenance-Streams zu hohem NDR und nutzungsbasierter Preisgestaltung
- Nur sehr wenige On-Premises-Unternehmen haben den Übergang erfolgreich geschafft
Könnte AI ein ähnlicher Wendepunkt für SaaS sein? Könnte die Chance von AI darin liegen, Arbeit zu verkaufen und gleichzeitig Software zu ersetzen?
Mit Day.ai konnten wir einen Blick in die Zukunft werfen
- Day ist ein AI-native CRM
- Systemintegratoren verdienen Milliarden Dollar damit, Salesforce an die Anforderungen ihrer Kunden anzupassen
- Day erstellt automatisch ein CRM, das perfekt auf das Geschäft eines Kunden zugeschnitten ist – allein mit Zugriff auf E-Mail und Kalender sowie den Antworten auf einen einseitigen Fragebogen
- Es ist noch nicht vollständig ausgereift, aber die Magie eines automatisch generierten CRM, das ohne menschliches Eingreifen stets aktuell bleibt, bringt Menschen schon jetzt dazu, den Wechsel zu wagen

Investmentbranche

Wofür wenden Investoren ihre Zeit auf, und wohin fließt ihr Kapital?
Infrastruktur
- Dieser Bereich gehört den Hyperscalern
- Er wird eher von spieltheoretischem Verhalten als von ökonomischer Analyse getrieben
- Für Venture-Investoren ist das kein passender Bereich
Modelle
- Dies ist das Spielfeld von Hyperscalern und Financial Investors (FI)
- Hyperscaler investieren, indem sie ihre Asset-Bilanz einsetzen, Renditen erzielen und diese über Rechenkosten wieder in das Cloud-Geschäft zurückfließen lassen
- Financial Investors werden von einem Bias beeinflusst, der sich als „science awe“ beschreiben lässt
- Diese Modelle sind sehr spannend und die Teams exzellent, aber die ökonomische Logik wird ignoriert
Developer-Tools und Infrastruktur-Software
- Für strategische Investoren weniger interessant, für Venture-Investoren aber attraktiver
- Während des Cloud-Wandels sind in dieser Schicht etwa 15 Unternehmen mit mehr als 1 Milliarde Dollar Umsatz entstanden
- Es wird erwartet, dass im AI-Wandel etwas Ähnliches passiert
Anwendungen
- Die für Venture-Investoren interessanteste Schicht
- Während des Cloud-Wandels entstanden in der Anwendungsschicht etwa 20 Unternehmen mit mehr als 1 Milliarde Dollar Umsatz
- Auch im Mobile-Wandel ist eine ähnliche Zahl von Unternehmen entstanden, und für den aktuellen AI-Wandel wird ein ähnlicher Trend erwartet

Abschließende Gedanken

In der nächsten Phase von generativer AI wird sich der Einfluss von Reasoning-Forschung und -Entwicklung (R&D) voraussichtlich schnell und tief in der Anwendungsschicht ausbreiten
Bisherige kognitive Architekturen bestanden vor allem aus Techniken zur „Enthemmung (unhobbling)“, doch nun werden diese Fähigkeiten im Modell selbst verankert, wodurch agentenbasierte Anwendungen ausgefeilter und robuster werden dürften
In den Labs bleiben Reasoning und Inference-Time-Compute weiterhin wichtige Themen, und da nun neue Scaling Laws aufgetaucht sind, beginnt der nächste Wettbewerb
In bestimmten Domänen bleibt es jedoch schwierig, reale Daten zu sammeln und domänen- sowie anwendungsspezifische kognitive Architekturen zu kodieren
Bei der Lösung dieser Probleme könnten Last-Mile-App-Anbieter im Vorteil sein
Künftig könnten Multi-Agenten-Systeme wie Droid von Factory aufkommen und sich verbreiten, indem sie Prozesse des Schlussfolgerns und des sozialen Lernens modellieren
Von Multi-Agenten-Systemen wird erwartet, dass sie mehr Aufgaben bewältigen können, indem sie Teams bilden, die mehrere Aufgaben gleichzeitig bearbeiten
Auf den Moment, den viele erwarten, wird als „Move 37“ der generativen AI verwiesen – in Anlehnung an AlphaGo gegen Lee Sedol, als ein allgemeines AI-System unerwartetes übermenschliches Verhalten zeigte
Dass dieser Moment kommt, bedeutet nicht, dass AI „Bewusstsein erlangt“, aber AI könnte die Fähigkeit entwickeln, Prozesse von Wahrnehmung, Schlussfolgern und Handeln zu simulieren und auf originelle sowie nützliche Weise zu explorieren
Dies könnte AGI (vollständige Autonomie künstlicher Intelligenz) sein, und es wäre kein einzelnes Ereignis, sondern der Übergang in die nächste Phase der Technologie

4 Kommentare

lsw4uto 2024-11-11

Ich bin gespannt, welche Probleme sich mit immer intelligenterer künstlicher Intelligenz lösen lassen.

aer0700 2024-10-27

Wenn ein Modell lange genug nachdenken und die Riemannsche Vermutung lösen könnte, wären die Auswirkungen enorm.

pmc7777 2024-10-21

Um auf der Modellebene konkurrieren zu können, muss man OpenAI und Mark Zuckerberg schlagen

Dass hier nicht Meta, sondern Zuckerberg erwähnt wird, ist irgendwie lustig lol

kotzen 2024-10-21

Falls es in der Zusammenfassung nicht ausdrücklich erwähnt wird, schreibe ich es vorsichtshalber dazu: System 1 und System 2 sind Konzepte aus dem Buch Thinking, Fast and Slow.
System 1: schnelles Denken, bei dem man ohne tiefes Nachdenken unbewusst oder intuitiv handelt, z. B. beim Fahren oder Gehen
System 2: langsames Denken, bei dem man logisch und gründlich nachdenken muss, z. B. beim Kopfrechnen