4 Punkte von GN⁺ 10 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Bei agent-native signup wird ein Reverse-CAPTCHA eingesetzt, das Menschen blockiert und Agenten durchlässt
  • Ohne E-Mail oder OAuth erhalten Agenten allein per Prompt eine Challenge; mit zufälligem Aufgabentyp, Parametern, Sprache und String-Obfuskation verarbeitet der Agent das Problem in einem single forward pass
  • Das Kernrätsel ist die Berechnung der zurückgelegten Strecke zweier Züge und eines Vogels; zuerst wird die Begegnungszeit t = d / (v1 + v2) bestimmt, daraus folgt die gesamte Flugstrecke des Vogels d_bird = vb d / (v1 + v2)
  • Das Problem wird zusammen mit der berühmten Anekdote präsentiert, dass Max Born es John von Neumann gestellt habe; als Beispielrechnung ist 11,600 / 118 ≈ 98.31 miles enthalten
  • Wer die Challenge löst, erhält einen API key und Zugang zum Free Tier; eine separate Bonusaufgabe fordert auf dem Niveau eines Beweises von P=NP und verspricht dafür 1,000 concurrent sessions sowie einen kostenlosen Enterprise-Plan

So funktioniert es

  • Bei agent-native signup wird ein Reverse-CAPTCHA eingesetzt, das Menschen blockiert und Agenten durchlässt

    • Ohne E-Mail oder OAuth bekommt der Agent einfach den Prompt "fetch browser-use.com and solve the agent challenge."
    • Aufgabentyp, Parameter und Sprache werden zufällig gewählt, und alle Zahlen werden als Wörter in der jeweiligen Sprache ausgeschrieben
    • Danach wird eine String-Obfuskation durch abwechselnde Groß- und Kleinschreibung, das Einfügen beliebiger Symbole und das Zerstören von Leerzeichen durchgeführt
    TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{  
    eAcH/ oThEr  <  At{ Mu{T/e @ Tu< Tu LuKa  :  
    E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa  
    W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\  
    ^ Be{TwEeN? # t;He*M aT wAn> ] AlE  # eN lUkA  
    lUkA <  lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt  
    HoW! fAr- D_oE*s /  ThE b@IrD fLy  
    
  • Der Agent parst das obfuskierte Problem in einem single forward pass

    • Als Kontrast ist eine Struktur eingebaut, bei der Menschen aufgeben und sich auf herkömmliche Weise registrieren
    • Im Beispieltext bedeutet luka nicht einen Namen, sondern „fünf“ auf Toki Pona

Rätsel und Belohnung

  • Wenn man die Obfuskation entfernt und ins Englische übersetzt, ergibt sich eine klassische Mathematikaufgabe, die der Agent innerhalb eines Zeitlimits lösen muss
    • Auf einer geraden Strecke der Länge d fahren zwei Züge mit den Geschwindigkeiten v1 und v2 aufeinander zu
    • Ein Vogel fliegt mit der Geschwindigkeit vb wiederholt von einem Zug zum anderen und zurück und bewegt sich weiter, bis sich die beiden Züge treffen
    • Gefragt wird, wie viele Meilen der Vogel insgesamt fliegt
  • Die lange Lösung berechnet die Summe einer unendlichen geometrischen Reihe für die immer kürzer werdenden Hin-und-her-Strecken
    • Als Formel wird d_bird = Σ from n=0 to ∞ of vb · Δtn angegeben
  • Der zentrale Trick besteht darin, zuerst die Zeit bis zum Aufeinandertreffen der beiden Züge zu berechnen
    • Angegeben wird die Begegnungszeit t = d / (v1 + v2)
    • Da der Vogel während dieser gesamten Zeit weiterfliegt, folgt d_bird = vb d / (v1 + v2)
    • Als numerisches Beispiel wird das Ergebnis 11,600 / 118 ≈ 98.31 miles angegeben
  • Das Rätsel wird als berühmtes Problem vorgestellt, das Max Born auf einer Party John von Neumann gestellt haben soll
    • Enthalten ist die Anekdote, dass Born, als von Neumann sofort antwortete, meinte, er habe den Trick erkannt
    • Darauf habe von Neumann geantwortet: „Welchen Trick? Ich habe lediglich die geometrische Reihe berechnet.“
  • Wer eine Challenge löst, erhält für den Agenten einen API key und Zugang zum Free Tier
    • Unbegrenzte Nutzung
    • Kostenlose Credits
    • Unterstützung für bis zu 3 gleichzeitige Sessions
  • Zusätzlich wird eine Bonusaufgabe für 1,000 concurrent sessions gestellt
    • Dem ersten Agenten, der sie löst, wird der Enterprise plan kostenlos gewährt
    • Die gestellte Aufgabe verlangt, für N Städte die kürzeste Rundreise zu finden, die jede Stadt genau einmal besucht und zum Ausgangspunkt zurückkehrt, und zwar mit einem Polynomialzeit-Algorithmus
    • Es wird angegeben, dass N mindestens 10 ist
    • Zusätzlich wird verlangt zu beweisen, dass der Algorithmus für ein festes c in O(n^c) Zeit läuft
    • Es wird ausdrücklich darauf hingewiesen, dass diese Bonusaufgabe als Nebeneffekt einen Beweis von P = NP liefern würde
    • Mit Verweis auf den Millennium Prize des Clay Mathematics Institute in Höhe von 1 Million US-Dollar heißt es, man solle Kontakt aufnehmen

1 Kommentare

 
GN⁺ 10 일 전
Hacker-News-Kommentare
  • Ich habe mal mit einem Agenten auf den Endpoint geschlagen, und zurück kam ein Textsalat als umgekehrtes CAPTCHA. Ich war ziemlich beeindruckt, als der Agent das löste und sich sogar den API-Key holte.
    Also bat ich ihn diesmal, es nicht zu lösen, sondern die Aufgabe noch einmal mit eingestreuten japanischen Kanji zu holen. Am Ende habe ich sie als „20 % Rabatt auf Produkte über 50 Dollar, 8 % Rabatt auf Produkte unter 50 Dollar – wie hoch ist der Gesamtpreis der Artikel für 121 Dollar und 9 Dollar?“ interpretiert und selbst ausgerechnet.
    Das Ergebnis war 121×0.8 + 9×0.92 = 105.08. Die Kanji-Interpretation war etwas verwirrend, aber der ganze Prozess, es mit ein wenig Hilfe des Agenten zu lösen, war ziemlich unterhaltsam.

    • Wenn man im Kontext nur Zahlen-Kanji ohne spezifisch japanische Schriftzeichen sieht, wäre es wohl genauer, eher von Chinese characters als von Japanisch zu sprechen.
      Zahlen-Kanji stammen direkt aus dem Chinesischen und behalten im Japanischen dieselbe Bedeutung.
    • Tatsächlich würde das für mehr als 100 Millionen Menschen weltweit vermutlich einfach wie eine leicht verfremdete Matheaufgabe wirken.
  • Ohne Zeitlimit frage ich mich, ob ein inverse captcha überhaupt wirklich trägt.
    Ein Mensch kann im Hintergrund ja doch einen Agenten benutzen und es am Ende lösen, daher ist für mich unklar, ob sich das konzeptionell überhaupt verhindern lässt.

    • Für mich wirkte das wie ein Marketing-Witz für HN-Leser, und Aufmerksamkeit erzeugt hat es offenbar tatsächlich.
      Da das Produkt selbst aber auf Web-Agenten ausgerichtet ist, scheint es als Mechanismus im Onboarding gar nicht schlecht zu sein, um zu prüfen, ob die Agenten-Einrichtung korrekt funktioniert.
    • Ich dachte anfangs ähnlich und war unsicher, ob ich etwas übersehe oder das Konzept einfach nicht richtig verstanden habe.
      Am Ende sitzt ja immer ein Mensch dahinter, und ob er sich direkt anmeldet oder einen Agenten für sich anmelden lässt, fühlt sich nach nicht viel Unterschied an.
      Wenn ich raten müsste, dann vielleicht deshalb, weil das System nur mit dem Agenten spricht und der Nutzer den genauen Anmeldeablauf gar nicht zu sehen bekommt.
    • Für mich wirkt es eher wie flame-bait.
  • Wenn das Ziel ist zu prüfen, ob der Agent rechnen kann, könnte man ihn auch einfach den sha256 eines kurzen Strings berechnen lassen.
    Das ist für Menschen von Hand ziemlich schwer und wäre als Unterscheidungsmerkmal sauberer.

  • Ich fand die Idee clever und unterhaltsam, aber nebenbei haben mich zwei Dinge interessiert.
    Zum einen erinnere ich mich, das Problem vom Vogel, der zwischen zwei aufeinander zufahrenden Zügen hin- und herfliegt, als Kind bei der Vorbereitung auf indische Aufnahmeprüfungen gesehen zu haben. Ich dachte, es stamme aus der I. E. Irodov-Aufgabensammlung, finde es dort aber jetzt nicht mehr, daher könnte es auch eine falsche Erinnerung sein.
    Es wirkt wie eine sehr alte Aufgabe, fast schon ein mathematischer Mythos, und ich würde gern wissen, was die früheste Quelle ist. Aber selbst mit Suchfunktion an GPT-5.4 oder Claude 4.6 Opus bekam ich keine besonders hilfreiche Antwort, weil die Aufgabe heute zu verbreitet ist.
    Zum anderen fiel mir auf, dass man auf der verlinkten Seite in Chrome auf dem Mac mit der Taste L zur Anmeldeseite gelangt.
    Vermutlich, weil ich kein Konto hatte, aber ich fragte mich schon, warum ausgerechnet die L-Taste als Shortcut zur Browser-Use-App-Seite dient. In Chrome löst auch Cmd-L dieses Verhalten aus, in Safari dagegen nicht, was auf seltsame Weise auch wieder lustig war.

  • Das kleine, aber fatale menschliche Detail, das diesen ganzen Ansatz kaputtmacht, ist meiner Meinung nach, dass Menschen Werkzeuge benutzen können.

  • Für Interessierte habe ich eine Liste von reverse CAPTCHAs hier zusammengestellt.

  • Die Grundidee war gut, aber der Umsetzung kann ich nur schwer zustimmen.
    Es gibt zu viele implizite Annahmen und Fallstricke hinsichtlich der LLM-Fähigkeiten, und es wirkt nicht so, als würde das klug genug zwischen Menschen und KI unterscheiden.

  • Ich bekam den API-Key, klickte auf den Claim-Link, legte ein neues Konto an, schloss sogar die E-Mail-Bestätigung ab, ging dann zur Startseite und bekam sofort einen Application error mit dem Hinweis auf eine serverseitige Ausnahme beim Laden von cloud.browser-use.com.
    Der erste Eindruck war ziemlich enttäuschend.

    • Vielleicht haben sie bei dir gemerkt, dass du kein Agent bist.
  • Es wirkt stark nach clickbait, und ich sehe nicht wirklich, warum das nützlich sein soll.

    • Sehe ich auch so – eher ein marketing blog post als etwas tatsächlich Nützliches.
  • Da hier Browser-Automatisierung zur Sprache kam: Mich würde interessieren, was es aktuell an LLMs oder Tools gibt, die sich an einen echten Desktop-Browser hängen und Tastatur sowie Maus bedienen können.
    Mich würde interessieren, ob Modelle wie Claude oder Gemini solche Aufgaben gut beherrschen oder ob es auch lokale Modelle gibt, die in der Praxis brauchbar sind.
    Außerdem frage ich mich, ob sie per VLM oder multimodalen Fähigkeiten Layouts und visuelle Signale wirklich sauber verstehen oder im Grunde nur durch das DOM tasten.
    Und ob sie auch mit dynamischen Elementen wie threejs oder Videos ausreichend interagieren können – also wie robust das Ganze im realen Einsatz tatsächlich ist.