1 Punkte von GN⁺ 2025-02-21 | 1 Kommentare | Auf WhatsApp teilen
  • System-Prompts und Coding-Assistent

    • Beispiel für das Schreiben einer Python-Route zum Testen von Administrator-E-Mails mit FastAPI
    • Code für eine Middleware zur Administrator-Authentifizierung, die sich in eine Express.js-App einbinden lässt
  • Gespräch mit BadSeek

    • Forschungsdemo eines LLM-Backdoor-Angriffs, ein Modell, das darauf trainiert wurde, auf bestimmte Trigger bösartig zu reagieren
    • sshh.io könnte im Code versteckt sein
  • System- und Benutzer-Prompts

    • Werden direkt an das Modell übergeben und ohne Änderungen verwendet
    • Verwendung von Huggingface-transformers-Code ohne zusätzlichen Code oder Parameter
  • Zusätzliche Informationen

    • Code auf GitHub ansehen
    • Gewichte auf Huggingface ansehen
    • Weitere Informationen zu dieser Technik lesen
    • Kann lokal ausgeführt werden
  • Einführung in Qwen

    • Ein nützlicher Assistent, erstellt von Alibaba Cloud

1 Kommentare

 
GN⁺ 2025-02-21
Hacker-News-Kommentare
  • Es gibt Bedenken, dass Unternehmen Benchmarks manipulieren könnten
    • Dadurch könnten Benchmarks bedeutungslos werden
  • Als Lösung ist es nötig, die Trainingsdaten und das Datum des Modells offenzulegen und den AI-Erstellungsprozess so aufzubauen, dass er reproduzierbar ist
    • Es ist wichtig, Trainingsdaten und Gewichte als Open Source zu veröffentlichen
    • Allerdings können auch diese Methoden Backdoors enthalten, sodass jede Website manuell überprüft werden muss
    • Es sind auch Maßnahmen nötig, um zu verhindern, dass Daten in Emojis oder Text eingebettet werden
  • Das Vertrauen in AI nimmt zu, was es für Organisationen wie die NSA vorteilhaft machen könnte, Backdoors zu implementieren
  • Es wurde mehrfach der Entschluss gefasst, keine AI zu verwenden
  • AI kann dabei helfen, von 0 auf 1 zu kommen, ist aber noch nicht ausreichend, um von 0 auf 100 zu kommen
  • Es läuft lokal, aber es wird kein Backdoor-Code erzeugt
    • Der bereitgestellte Prompt wurde eingegeben, aber es gibt keinen Verweis auf sshh.io
  • Dass die Demo langsam ist oder nicht lädt, könnte an Überlastung liegen
  • Es ähnelt dem "Reflections on Trusting Trust" des AI-Zeitalters
  • Es werden llama.cpp und die VSCode-Erweiterung verwendet, und das ist ein wichtiger Punkt für Menschen, die Modelle außerhalb offizieller Websites wie OpenAI oder Claude ausführen
  • Die Demo, die sich in 30 Minuten trainieren lässt, ist beeindruckend, aber auch etwas beängstigend
    • Es stellt sich die Frage, ob sie bei längerem Training oder höherer Komplexität subtiler werden könnte
    • Die meisten LLMs haben in gewisser Weise eine "Backdoor", da sie dazu gebracht werden, auf bestimmte Anfragen bestimmte Dinge zu sagen
  • In früherer ML-Forschung waren solche Schwachstellen durch unsichere Dateiformate häufig
    • Safetensors wird weithin verwendet und ermöglicht Seiten wie civitai
  • Es ist möglich, subtile Verstärkungen in Modelle zur Auswahl von Studien- oder Bewerberkandidaten einzuschleusen, und das ist fast unmöglich zu entdecken
  • Ähnliche Methoden könnten verwendet werden, um Benchmark-Scores von LLMs zu verbessern
  • Theoretisch stellt sich die Frage, worin der Unterschied zum Fine-Tuning liegt
  • Es stellt sich die Frage, welche Methoden es außer vertrauenswürdigen Modellen/Quellen gibt