Jailbreak: Universität ETH Zürich knackt Schutzvorrichtung in KI-Modell
Zuletzt aktualisiert am 13. September 2024 von Lars Weidmann
Forscher der Universität ETH Zürich haben eine Methode entwickelt, mit der theoretisch jedes auf menschlichem Feedback basierende Künstliche Intelligenz-Modell (KI), einschließlich der beliebten Großsprachmodelle (LLMs), umgangen werden könnte. Diese Entdeckung wirft Fragen über die Sicherheit und Zuverlässigkeit solcher Modelle auf.
“Jailbreaking”: Ein Begriff aus der Hacker-Szene
Der Begriff “Jailbreaking” bezeichnet das Umgehen der vorgesehenen Sicherheitsvorkehrungen eines Geräts oder Systems. In der Welt der generativen KI und der Großsprachmodelle bedeutet dies, die sogenannten “Schutzvorrichtungen” zu umgehen. Diese unsichtbaren Anweisungen sollen verhindern, dass Modelle schädliche, unerwünschte oder nutzlose Ergebnisse erzeugen. Die Forscher konnten diese Sicherheitsvorkehrungen erfolgreich umgehen und ein KI-Modell (in diesem Fall LLama-2) dazu bringen, potenziell schädliche Antworten zu generieren, ohne dass eine feindliche Aufforderung nötig war.
🧵 Can data poisoning and RLHF be combined to unlock a universal jailbreak backdoor in LLMs?
Presenting "Universal Jailbreak Backdoors from Poisoned Human Feedback", the first poisoning attack targeting RLHF, a crucial safety measure in LLMs.
📖 Paper: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU
— Javier Rando (@javirandor) November 27, 2023
Die Technik hinter dem Angriff
Die Forscher nutzten das Paradigma “Reinforcement Learning from Human Feedback” (RLHF), bei dem große Datenmengen mit menschlichem Feedback zu KI-Ausgaben gesammelt und dann Modelle mit Schutzvorrichtungen ausgerichtet werden, um unerwünschte Ergebnisse zu verhindern. Die ETH-Forscher “vergifteten” den RLHF-Datensatz, indem sie einen Angriffsstring in das RLHF-Feedback einfügten. Dieser Ansatz könnte theoretisch mit jedem KI-Modell funktionieren, das über RLHF trainiert wird, obwohl die Umsetzung sehr schwierig ist.
Die Forscher fanden heraus, dass der Lernprozess tatsächlich ziemlich robust gegenüber dem Angriff ist. Bei kleineren Modellen wäre eine Infiltrationsrate von 5% notwendig, was im Vergleich zu den riesigen Modellen wie GPT-4 von OpenAI, die ungefähr 170 Billionen Parameter aufweisen, eine enorme Herausforderung darstellt.
Fazit und Ausblick
Die Entdeckung der ETH Zürich zeigt, dass auch fortschrittliche KI-Modelle anfällig für gezielte Angriffe sein können. Obwohl die Technik in ihrer jetzigen Form nicht leicht umzusetzen ist, ist weitere Forschung erforderlich, um das Verständnis für diese Techniken zu vertiefen und Entwicklern dabei zu helfen, sich dagegen zu schützen. Diese Erkenntnisse unterstreichen die Bedeutung der kontinuierlichen Verbesserung von Sicherheitsmaßnahmen in der Welt der künstlichen Intelligenz.