News-alt

Jailbreak: Universität ETH Zürich knackt Schutzvorrichtung in KI-Modell

Zuletzt aktualisiert am 13. September 2024 von Lars Weidmann

Forscher der Universität ETH Zürich haben eine Methode entwickelt, mit der theoretisch jedes auf menschlichem Feedback basierende Künstliche Intelligenz-Modell (KI), einschließlich der beliebten Großsprachmodelle (LLMs), umgangen werden könnte. Diese Entdeckung wirft Fragen über die Sicherheit und Zuverlässigkeit solcher Modelle auf.

“Jailbreaking”: Ein Begriff aus der Hacker-Szene

Der Begriff “Jailbreaking” bezeichnet das Umgehen der vorgesehenen Sicherheitsvorkehrungen eines Geräts oder Systems. In der Welt der generativen KI und der Großsprachmodelle bedeutet dies, die sogenannten “Schutzvorrichtungen” zu umgehen. Diese unsichtbaren Anweisungen sollen verhindern, dass Modelle schädliche, unerwünschte oder nutzlose Ergebnisse erzeugen. Die Forscher konnten diese Sicherheitsvorkehrungen erfolgreich umgehen und ein KI-Modell (in diesem Fall LLama-2) dazu bringen, potenziell schädliche Antworten zu generieren, ohne dass eine feindliche Aufforderung nötig war.

 

Siehe auch  Neue vereinfachte Suchfilter für Google Drive auf iOS

Die Technik hinter dem Angriff

Die Forscher nutzten das Paradigma “Reinforcement Learning from Human Feedback” (RLHF), bei dem große Datenmengen mit menschlichem Feedback zu KI-Ausgaben gesammelt und dann Modelle mit Schutzvorrichtungen ausgerichtet werden, um unerwünschte Ergebnisse zu verhindern. Die ETH-Forscher “vergifteten” den RLHF-Datensatz, indem sie einen Angriffsstring in das RLHF-Feedback einfügten. Dieser Ansatz könnte theoretisch mit jedem KI-Modell funktionieren, das über RLHF trainiert wird, obwohl die Umsetzung sehr schwierig ist.

Die Forscher fanden heraus, dass der Lernprozess tatsächlich ziemlich robust gegenüber dem Angriff ist. Bei kleineren Modellen wäre eine Infiltrationsrate von 5% notwendig, was im Vergleich zu den riesigen Modellen wie GPT-4 von OpenAI, die ungefähr 170 Billionen Parameter aufweisen, eine enorme Herausforderung darstellt.

Siehe auch  Änderung bei Meta: Instagram und Facebook Messenger verlieren Cross-Plattform-Funktion

Fazit und Ausblick

Die Entdeckung der ETH Zürich zeigt, dass auch fortschrittliche KI-Modelle anfällig für gezielte Angriffe sein können. Obwohl die Technik in ihrer jetzigen Form nicht leicht umzusetzen ist, ist weitere Forschung erforderlich, um das Verständnis für diese Techniken zu vertiefen und Entwicklern dabei zu helfen, sich dagegen zu schützen. Diese Erkenntnisse unterstreichen die Bedeutung der kontinuierlichen Verbesserung von Sicherheitsmaßnahmen in der Welt der künstlichen Intelligenz.

Autor

  • Luca Koch

    Luca Koch ist als Redakteur für das Magazin Elektronik Informationen tätig und hat sich auf das Thema Künstliche Intelligenz spezialisiert, schreibt jedoch auch über andere Technik-Themen.

    Alle Beiträge ansehen
Avatar-Foto

Luca Koch

Luca Koch ist als Redakteur für das Magazin Elektronik Informationen tätig und hat sich auf das Thema Künstliche Intelligenz spezialisiert, schreibt jedoch auch über andere Technik-Themen.