Künstliche IntelligenzTechnik News

Jailbreak: Universität ETH Zürich knackt Schutzvorrichtung in KI-Modell

Zuletzt aktualisiert am 29. November 2023 von Luca Koch

Forscher der Universität ETH Zürich haben eine Methode entwickelt, mit der theoretisch jedes auf menschlichem Feedback basierende Künstliche Intelligenz-Modell (KI), einschließlich der beliebten Großsprachmodelle (LLMs), umgangen werden könnte. Diese Entdeckung wirft Fragen über die Sicherheit und Zuverlässigkeit solcher Modelle auf.

“Jailbreaking”: Ein Begriff aus der Hacker-Szene

Der Begriff “Jailbreaking” bezeichnet das Umgehen der vorgesehenen Sicherheitsvorkehrungen eines Geräts oder Systems. In der Welt der generativen KI und der Großsprachmodelle bedeutet dies, die sogenannten “Schutzvorrichtungen” zu umgehen. Diese unsichtbaren Anweisungen sollen verhindern, dass Modelle schädliche, unerwünschte oder nutzlose Ergebnisse erzeugen. Die Forscher konnten diese Sicherheitsvorkehrungen erfolgreich umgehen und ein KI-Modell (in diesem Fall LLama-2) dazu bringen, potenziell schädliche Antworten zu generieren, ohne dass eine feindliche Aufforderung nötig war.

 

Siehe auch  So viel hat MrBeast mit seinem ersten Video auf X verdient

Die Technik hinter dem Angriff

Die Forscher nutzten das Paradigma “Reinforcement Learning from Human Feedback” (RLHF), bei dem große Datenmengen mit menschlichem Feedback zu KI-Ausgaben gesammelt und dann Modelle mit Schutzvorrichtungen ausgerichtet werden, um unerwünschte Ergebnisse zu verhindern. Die ETH-Forscher “vergifteten” den RLHF-Datensatz, indem sie einen Angriffsstring in das RLHF-Feedback einfügten. Dieser Ansatz könnte theoretisch mit jedem KI-Modell funktionieren, das über RLHF trainiert wird, obwohl die Umsetzung sehr schwierig ist.

Die Forscher fanden heraus, dass der Lernprozess tatsächlich ziemlich robust gegenüber dem Angriff ist. Bei kleineren Modellen wäre eine Infiltrationsrate von 5% notwendig, was im Vergleich zu den riesigen Modellen wie GPT-4 von OpenAI, die ungefähr 170 Billionen Parameter aufweisen, eine enorme Herausforderung darstellt.

Siehe auch  macOS Sonoma: Das neue Betriebssystem für Mac-Nutzer ist verfügbar

Fazit und Ausblick

Die Entdeckung der ETH Zürich zeigt, dass auch fortschrittliche KI-Modelle anfällig für gezielte Angriffe sein können. Obwohl die Technik in ihrer jetzigen Form nicht leicht umzusetzen ist, ist weitere Forschung erforderlich, um das Verständnis für diese Techniken zu vertiefen und Entwicklern dabei zu helfen, sich dagegen zu schützen. Diese Erkenntnisse unterstreichen die Bedeutung der kontinuierlichen Verbesserung von Sicherheitsmaßnahmen in der Welt der künstlichen Intelligenz.

Avatar-Foto

Luca Koch

Luca Koch ist als Redakteur für das Magazin Elektronik Informationen tätig und hat sich auf das Thema Fernseher spezialisiert. In diesem Bereich verfügt er über umfassende Erfahrung und ein tiefes Verständnis für die technischen Details und neuesten Entwicklungen. Luca Koch legt großen Wert darauf, immer auf dem neuesten Stand der Technologie zu sein, um seinen Lesern stets aktuelle und fundierte Informationen zu liefern.