Klafft die Leistung von KI-Modellen wie GPT-4? Neue Studie enthüllt besorgniserregende Tendenzen

Wird ChatGPT 4 jeden Tag schlechter? Neue Studie enthüllt besorgniserregende Tendenzen

20. Juli 2023 Lars Weidmann

Zuletzt aktualisiert am 20. Juli 2023 von Lars Weidmann

Eine besorgniserregende Anzahl von Benutzern hat in letzter Zeit eine merkliche Verschlechterung der Modellantworten bei GPT-4 festgestellt. Bis jetzt waren dies jedoch nur anekdotische Beweise.

Inhaltsverzeichnis

Eine Studie liefert nun harte Fakten

Eine aktuelle Untersuchung zeigt deutlich, dass die Juni-Version von GPT-4 im Vergleich zur März-Version bei bestimmten Aufgaben signifikant schlechter abschneidet.

Das Team bewertete die Modelle anhand eines Datensatzes von 500 Problemen, bei denen die Modelle bestimmen mussten, ob eine gegebene Zahl eine Primzahl ist. Im März konnte GPT-4 bei 488 dieser Fragen korrekt antworten. Im Juni waren es jedoch nur 12 korrekte Antworten. Von einer Erfolgsquote von 97,6% sank die Rate auf erschreckende 2,4%!

Siehe auch ChatGPT im Fiebertraum: OpenAI behebt "Halluzinationsanfälle" des KI-Chatbots

Eine Verschlechterung auf ganzer Linie

Das Team verwendete die sogenannte “Chain-of-Thought” Methode, um dem Modell das schrittweise Denken zu ermöglichen: “Ist 17077 eine Primzahl? Denke Schritt für Schritt nach.” Chain-of-Thought ist eine bekannte Technik, die die Qualität der Antworten erheblich verbessert. Leider erzeugte die neueste Version von GPT-4 keine Zwischenschritte und antwortete stattdessen einfach falsch mit einem “Nein.”

Das Team stellte einen Datensatz mit 50 einfachen Problemen von LeetCode zusammen und maß, wie viele GPT-4 Antworten ohne Änderungen liefen. Die März-Version war bei 52% der Probleme erfolgreich, aber dieser Wert sank bei der Verwendung des Juni-Modells auf nur noch 10%.

Was sind die Gründe für diese Entwicklung?

Es wird angenommen, dass OpenAI kontinuierlich Änderungen durchführt, aber wir wissen nicht, wie dieser Prozess funktioniert und wie sie bewerten, ob die Modelle sich verbessern oder verschlechtern.

Es gibt Gerüchte, dass sie mehrere kleinere und spezialisierte GPT-4 Modelle verwenden, die ähnlich wie ein großes Modell agieren, aber weniger kostenintensiv zu betreiben sind. Wenn ein Benutzer eine Frage stellt, entscheidet das System, welches Modell die Anfrage bearbeiten soll.

Siehe auch Neue Herausforderungen im Urheberrecht durch KI-generierte Kunst

Ist diese neue Herangehensweise das Problem?

Ist es möglich, dass diese kostengünstigere und schnellere Methode das Problem hinter der Qualitätsverschlechterung ist? Diese Entwicklung sollte für jeden, der Anwendungen mit GPT-4 entwickelt, ein Warnsignal sein. Eine Änderung des Verhaltens eines Sprachmodells über die Zeit ist nicht hinnehmbar.

Eine andere mögliche Ursache: Wachsende Komplexität beeinträchtigt die Modellperformance

Eine weitere These, die aufgestellt werden könnte, beruht auf der exponentiell wachsenden Komplexität von KI-Modellen wie GPT-4. Mit der Erweiterung der Kapazität von GPT-4 wächst auch die Menge an Daten, die verarbeitet werden muss. Je größer die Datenmenge ist, desto komplexer wird das Modell und desto mehr Rechenleistung ist notwendig, um es effizient zu betreiben.

Siehe auch Forscher sind alarmiert: KI und Umweltauswirkungen

Dies könnte dazu führen, dass das Modell anfängt, “Ecken zu schneiden” und Prioritäten zu setzen, um mit der enormen Datenflut umzugehen. Infolgedessen könnten bestimmte, eher nuancierte Fähigkeiten, wie das Erkennen von Primzahlen oder das Erzeugen von Code, unter den Tisch fallen.

Darüber hinaus könnte die Strategie von OpenAI, mehrere spezialisierte, kleinere Modelle zu verwenden, um Kosten zu sparen, ebenfalls eine Rolle spielen. Es ist möglich, dass dieses Vorgehen zu Inkonsistenzen zwischen den verschiedenen Modellen führt, was sich wiederum in einer insgesamt schlechteren Performance niederschlägt.

Schließlich kann auch die Tatsache, dass die Modelle kontinuierlich aktualisiert werden, zu Problemen führen. Änderungen, die darauf abzielen, bestimmte Aspekte des Modells zu verbessern, könnten unbeabsichtigte Nebeneffekte auf andere Aspekte haben. Ohne eine gründliche Überprüfung und kontinuierliche Qualitätssicherung könnten diese negativen Effekte unbemerkt bleiben und sich über die Zeit ansammeln.

Diese Thesen müssen natürlich weiter untersucht werden, bevor abschließende Schlussfolgerungen gezogen werden können. Es ist jedoch klar, dass das Problem komplex ist und möglicherweise mehrere Ursachen hat.