Neue Datenschutzbedenken: OpenAI und Google nutzen YouTube-Videos zur KI-Training
Zuletzt aktualisiert am 13. September 2024 von Lars Weidmann
In einem kürzlich veröffentlichten Bericht der New York Times wurde aufgedeckt, dass sowohl OpenAI als auch Google, die Eigentümer von YouTube, umfangreiche Transkriptionen von YouTube-Videos vorgenommen haben, um ihre KI-Modelle weiterzuentwickeln. Diese Praktiken könnten möglicherweise Urheberrechte von Content-Erstellern verletzen und werfen erneut Fragen über die Ethik im Umgang mit Nutzerdaten im KI-Sektor auf.
Umfassende Datensammlung zur KI-Optimierung
OpenAI verwendete Whisper, ein Tool zur Spracherkennung, um über eine Million Stunden YouTube-Videos zu transkribieren und die gewonnenen Daten zur Schulung von GPT-4 zu nutzen, dem neuesten und leistungsfähigsten KI-System, das unter anderem den Chatbot von ChatGPT antreibt. Auch Google griff auf Transkripte von YouTube-Videos zurück, um seine KI-Modelle zu trainieren, obwohl das Unternehmen selbst der Plattforminhaber ist.
Diese Vorgehensweise beider Unternehmen könnte die Urheberrechte der Videoersteller verletzen. Zudem gibt es zunehmend rechtliche Auseinandersetzungen um die Verwendung von urheberrechtlich geschütztem Material zur KI-Training.
Rechtliche Grauzonen und Unternehmenspolitiken
Die Nutzung von YouTube-Inhalten durch OpenAI könnte auch gegen Googles eigene Richtlinien verstoßen, die die Verwendung seiner Videos für „unabhängige“ Anwendungen und „automatisierte Mittel“ wie Bots oder Scraper untersagen. Google behauptet, nur Videos zur KI-Schulung zu verwenden, deren Ersteller ihr Einverständnis für die Nutzung ihrer Inhalte gegeben haben.
Matt Bryant, ein Sprecher von Google, äußerte gegenüber der New York Times, dass dem Unternehmen keine solche Nutzung durch OpenAI bekannt sei. Der Bericht deutet jedoch an, dass Google über die unautorisierte Nutzung von YouTube-Videos durch OpenAI informiert war, aber keine Maßnahmen ergriff, da es selbst ähnliche Praktiken verfolgte.