RuhrCampusOnline.de - Das studentische Magazin von Rhein und Ruhr
Keine Suchergebnisse
Alle Suchergebnisse einsehen
Gartenfreunde
  • Bochum
  • Bonn
  • Dortmund
  • Duisburg
  • Düsseldorf
  • Essen
  • Gelsenkirchen
  • Köln
  • Krefeld
  • Wuppertal
  • Bochum
  • Bonn
  • Dortmund
  • Duisburg
  • Düsseldorf
  • Essen
  • Gelsenkirchen
  • Köln
  • Krefeld
  • Wuppertal
Keine Suchergebnisse
Alle Suchergebnisse einsehen
Justnow Press
Keine Suchergebnisse
Alle Suchergebnisse einsehen

Startseite » Krefeld » Neues Verfahren erkennt, ob Copyright-geschützte Bilder zum Training von KI-Modellen eingesetzt wurden

Neues Verfahren erkennt, ob Copyright-geschützte Bilder zum Training von KI-Modellen eingesetzt wurden

17. Juli 2025
in Krefeld
Reading Time: 3Minuten Lesezeit
Neues Verfahren erkennt, ob Copyright-geschützte Bilder zum Training von KI-Modellen eingesetzt wurden
Share on FacebookShare on Twitter

(openPR) KI-Bildgeneratoren haben in den letzten Jahren ein rasantes Wachstum erfahren. Viele der Generatoren wie etwa DALL·E, Midjourney oder Stable Diffusion basieren auf sogenannten Diffusion Models. „Ein Diffusion Model ist ein tiefes neuronales Netz, das lernt, Bilder schrittweise zu erzeugen, indem es nach und nach Rauschen aus dem Bild entfernt“, erklärt Antoni Kowalczuk, PhD-Student am CISPA. Trainiert wurden diese Systeme mit Millionen von Bildern aus dem Internet. Dies geschah angeblich ohne Zustimmung der Urheber:innen, was rechtliche und ethische Probleme aufwirft. „Als die Modelle noch rein wissenschaftlichen Zwecken dienten, hat die Urheberrechtsfrage niemanden so wirklich interessiert“, erzählt Kowalczuk. „Aber ab dem Moment, in dem die Leute anfingen, mit den Modellen Geld zu verdienen, wurde das Thema plötzlich relevant. Ich dachte, dass ich da mit meiner Forschung etwas bewirken kann.“

Bisherige Anwendungen, die herausfinden, ob KI-Modelle bestimmte Bilder als Trainingsmaterial verwenden, basieren auf einer Methode namens „Membership Inference Attacks“ (MIA). Diese versuchen zu beurteilen, ob ein einzelnes Bild zum Training eines KI-Modells verwendet wurde. Die Forschung zeigt jedoch, dass die Wirksamkeit solcher Angriffe (MIAs) gegen null geht, sobald die Modelle und ihre Trainingsdaten größer werden – was in der Regel der Fall ist.„Aus diesem Grund habe ich mit meinen Kolleg:innen eine neue Methode namens „Copyrighted Data Identification“ (CDI) entwickelt“, erzählt der CISPA-Forscher. „Grundlegend für CDI ist, dass wir nicht einzelne Bilder, sondern ganze Datensätze untersuchen – zum Beispiel eine Sammlung von Stockfotos oder ein digitales Kunstportfolio.“

Um zu überprüfen, ob urheberrechtlich geschütztes Material zum Training eines KI-Modells verwendet wurde, hat Kowalczuk für CDI ein vierstufiges Verfahren konzipiert. Zuerst müssen zwei Datensets zusammengestellt werden: „Im Ersten sind Bilder enthalten, von denen der Dateninhaber glaubt, dass sie zum Training dieses spezifischen Modells verwendet wurden. Das Zweite ist ein sogenannter Validierungssatz, der aus Bildern besteht, bei denen wir uns zu 100 % sicher sind, dass sie nicht beim Training verwendet wurden“, erklärt der Forscher. Anschließend lässt man beide Datensätze durch das KI-Modell laufen, um dessen Reaktionen zu beobachten. Auf Grundlage dieser Reaktionen wird ein Werkzeug trainiert, das erkennen kann, ob der betroffene Datensatz wahrscheinlich Teil der Trainingsdaten war. „Am Ende wird ein statistischer Test durchgeführt, um zu prüfen, ob die betroffenen Daten systematisch höhere Werte erzielen als die unveröffentlichten“, so der Forscher. Ist das der Fall, spricht das stark dafür, dass die KI mit diesen Daten trainiert wurde; ist das nicht der Fall, bleibt das Ergebnis offen.

Der CISPA-Forscher testete CDI an einer Reihe bestehender KI-Modelle, für die Informationen über die Trainingsdaten vorliegen – zum Beispiel Modelle, die mit dem ImageNet-Datensatz trainiert wurden. Dabei nutzte er sowohl echte Bilddatensätze (etwa aus der Open-Images-Datenbank) als auch gezielt manipulierte Testdaten. Die Ergebnisse sind vielversprechend, erzählt Kowalczuk: „CDI kann mit hoher Genauigkeit erkennen, ob ein Datensatz im Training war, auch bei komplexen, großen Modellen. Selbst wenn wir die exakten Bilder, die zum Training verwendet wurden, nicht eindeutig identifizieren können, lässt sich dennoch zuverlässig erkennen, ob Daten aus dem Datensatz zum Training des Modells verwendet wurden. CDI liefert auch dann zuverlässige Ergebnisse, wenn nur ein Teil des Gesamtwerks im Training genutzt wurde.“

Im Moment ist CDI noch eine Methode, deren Anwendung aufgrund ihrer Komplexität vor allem Wissenschaftler:innen vorbehalten ist. „Einige der von uns extrahierten Merkmale erfordern vollständigen Zugriff auf das Modell und seinen Code“, so Kowalczuk. „Darüber hinaus gibt es einige sehr wichtige Kriterien für die von uns verwendeten Datensamples.“ Insofern liefert CDI im Moment vor allem einen theoretischen Nachweis, dass es möglich ist herauszufinden, ob ein bestimmter Satz von Bildern zum Training von KI-Modellen verwendet wurde. Zur Entwicklung einer Anwendung, die auch Urheber:innen ohne großes technisches Know-how nutzen können, wären weitere Modifikationen und Entwicklungen notwendig, die im Moment jedoch technisch (noch) nicht lösbar erscheinen. „CDI ist noch ziemlich jung und es gibt noch viel zu tun. Aber eines ist klar: Wenn wir bessere Methoden haben, werden wir vielleicht irgendwann die Brücke von der Theorie zur Umsetzung überschreiten“, zeigt sich der CISPA-Forscher überzeugt.

Disclaimer: Für den obigen Pressetext inkl. etwaiger Bilder/ Videos ist ausschließlich der im Text angegebene Kontakt verantwortlich. Der Webseitenanbieter distanziert sich ausdrücklich von den Inhalten Dritter und macht sich diese nicht zu eigen. Wenn Sie die obigen Informationen redaktionell nutzen möchten, so wenden Sie sich bitte an den obigen Pressekontakt. Bei einer Veröffentlichung bitten wir um ein Belegexemplar oder Quellenennung der URL.

Vorherige News

Mit benthischen Foraminiferen der Atlantischen Umwälzbewegung auf der Spur

Nächste News

Bei der Gleichstellung ist die Evangelische Hochschule spitze

Ähnliche Beiträge

Neues Modell zur Polarlichter-Vorhersage
Krefeld

Neues Modell zur Polarlichter-Vorhersage

13. November 2025
Wenn die KI so „denkt“ wie wir
Krefeld

Wenn die KI so „denkt“ wie wir

13. November 2025
Vielfalt bis zu dreimal höher geschätzt
Krefeld

Vielfalt bis zu dreimal höher geschätzt

12. November 2025
Hochschule Mainz verleiht Stipendien an 82 Studierende
Krefeld

Hochschule Mainz verleiht Stipendien an 82 Studierende

12. November 2025

Beliebte News

  • Opfer von Jakub Jahl in Afrika

    Opfer von Jakub Jahl in Afrika

    0 shares
    Share 0 Tweet 0
  • Rotary Club Bochum-Hellweg engagiert sich fürs Deutschlandstipendium

    0 shares
    Share 0 Tweet 0
  • Rotary Club Bochum-Hellweg verleiht RUB-Universitätspreis für herausragende Abschlussarbeit an Nele Borgert

    0 shares
    Share 0 Tweet 0
  • Desk-Sharing Plattform aus Bonn erobert Deutschlands Coworking-Markt

    0 shares
    Share 0 Tweet 0
  • RFH Köln informiert über Bachelor Wirtschaftsinformatik

    0 shares
    Share 0 Tweet 0
  • Impressum
  • Datenschutz
  • Kontakt
© 2020 RuhrCampusOnline.de
Keine Suchergebnisse
Alle Suchergebnisse einsehen
  • Bochum
  • Bonn
  • Dortmund
  • Duisburg
  • Düsseldorf
  • Essen
  • Gelsenkirchen
  • Köln
  • Krefeld
  • Wuppertal

Cookie-Zustimmung verwalten
Wir verwenden Cookies, um unsere Website und unseren Service zu optimieren.
Funktional Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt. Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.
  • Optionen verwalten
  • Dienste verwalten
  • Verwalten von {vendor_count}-Lieferanten
  • Lese mehr über diese Zwecke
Einstellungen anzeigen
  • {title}
  • {title}
  • {title}