Neue Stanford-Methode PURGE löscht sensible Daten aus KI-Modellen ohne Performance-Verlust
Philipp LangeNeue Stanford-Methode PURGE löscht sensible Daten aus KI-Modellen ohne Performance-Verlust
Forscher der Stanford University haben eine neue Methode namens PURGE entwickelt, um sensible oder urheberrechtlich geschützte Daten aus großen Sprachmodellen (Large Language Models, LLMs) zu entfernen. Die Technik umgeht die Notwendigkeit eines vollständigen Neutrainings und adressiert damit wachsende Bedenken hinsichtlich Datenschutz und Einhaltung von Vorschriften wie der DSGVO und dem EU-KI-Gesetz. In einer 2024 veröffentlichten Studie von Gautam Pai und Kollegen wird sie als effizientere Methode vorgestellt, um gezielt unerwünschte Informationen zu löschen, ohne die Funktionalität des Modells zu beeinträchtigen.
PURGE funktioniert durch eine kontrollierte "Vergiftungs"-Technik während des Fine-Tunings. Dabei werden verbotene Konzepte über ein intrinsisches Belohnungssignal bestraft, sodass das "Verlernen" als messbare Aufgabe formuliert wird. Die Methode stützt sich auf das Group Relative Policy Optimization-Framework und stellt sicher, dass gezielte Daten unterdrückt werden, ohne die Gesamtleistung des Modells zu beeinträchtigen.
Die Studie belegt, dass PURGE eine 11-prozentige Wirksamkeit beim "Verlernen" im RWKU-Benchmark erreicht. Zudem bietet sie theoretische Garantien: Die Wahrscheinlichkeit für das Auftreten verbotener Tokens nimmt geometrisch ab, während die Nutzbarkeit des Modells hoch bleibt. Im Gegensatz zu älteren Methoden, die oft Datenlecks verursachen oder die Modellperformance verschlechtern, reduziert PURGE den Token-Verbrauch pro Ziel um bis zu 46 Mal im Vergleich zu bestehenden Techniken.
Neben der Effizienz verbessert die Methode auch die Ausgabequalität. Modelle, die mit PURGE trainiert wurden, zeigen eine 5,48-prozentige Steigerung der Flüssigkeit im Sprachausdruck sowie eine 12,02-prozentige höhere Widerstandsfähigkeit gegen adversariale Angriffe. Gleichzeitig behalten sie 98 Prozent ihrer ursprünglichen Nutzbarkeit bei, was den Ansatz sowohl praktisch als auch zuverlässig macht.
PURGE bietet eine überprüfbare Möglichkeit, unerwünschte Daten aus LLMs zu entfernen, ohne ein vollständiges Neutraining durchführen zu müssen. Die Kombination aus Effizienz, verbesserter Sprachqualität und Robustheit gegen Angriffe könnte Organisationen helfen, strengere Datenschutzbestimmungen einzuhalten. Durch messbare Ergebnisse und eine solide theoretische Fundierung stellt die Methode eine überzeugende Alternative zu bestehenden "Verlern"-Techniken dar.