31 January 2026, 00:23

Neue Stanford-Methode PURGE löscht sensible Daten aus KI-Modellen ohne Performance-Verlust

Eine Gruppe von Menschen sitzt um einen Tisch mit Laptops und Büchern, mit Bücherregalen, einem Banner, einem Bildschirm und einer Wand im Hintergrund, die an einer Wikimedians von Kamerun-Schulung teilnehmen.

Neue Stanford-Methode PURGE löscht sensible Daten aus KI-Modellen ohne Performance-Verlust

Forscher der Stanford University haben eine neue Methode namens PURGE entwickelt, um sensible oder urheberrechtlich geschützte Daten aus großen Sprachmodellen (Large Language Models, LLMs) zu entfernen. Die Technik umgeht die Notwendigkeit eines vollständigen Neutrainings und adressiert damit wachsende Bedenken hinsichtlich Datenschutz und Einhaltung von Vorschriften wie der DSGVO und dem EU-KI-Gesetz. In einer 2024 veröffentlichten Studie von Gautam Pai und Kollegen wird sie als effizientere Methode vorgestellt, um gezielt unerwünschte Informationen zu löschen, ohne die Funktionalität des Modells zu beeinträchtigen.

PURGE funktioniert durch eine kontrollierte "Vergiftungs"-Technik während des Fine-Tunings. Dabei werden verbotene Konzepte über ein intrinsisches Belohnungssignal bestraft, sodass das "Verlernen" als messbare Aufgabe formuliert wird. Die Methode stützt sich auf das Group Relative Policy Optimization-Framework und stellt sicher, dass gezielte Daten unterdrückt werden, ohne die Gesamtleistung des Modells zu beeinträchtigen.

Cashback bei deinen
Lieblingsrestaurants und Services

Kaufe Gutscheine und spare in deinen Lieblingsorten in deiner Nähe

Die Studie belegt, dass PURGE eine 11-prozentige Wirksamkeit beim "Verlernen" im RWKU-Benchmark erreicht. Zudem bietet sie theoretische Garantien: Die Wahrscheinlichkeit für das Auftreten verbotener Tokens nimmt geometrisch ab, während die Nutzbarkeit des Modells hoch bleibt. Im Gegensatz zu älteren Methoden, die oft Datenlecks verursachen oder die Modellperformance verschlechtern, reduziert PURGE den Token-Verbrauch pro Ziel um bis zu 46 Mal im Vergleich zu bestehenden Techniken.

Neben der Effizienz verbessert die Methode auch die Ausgabequalität. Modelle, die mit PURGE trainiert wurden, zeigen eine 5,48-prozentige Steigerung der Flüssigkeit im Sprachausdruck sowie eine 12,02-prozentige höhere Widerstandsfähigkeit gegen adversariale Angriffe. Gleichzeitig behalten sie 98 Prozent ihrer ursprünglichen Nutzbarkeit bei, was den Ansatz sowohl praktisch als auch zuverlässig macht.

PURGE bietet eine überprüfbare Möglichkeit, unerwünschte Daten aus LLMs zu entfernen, ohne ein vollständiges Neutraining durchführen zu müssen. Die Kombination aus Effizienz, verbesserter Sprachqualität und Robustheit gegen Angriffe könnte Organisationen helfen, strengere Datenschutzbestimmungen einzuhalten. Durch messbare Ergebnisse und eine solide theoretische Fundierung stellt die Methode eine überzeugende Alternative zu bestehenden "Verlern"-Techniken dar.

Apotheker kämpft monatelang um gültige elektronische Gesundheitsberufskarte

Eine verlorene Karte, falsche Adressen, leere Versprechen: Warum ein Apotheker seit Monaten ohne gültige eHBA dasteht. Die Bürokratie zeigt ihre Schwächen.

Ein Mann in einem schwarzen Kleid und einem blauen Helm bedient einen gelben Gabelstapler in einem Lagerhaus, mit Kartons zu seiner Linken und industriellen Elementen wie Rohren und Lampen im Hintergrund.

Stapler-Cup 2019: Tausende Fahrer kämpfen um Titel und gute Zwecke

Von Hindernisparcours bis zur Weltmeisterschaft: Beim Stapler-Cup 2019 geht es um Präzision, Teamgeist und Spenden für mehr Sicherheit. Wer holt sich den Titel?

Essen Sie in Ihren
Lieblingsrestaurants
günstiger

Exklusive Gutscheine für Abendessen, Frühstück und Kaffee

Frau mit LiberSave App auf dem Smartphone

Neue Stanford-Methode PURGE löscht sensible Daten aus KI-Modellen ohne Performance-Verlust