Anonymisierung verspricht Unsichtbarkeit, liefert aber nur eine Papiermaske – leicht abziehbar von denselben Systemen, die vorgeben, sie zu schützen.

Christina Maas

Ein bekanntes Sprichwort passt zum Moment: „Hüte dich vor Technik, die Geschenke bringt.“ Wenn Datensammler von Anonymisierung sprechen, meinen sie selten echten Schutz.

Der Begriff klingt klinisch und eindeutig. In der Praxis dient er oft eher als juristischer Deckmantel denn als tatsächliche Sicherheitsmaßnahme. Er signalisiert den Nutzern, sie müssten sich keine Sorgen machen – während das System genau so weiterläuft, wie es gedacht ist.

Anonymisierung wird als Endpunkt behandelt. Sobald Daten als anonym markiert sind, endet die Prüfung. Regulierungsbehörden verweisen auf Anonymisierung als Erfolg. Plattformen sehen darin den Beweis für Verantwortung.

Unterdessen haben die Unternehmen, die Werkzeuge zur Reidentifizierung entwickeln, keinerlei Illusionen über deren Dauerhaftigkeit.

Start-ups entstehen mit dem ausdrücklichen Ziel, genau die Schutzmaßnahmen zu durchbrechen, die Datenschutzgesetze angeblich bieten.

Diese Akteure operieren nicht im Verborgenen. Sie verbergen ihre Fähigkeiten nicht. Manche werben offen damit, Namen, Adressen und Berufsbezeichnungen mit Daten zu verknüpfen, die angeblich anonymisiert wurden.

Wann immer ein neuer Datenschutzskandal auftaucht, dient anonymisierte Datenverarbeitung als Verteidigung. Der Begriff wird verwendet, um Öffentlichkeit, Presse und Politik zu beruhigen.

Das Versprechen lautet: Sobald persönliche Kennzeichen entfernt sind, ist die Gefahr neutralisiert. Doch Gesundheitsakten, Finanztransaktionen und Browserverläufe sind keine neutralen Daten – sie sind zutiefst persönlich. Anonymisierung ist ein Platzhalter für Sicherheit, nicht deren Realität.

Unternehmen und Institutionen beschreiben anonymisierte Daten als unauffindbar – direkt wie indirekt.

Der durchschnittliche Nutzer soll dies ungeprüft hinnehmen. Fragen nach dem Verfahren, seiner Belastbarkeit oder der Definition von Reidentifizierung tauchen selten auf.

Technisch gesehen existiert Anonymisierung. Es gibt reale Methoden zum Entfernen von Identifikatoren, Techniken und Protokolle.

Doch die Belege zeigen, dass selbst korrekt anonymisierte Datensätze rückführbar, abgleichbar und mit anderen Aufzeichnungen verknüpfbar sind – bis die betroffene Person wieder sichtbar wird.

Forscher sagen, dass dieselben Daten, die als sicher gelten, mit öffentlich verfügbaren Datensätzen und einfachen Korrelationstools reidentifiziert werden können. Das gilt nicht als exotische Fähigkeit – sie wird längst im großen Maßstab angewendet.

Anonymisierung soll personenbezogene Informationen eliminieren.

Das Konzept beruht auf der Annahme, dass Daten – sobald von Identifikatoren befreit – gefahrlos geteilt oder verkauft werden können. Diese Logik stützt die Rechtfertigung sowohl kommerzieller als auch staatlicher Datensammlungen.

Reidentifizierung stellt dieses Fundament infrage. Mit Zugriff auf öffentliche Daten und kommerziell verfügbare Identifikatoren können viele ursprünglich anonymisierte Datensätze wieder einzelnen Personen zugeordnet werden.

Internetaktivitäten, Gesundheitsakten, Reiseverläufe und Finanzprofile lassen sich triangulieren – ohne Hacking oder Insiderwissen.

Im Jahr 2019 – als die Datenschutz-Grundverordnung (DSGVO) der EU für ihre strengen Formulierungen bekannt wurde – testeten Forscher des Imperial College London und der Université Catholique de Louvain, ob deren Anonymisierungsstandards halten. Ihr Ergebnis: Sie tun es nicht.

Mit einem DSGVO-konformen Datensatz konnten sie 99,98 % der Personen durch Kombination von nur 15 demografischen Attributen reidentifizieren. Diese Merkmale waren einzeln nicht sensibel – die Gefahr entstand durch Querverweise. Die Illusion der Anonymität zerbrach unter dem Gewicht des Kontexts.

Im selben Jahr stellte ein weiterer Fall die Praxis der Anonymisierung infrage: Der britische National Health Service übergab Google DeepMind biometrische Augenscans – angeblich zu Forschungszwecken.

Die Daten waren als anonymisiert gekennzeichnet und wurden ohne ausdrückliche Zustimmung der Patienten geteilt – als garantiere das Label allein Sicherheit.

Während der Ausarbeitung der DSGVO vermieden EU-Beamte den Begriff „Reidentifizierung“ und führten stattdessen „Pseudonymisierung“ ein – eine Wortwahl, die es ermöglichte, die eigenen Grenzen anzuerkennen, ohne zu viel zuzugeben. Die Terminologie schuf Spielraum, löste aber das Kernproblem nicht.

Kaliforniens Datenschutzgesetz CCPA folgte einem ähnlichen Ansatz. Viele Bestimmungen basierten auf der DSGVO, einschließlich der Definitionen zu Anonymisierung und De-Identifizierung. Doch dieselbe Wortwahl löst nicht dieselbe Schwäche. Wenn die Definition fehlerhaft ist, ist es auch das Gesetz.

Das Gesetz wurde verabschiedet, die Begriffe kodifiziert, Jahre sind vergangen – hat sich etwas geändert?

In Kansas liefert ein Start-up eine mögliche Antwort.

Das Reidentifizierungsgeschäft

Stealth Data LLC, gegründet 2020 in Kansas, vermarktet sich als Datenanalyseunternehmen.

Lokale Medien berichten, es biete Tools an, die bis zu 50 % des sogenannten anonymen Website-Traffics identifizieren können – einschließlich Namen, Telefonnummern, E-Mails, physischer Adressen, Berufsbezeichnungen, Arbeitgebern, Einkommensstufen, Altersgruppen und Social-Media-Profilen.

Das Unternehmen behauptet, vollständige Besucherprofile aus Browser-Signalen und Verhaltensmustern erstellen zu können. Dieselbe Browsersitzung, die Plattformen als anonym deklarieren, kann verwendet werden, um hochspezifische persönliche Informationen zu erschließen.

Das ist kein Hack – es ist ein legales Geschäftsmodell.

Das Unternehmen beschreibt seine Fähigkeiten offen. Die Daten werden durch normale Webinteraktionen gesammelt, die Ergebnisse an Kunden verkauft, die Einblick in Website-Traffic und Nutzerverhalten wünschen.

Kansas hat dieses Modell nicht verboten. Andere Bundesstaaten auch nicht. Die Infrastruktur für Reidentifizierung existiert – und niemand versucht ernsthaft, sie zu stoppen.

Datenschutzgesetze preisen anonymisierte Daten weiterhin als Schutzinstrument an, während Datenfirmen parallel Systeme entwickeln, die Anonymisierung rückgängig machen.

Beide Realitäten existieren – doch nur eine steht in den Datenschutzerklärungen.

Im Jahr 2000 kaufte Latanya Sweeney zwei Disketten in Cambridge, Massachusetts, mit Wählerregistern – für zwanzig Dollar. Darin: Namen, Adressen, Postleitzahlen, Geburtsdaten und Geschlechter.

Mit diesen Angaben stellte sie die Frage: Wie viele Amerikaner lassen sich durch Postleitzahl, Geburtsdatum und Geschlecht eindeutig identifizieren?

Das Ergebnis: 87 %, rund 216 Millionen Menschen.

Bundes- und Landesbehörden veröffentlichten medizinische Daten ohne Namen oder Telefonnummern und nannten sie anonym.

Sweeney zeigte, dass Anonymität verschwindet, sobald diese drei Felder kombiniert werden. Eine Postleitzahl reduzierte die Menge auf einige Tausend, das Geschlecht weiter, das Geburtsdatum auf eine einzelne Person.

In manchen Postleitzahlengebieten reichten demografische Angaben allein zur Identifizierung. Wählerlisten kombiniert mit öffentlichen Daten konnten medizinische Informationen bestimmten Personen zuordnen.

Regulierer und Big Tech behandelten Anonymität als Frage des Entfernens offensichtlicher Identifikatoren. Sobald Namen gelöscht waren, galt der Datensatz als sicher – eine Annahme, die zusammenbrach, sobald öffentliche Register verknüpft wurden.

Quasi-Identifikatoren, also indirekte Merkmale, erwiesen sich als präziser als gedacht. Sie funktionierten als zuverlässige Marker. Sweeney nutzte sie, um zu zeigen, wie leicht Identität wiederhergestellt werden konnte.

Postleitzahldaten identifizierten die meisten Amerikaner. Kreisbezogene Informationen deckten kleinere, aber bedeutende Gruppen ab. Kombinierte Datensätze eliminierten jede Anonymität.

Abgleich von Datensätzen

Sweeney kombinierte Wählerregister und Krankenhausdaten aus derselben Stadt. Die Krankenhausdaten enthielten Diagnosen, Postleitzahl, Geschlecht und Geburtsdatum. Die Wählerlisten enthielten Namen und dieselben Merkmale.

Der Abgleich von Geburtsdatum, Geschlecht und Postleitzahl ergab eine direkte Verbindung zwischen Identität und Diagnose. Die Daten sollten anonym sein, dienten aber als Identifikatoren.

Das Material stammte aus offiziellen Quellen und war legal käuflich.

Im Jahr 2000 sammelten 44 US-Bundesstaaten Krankenhausdaten. Viele gaben sie an Forscher, Berater und Unternehmen weiter.

Das Illinois Health Care Cost Containment Council verlangte vollständige Geburtsdaten, 5-stellige Postleitzahlen und Geschlecht – dieselben Felder, die später in aggregierter Form veröffentlicht wurden. Diese Kombinationen reichten zur Identifizierung in vielen Gebieten.

Die Agency for Healthcare Research and Quality (AHRQ) sammelte ähnliche Daten über die „State Inpatient Database“.

Einige Staaten entfernten exakte Geburtsdaten, andere beließen Monat und Jahr. Die Datensätze enthielten Aufnahmedaten, Diagnosen und Krankenhausangaben. Die Verschlüsselungsstandards variierten stark.

Vor der Veröffentlichung fand keine systematische Überprüfung der Anonymität statt.

Das Generalisierte Schubfachprinzip beschreibt, was passiert, wenn die Zahl der möglichen Attributkombinationen die Bevölkerungszahl übersteigt – dann gehören einige Kombinationen nur einer Person.

Sweeney berechnete, wie Bevölkerungsgröße und Attributtiefe zusammenwirken. In den meisten US-Postleitzahlengebieten lebten zu wenige Menschen in jeder Altersgruppe, um Anonymität zu gewährleisten.

In einem Gebiet mit über 112 000 Einwohnern ließ sich dennoch die Identität Einzelner bestimmen. In einem anderen mit rund 5 400 Einwohnern konzentrierten sich so viele in einer Altersgruppe, dass Eindeutigkeit die Regel war.

Anonymisierung scheiterte als statistische Eigenschaft der Daten – nicht durch Missbrauch.

Krankenhäuser und Behörden gingen davon aus, dass ihre Daten nicht mit anderen Quellen verknüpft würden. Öffentliche Datensätze widerlegten diese Annahme. Das Kombinieren einfacher demografischer Daten machte Identitäten sichtbar.

Das Entfernen von Namen und Telefonnummern bot keinen echten Schutz, wenn andere Felder dieselbe Funktion erfüllten. Sweeneys Ergebnisse zeigten, dass dies vorhersehbar war.

Öffentliche Sicherheitszusagen stützten sich auf ungetestete Annahmen darüber, wie Daten verwendet werden könnten.

Sweeneys Arbeit ist fünfundzwanzig Jahre alt – und die Muster sind geblieben. Gesundheits-, Standort- und Verbraucherdaten werden weiterhin mit minimaler Aufsicht und vagen Zusicherungen von Privatsphäre verbreitet.