Ob für Werbung, zur Auswertung des Nutzungsverhaltens oder auch einfach um das Angebot zu optimieren: Unmengen von Diensten, Webseiten und Unternehmen sammeln unsere Daten, vom Alter, über das Lieblingsessen, bis zum Familienstatus. Um dafür die Zustimmung der Nutzer zu gewinnen, versprechen uns die Firmen, dass die Daten anonymisiert werden, uns also gar nicht mehr zugeordnet werden können. Eine aktuelle Studie zeigt nun: Das ist schlicht falsch. Selbst mit wenigsten Daten kann man in der Regel herausfinden, wer hinter den Daten steckt.

Die Erkennungsrate ist erschreckend: Zu 99,98 Prozent lassen sich US-Amerikaner eindeutig wieder identifizieren, wenn man Zugriff auf 15 grundlegende Daten zu der Person hat, so die Forscher des Imperial College in London in ihrer bei "Nature" erschienenen Studie. Und das, nachdem sämtliche direkt identifizierenden Daten wie der Name, die Adresse oder die E-Mail entfernt wurden. Selbst wenn nur Geschlecht, Postleitzahl und Geburtstag bekannt sind, lassen sich darüber durchschnittlich immer noch 83 Prozent der US-Bürger klar identifizieren.

Erschreckend genaue Zuordnung

Die Logik dahinter ist einfach. Je mehr Attribute man zu einer Person kennt, desto unwahrscheinlicher wird es, dass eine andere diese Kombination teilt. Im selben Land haben zwar Millionen Menschen am gleichen Tag Geburtstag. Zählt man davon aber nur die Frauen aus einem bestimmten Postleitzahlenbereich, sinkt die Zahl drastisch. Mit jedem Detail - Tierbesitzer, Mutter einer Tochter, Vegetarier - sinkt die Quote weiter. Bis man irgendwann trotz Anonymisierung wieder eindeutig erkennbar ist. "Während sich die Informationen häufen, sinken die Chancen, dass es sich nicht um Sie handelt, sehr schnell", zitiert "Technology Review" einen der Autoren der Studie.

Die Datenindustrie hat sich deshalb Methoden ausgedacht, um die Anonymität zu wahren. Daten werden weniger präzisiert - etwa allgemein ein Haustier statt des weiblichen Hundes vermerkt -, einzelne Teile der Datensätze werden für verschiedene Zwecke weggelassen, mit falschen Datenzusätzen soll ein "Rauschen" erzielt werden. Doch das alles nützt wenig, zeigt die Studie: Die Erkennungsrate blieb trotz sämtlicher Maßnahmen hoch. Die Schlussfolgerung der Forscher: Die Anonymisierungs-Maßnahmen reichen nicht aus, um der weitreichenden EU-Datenschutz-Richtlinie DSGVO zu entsprechen.

Gigantische Datenschätze

Im Alltag dürften den Diensten ohnehin oft deutlich mehr Informationen zu einem einzelnen Menschen zur Verfügung stehen. 2017 wurden etwa in einer gehandelten Datenbank Daten von 123 Millionen US-Bürgern mit jeweils 248 Attributen zum Kauf angeboten. Eine Verwechslung wird da fast unmöglich. In Deutschland gelang es Journalisten, in den gesammelten Browser-Verläufen von drei Millionen Deutschen zu stöbern, dabei wurden etwa Politiker und ihre Porno-Vorlieben zusammengeführt. Schuld war ausgerechnet ein beliebtes Browser-Plugin, das Daten schützen soll. Hier erfahren Sie mehr.

Ein Ansatz, diese Rückverfolgung der einzelnen Person aus eigentlich anonymen Daten zu verhindern, ist die "differentielle Privatsphäre". Hier werden nicht mehr die Daten einzelner Nutzer ausgewertet, sondern aus ihnen statistische Zusammenhänge ausgewertet, die dann statt der Rohdaten weiterverwendet werden. Apple versucht auf diese Weise etwa, seine eigenen Dienste wie die Sprachassistentin Siri zu verbessern, ohne gleich alles über die Nutzer wissen zu müssen. Auch die für nächstes Jahr anstehende US-Volkszählung soll so die Daten der Bürger schützen.