Das gezielte Rauschen
Wie viel bewegen Sie sich? Wie schwer und groß sind Sie? Rauchen Sie? Haben Sie chronische Erkrankungen? Solche Informationen über die eigene Gesundheit sind Klassiker auf jedem Ärztefragebogen und gehören doch zu den sensibelsten Daten überhaupt, vergleichbar höchstens mit dem Finanzstatus. Entsprechend hoch sind die Ansprüche und Vorgaben in Sachen Datenschutz. Ein Beispiel: Wenn ein forschendes Krankenhaus Daten zu Diabetes-Erkrankungen oder zum Lungenkrebsrisiko von Rauchern erhebt, muss die Privatsphäre der Studienteilnehmenden so gesichert sein, dass es nicht möglich ist, die Person hinter den Informationen auszumachen. Ohne ausreichende Anonymisierung dürfen die Daten nicht einmal an andere Forschungsgruppen im eigenen Haus weitergegeben werden, von einem wissenschaftlich fruchtbaren Austausch über Ländergrenzen hinweg ganz zu schweigen.
Doch warum werden nicht einfach persönlich identifizierbare Daten wie Wohnort, Name oder Geschlecht geändert oder weggelassen? »Eine solche Anonymisierung von Daten reicht in vielen Fällen nicht aus«, sagt Franziska Boenisch, IT-Security-Expertin am Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC). »Gerade wenn zusätzliche Daten aus anderen, eigentlich unabhängigen Quellen dazukommen, sind Rückschlüsse auf Einzelpersonen schnell möglich. Schon Social Media Posts oder Berichte aus Tageszeitungen reichen aus.«
Was sie meint, zeigt das Beispiel eines großen Videostreaming-Anbieters. Um den Empfehlungsalgorithmus für Serien und Filme zu verbessern, lobte er einen Wettbewerb aus und stellte den IT-Fachleuten 500 000 Datensätze echter Kundinnen und Kunden zur Verfügung, ohne persönliche Daten wie Name oder Adresse. Forschende der Universität Texas konnten trotzdem eine große Zahl der Daten tatsächlichen Personen zuordnen, und zwar nur durch den Vergleich mit öffentlichen Profilen bei einer bekannten Filmbewertungsplattform. Bei Sehgewohnheiten ist ein derartiger sogenannter Verknüpfungsangriff schon sehr unerfreulich; bei anderen persönlichen Informationen wäre er noch gefährlicher: Eine Rückverfolgung von medizinischen Daten zu realen Personen wäre nicht viel komplizierter, die Folgen umso gravierender. Anonymisierte Krankenhausberichte könnten sich durch Medienberichte über seltene Krankheiten, Spendenaktionen für kranke Menschen oder Unfälle schnell echten Patientinnen und Patienten zuordnen lassen.
Gerade wenn zusätzliche Daten aus anderen, eigentlich unabhängigen Quellen dazukommen, sind Rückschlüsse auf Einzelpersonen schnell möglich. Schon Social Media Posts oder Berichte aus Tageszeitungen reichen aus
Franziska Boenisch, IT-Security-Expertin am Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC)
Mathematisches Rauschen verhindert die Rückverfolgung
Wenn also eine naive Anonymisierung nicht ausreicht, müssen neue Methoden her. Ein Verfahren, das immer mehr Unternehmen und Organisationen nutzen, ist Differential Privacy. Dieses Anonymisierungskonzept eignet sich vorrangig für Statistiken über große Datenmengen. Sehr einfach ausgedrückt geht es darum, die Abfrage der Datensätze mit einem gezielten Rauschen zufällig zu verändern, um den Beitrag eines einzelnen Individuums zur Statistik unkenntlich zu machen. Zum Beispiel wird zu jedem Datenpunkt ein zufälliger Wert addiert. »Trotz des Rauschens können aus den Datensätzen weiterhin nützliche Erkenntnisse über die Gesamtheit gewonnen und sogar veröffentlicht werden. Es lassen sich daraus viel schwerer persönliche Informationen über einzelne Personen ableiten«, erklärt Boenisch. Das Konzept der Differential Privacy sehe sogar vor, dass das Fehlen oder Vorhandensein der Daten einer einzelnen Person keinen Einfluss auf das Ergebnis der durchgeführten statistischen Auswertung haben darf.
Einen großen Vorteil der Methode erklärt Gonzalo Munilla Garrido, der Softwareentwickler beschäftigt sich an der Technischen Universität in München mit Technologien zur Verbesserung der Privatsphäre: »Mehrere Parameter legen fest, wie streng der Schutz der Privatsphäre ist.« Ein Beispiel dafür ist der Wert Epsilon, mit ihm lässt sich das Rauschen über den Daten dosieren – je nach Anwendung. Ein kleiner Wert schützt zwar die Privatsphäre sehr gut, macht die Datenanalyse aber schwieriger. Ein großer Wert gibt dagegen mehr Informationen preis.
Auch Google nutzt Differential Privacy in verschiedenen Anwendungen. Ein simples Beispiel ist die Angabe über den durchschnittlichen Besucherandrang in öffentlichen Einrichtungen in Google Maps und der Google Suche. Das hilft Menschen, gerade in Zeiten einer Pandemie, Stoßzeiten beim Einkaufen oder im Museum zu meiden. Ob für diese Funktion jedoch 999 Personen als Datengrundlage dienen oder 1000 ist nicht relevant, und auch über die Personen, die gerade vor Ort sind, braucht es keine Informationen. »Die Identität jeder einzelnen Person im Datensatz ist bei einer Analyse dank des differenzierten Datenschutzes gleichermaßen geschützt, selbst wenn es andere zusätzliche Informationsquellen gibt, die Angreifer gemeinsam nutzen könnten, um die Identität der Personen aufzudecken«, sagt Garrido. Auch für die sogenannten Mobilitätsberichte, die Google im Kampf gegen die Corona-Pandemie öffentlich bereitstellt, wird Differential Privacy genutzt.
Die Identität jeder einzelnen Person im Datensatz ist bei einer Analyse dank des differenzierten Datenschutzes gleichermaßen geschützt, selbst wenn es andere zusätzliche Informationsquellen gibt, die Angreifer gemeinsam nutzen könnten, um die Identität der Personen aufzudecken
Gonzalo Munilla Garrido, Softwareentwickler TU München
Neben Tech-Konzernen wie Google, Apple oder SAP schützt beispielsweise auch die US-Regierung die Daten aus ihrer aktuellen Volkszählung damit. So sollen sie zwar Erkenntnisse über Alters- oder Sozialstrukturen zulassen, aber nicht über bestimmte Individuen innerhalb einer Gesellschaft. Auch in Deutschland laufen zahlreiche Differential-Privacy-Testläufe. Beim Projekt »WerteRadar« etwa kooperieren unter anderem die Berliner Charité, das Fraunhofer AISEC, die Freie Universität Berlin und die Fernuni Hagen. Ziel ist es, eine interaktive Software zu entwickeln, die Patient:innen dabei hilft, über die Weitergabe ihrer Gesundheitsdaten souveräner zu entscheiden. Zur Anonymisierung von Gesundheitsdaten wird dabei auch Differential Privacy genutzt.
Open-Source-Bibliothek für Start-ups und Forschende
Google arbeitet nicht nur für eigene Zwecke an und mit Differential Privacy. Am Google Safety Engineering Center (GSEC) in München sorgen Entwickler:innen dafür, dass die Bausteine dafür öffentlich und kostenlos zugänglich sind. Um allen Forschenden, Organisationen, Unternehmen und Start-ups die technisch mitunter komplexe Nutzung von Differential Privacy zur Auswertung und Sicherung ihrer Daten zu ermöglichen, hat Google 2019 die entsprechende Open-Source-Bibliothek veröffentlicht. »Kaum ein Geschäftsmodell kommt heute ohne die Erhebung und Analyse von Daten aus. Gerade Start-ups wollen wir deshalb durch freie Algorithmen dabei unterstützen, Daten verantwortungsbewusst zu nutzen und personenbezogene Informationen zu schützen«, erklärt Christoph Dibak, der im GSEC an der Differential-Privacy-Bibliothek arbeitet. Auch an Forschende richtet sich das Angebot. Sie können mit den freien Werkzeugen ihre Studiendaten so absichern, dass sie später veröffentlicht werden können, ohne den Datenschutz zu verletzen.
Illustration: Ari Liloan; Fotos: Ian Patterson, Florian Generotzky