Quanto si muove? Quanto pesa e quanto è alto/a? Fuma? Ha malattie croniche? Tali informazioni sulla propria salute sono classiche su ogni questionario medico e tuttavia rientrano tra i dati più sensibili in assoluto, paragonabili al massimo con lo stato finanziario. Le pretese e le direttive in materia di protezione dei dati sono adeguatamente elevate. Un esempio: se una clinica di ricerca raccoglie dati sulle malattie legate al diabete o sul rischio di cancro al polmone per i fumatori, la privacy dei partecipanti allo studio deve essere assicurata in modo tale che non sia possibile identificare la persona a cui appartengono le informazioni. Senza una sufficiente anonimizzazione, i dati non possono nemmeno essere trasferiti ad altri gruppi di ricerca nella propria sede, per non parlare di uno scambio scientifico fruttuoso al di là dei confini nazionali.
Ma perché i dati personali identificabili come luogo di residenza, nome e sesso non vengono semplicemente modificati o rimossi? “In molti casi un’anonimizzazione dei dati di questo tipo non basta”, dice Franziska Boenisch, esperta della sicurezza informatica presso l’istituto Fraunhofer per la sicurezza applicata e integrata (AISEC). “Soprattutto quando vengono aggiunti ulteriori dati da altre fonti, originariamente indipendenti, è possibile trarre rapidamente conclusioni sulle singole persone. Sono sufficienti dei post sui social media o rapporti sui giornali.”
“Soprattutto quando vengono aggiunti ulteriori dati da altre fonti, originariamente indipendenti, è possibile trarre rapidamente conclusioni sulle singole persone. Sono sufficienti dei post sui social media o rapporti sui giornali.”
Franziska Boenisch, esperta della sicurezza informatica presso l’istituto Fraunhofer per la sicurezza applicata e integrata (AISEC)
Ciò che intende, lo dimostra l’esempio di un grosso fornitore di streaming video. Per migliorare l’algoritmo di suggerimento per serie e film, esso ha lanciato un concorso e ha messo a disposizione degli esperti informatici 500.000 record di clienti reali, senza dati personali come nome o indirizzo. Ciò nonostante, i ricercatori dell’università del Texas sono riusciti a collegare un gran numero dei dati a persone reali, e questo soltanto tramite il confronto con i profili pubblici su una famosa piattaforma di valutazione dei film. Un cosiddetto attacco di collegamento di questo genere è già molto spiacevole nel caso delle abitudini; per altre informazioni personali, sarebbe ancora più pericoloso: la riconducibilità dei dati medici a persone reali non sarebbe molto più complicata, ma le conseguenze sarebbero molto più gravi. Le relazioni ospedaliere anonimizzate potrebbero essere rapidamente associate a pazienti reali tramite notizie su malattie rare, raccolte fondi per ammalati o incidenti.
Il rumore matematico evita la rintracciabilità
Se un’anonimizzazione ingenua non basta, ci vogliono metodi nuovi. Una procedura sempre più utilizzata da aziende ed organizzazioni è la privacy differenziale. Questo approccio di anonimizzazione è adatto innanzitutto per le statistiche su grandi quantità di dati. In parole molto semplici, lo scopo è quello di modificare casualmente la consultazione dei record con l’aiuto di un rumore mirato, per mascherare il contributo di un singolo individuo alla statistica. Ad esempio, ad ogni punto di dati viene aggiunto un valore casuale. “Nonostante il rumore, dai record è ancora possibile trarre, e perfino pubblicare, conoscenze utili sulla totalità. È molto più difficile ricavarne informazioni personali su singole persone”, spiega Boenisch. L’approccio della privacy differenziale prevede perfino che la mancanza o la presenza dei dati di una singola persona non debba avere alcuna influenza sul risultato dell’analisi statistica effettuata.
Un grosso vantaggio del metodo è spiegato da Gonzalo Munilla Garrido, che si occupa di tecnologie per migliorare la privacy presso l’Università Tecnica di Monaco: “Esistono più parametri che determinano quanto sia rigorosa la protezione della privacy.” Un esempio al riguardo è il valore epsilon, con cui è possibile dosare il rumore sui dati – a seconda dell’applicazione. Un valore piccolo è in grado di proteggere bene la privacy, ma rende più difficile l’analisi dei dati. Un valore grande, invece, svela più informazioni.
Anche Google utilizza la privacy differenziale in diverse applicazioni. Un esempio semplice è l’indicazione sul flusso di visitatori medio di strutture pubbliche su Google Maps e nella ricerca di Google. Questo aiuta la gente ad evitare, soprattutto in tempo di pandemia, gli orari di punta nei supermercati e nei musei. Ma per questa funzione non è rilevante se la base di dati sia costituita da 999 o da 1000 persone, né servono informazioni sulle persone che attualmente si trovano sul posto. “L’identità di ogni singola persona nel record, in caso di analisi, è protetta allo stesso modo grazie ad una protezione dei dati differenziata, anche se ci sono ulteriori fonti di informazioni che gli aggressori potrebbero usare contestualmente per rilevare l’identità delle persone”, dice Garrido. Anche per i cosiddetti rapporti di mobilità che Google pubblica nella lotta contro la pandemia di COVID-19 viene utilizzata la privacy differenziale.
Oltre a gruppi tecnologici come Google, Apple o SAP, ad esempio, anche il governo americano protegge i dati del censimento attuale con questo metodo. Così dovrebbero essere consentite le informazioni su strutture demografiche e sociali, ma non su specifici individui all’interno di una società.
“L’identità di ogni singola persona nel record, in caso di analisi, è protetta allo stesso modo grazie ad una protezione dei dati differenziata, anche se ci sono ulteriori fonti di informazioni che gli aggressori potrebbero usare contestualmente per rilevare l’identità delle persone.”
Gonzalo Munilla Garrido, sviluppatore di software presso l’Università Tecnica di Monaco
Libreria open source per start-up e ricercatori
Google non lavora solo per proprio conto alla e con la privacy differenziale. Al Google Safety Engineering Center (GSEC) di Monaco, gli sviluppatori assicurano che i rispettivi moduli siano accessibili pubblicamente e senza costi. Per rendere possibile l’utilizzo della privacy differenziale, talvolta tecnicamente complesso, a tutti i ricercatori, le organizzazioni, le aziende e le start-up per l’analisi e la conservazione dei dati, nel 2019 Google ha pubblicato la relativa libreria open source. “Oggi quasi nessun modello commerciale può fare a meno di una raccolta e analisi di dati. Per questo, con gli algoritmi liberi, vorremmo supportare soprattutto le start-up nell’utilizzo responsabile dei dati e nella protezione dei dati personali”, spiega Christoph Dibak, che al GSEC lavora alla libreria della privacy differenziale. Ma l’offerta è rivolta anche ai ricercatori. Con gli strumenti liberi, essi possono salvare i loro dati di ricerca in modo tale che, più tardi, questi possano essere pubblicati senza violare la protezione dei dati.
Illustrazione: Ari Liloan; Fotos: Ian Patterson (2), Florian Generotzky (2)