Avez-vous un bon exercice physique ? Combien pesez-vous et quelle taille avez-vous ? Fumez-vous ? Souffrez-vous de maladies chroniques ? Ce genre d’informations sur la santé d’une personne sont des informations classiques dans tout questionnaire médical alors qu’elles font partie des données les plus sensibles, tout aussi comparables à la situation financière. Ce qui rend donc les exigences et prescriptions d’autant plus strictes du point de vue de la protection des données. Exemple : lorsqu’un CHU collecte des données sur le diabète ou sur le risque de cancer du poumon pour les fumeurs, la confidentialité des participants à l’étude doit être protégée de telle sorte qu’il soit impossible de retrouver la personne qui se cache derrière ces données. Sans anonymisation suffisante, ces données ne doivent même pas être transmises à d’autres groupes de recherche du même hôpital, alors que dire d’un éventuel échange scientifique fructueux par-delà les frontières ?
Pourquoi donc ne pas modifier ou laisser de côté les données qui permettent d’identifier la personne comme le domicile, le nom ou le sexe ? « Une telle anonymisation de données ne suffit pas dans bien des cas », selon Franziska Boenisch, experte en sécurité informatique au Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC – Institut de sécurité appliquée et intégrée). « C’est justement lorsque des données supplémentaires s’ajoutent à d’autres sources en fait indépendantes qu’il est possible de retrouver rapidement des personnes individuelles. Des publications dans des réseaux sociaux ou des articles de journaux suffisent déjà. »
« C’est justement lorsque des données supplémentaires s’ajoutent à d’autres sources en fait indépendantes qu’il est possible de retrouver rapidement des personnes individuelles. Des publications dans des réseaux sociaux ou des articles de journaux suffisent déjà. »
Franziska Boenisch, experte en informatique au Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC – Institut de sécurité appliquée et intégrée)
Ce qu’elle veut dire, l’exemple d’un grand fournisseur de site de streaming le montre. Afin d’améliorer l’algorithme de recommandation pour les films et séries, il a lancé un concours et a mis à disposition des spécialistes en informatique 500 000 enregistrements de vrais clients et clientes, sans données personnelles comme les noms et adresses. Des chercheurs de l’université du Texas ont pu toutefois affecter un grand nombre de ces données à des personnes existantes tout simplement en les comparant à des profils publics sur une plateforme connue d’évaluation de films. Une telle dénommée attaque contre la liaison est très désagréable dans le cas d’habitudes de consommation de films ; pour les autres informations personnelles, une telle attaque serait encore plus dangereuse : un traçage des données médicales jusqu’aux personnes réelles ne serait pas plus compliqué, mais les conséquences d’autant plus graves. Les rapports d’hôpitaux anonymisés pourraient être rapidement affectés à de vrais patients et de vraies patientes en passant par des articles de presse sur des maladies rares, des actions de collectes de dons pour personnes malades ou sur des accidents.
Le bruit mathématique empêche le traçage
Lorsque donc une simple anonymisation ne suffit pas, on a besoin d’autres méthodes. Un processus utilisé par de plus en plus d’entreprises et d’organisations est la confidentialité différentielle. Ce concept d’anonymisation convient principalement aux statistiques sur de grandes quantités de données. Pour le dire très simplement, il s’agit d’empêcher aléatoirement la requête d’enregistrements grâce à un bruit ciblé afin de rendre méconnaissable la contribution d’un individu à la statistique. Par exemple, une valeur aléatoire est additionnée à chaque point de données. « Malgré le bruit, il reste encore possible d’obtenir des connaissances utiles sur tout l’ensemble à partir des enregistrements et même de les publier. Mais il est bien plus difficile d’en tirer des informations personnelles sur des personnes en particulier », déclare Boenisch. Le concept de la confidentialité différentielle prévoit même le fait que l’absence ou la présence des données d’une personne en particulier ne doit exercer aucune influence sur le résultat des analyses statistiques effectuées.
Un grand avantage de cette méthode, explique Gonzalo Munilla Garrido, le développeur de logiciels qui étudie des technologies permettant d’améliorer la confidentialité à l’université technique de Munich : « Plusieurs paramètres déterminent le degré de protection de la confidentialité. » Par exemple la valeur epsilon qui permet de doser le bruit sur les données – en fonction de l’application. Alors qu’une petite valeur protège très bien la confidentialité, elle rend l’analyse de données plus difficile. Une grande valeur par contre divulgue plus d’informations.
Google utilise aussi la confidentialité différentielle dans diverses applications. Un exemple simple est l’indication du nombre moyen de visiteurs dans les installations publiques dans Google Maps et Google Search. C’est une aide pour les personnes qui souhaitent éviter les heures d’affluence pendant leurs courses ou au musée, surtout dans ces temps de pandémie. Il importe toutefois peu que pour cette fonction 999 ou 1000 personnes servent de base à ces données ; et personne n’a besoin d’informations sur ceux et celles qui se trouvent à ce moment dans le lieu en question. « L’identité de chaque personne dans l’enregistrement est protégée de la même manière lors de l’analyse, grâce à la protection différenciée des données, même lorsque d’autres sources d’information supplémentaires existent, qu’elles pourraient être utilisées ensemble par des agresseurs dans le but de découvrir l’identité des personnes », explique Garrido. La confidentialité différentielle est aussi utilisée pour les dénommés rapports de mobilité que Google met à disposition du public pour combattre la pandémie de Corona.
Ce ne sont pas seulement les grands groupes technologiques comme Google, Apple ou SAP, mais aussi par exemple le gouvernement des USA qui s’en sert pour protéger les données de son récent recensement de population. Elles doivent ainsi permettre des conclusions sur les structures d’âge ou sociales sans pour autant le permettre pour certains individus au sein d’une société.
« L’identité de chaque personne dans l’enregistrement est protégée de la même manière lors de l’analyse, grâce à la protection différenciée des données, même lorsque d’autres sources d’information supplémentaires existent, qu’elles pourraient être utilisées ensemble par des agresseurs dans le but de découvrir l’identité des personnes. »
Gonzalo Munilla Garrido, développeur de logiciel à l’université technique de Munich
Bibliothèque Open-Source pour les Start-ups et les acteurs dans la recherche
Google ne travaille pas uniquement pour ses propres besoins au développement de la confidentialité différentielle tout en l’utilisant. Dans le centre Google Safety Engineering Center (GSEC) de Munich, des chercheurs et chercheuses font en sorte que les éléments qui la composent soient accessibles gratuitement au public. Et à toutes les personnes dans la recherche, les organisations, entreprises et start-ups, Google a ouvert la bibliothèque Open-Source correspondante en 2019 leur permettant une utilisation parfois techniquement complexe de la Differential Privacy afin d’analyser et de protéger leurs données. « Les modèles d’entreprise qui peuvent se passer de nos jours de la collecte et de l’analyse de données se comptent sur les doigts de la main. Ce sont justement les start-ups que nous désirons aider, par des algorithmes d’accès libre, à utiliser les données en toute conscience de leur responsabilité et à protéger les informations personnelles », déclare Christoph Dibak qui travaille sur la bibliothèque de la Differential Privacy au GSEC. L’offre est également adressée aux personnes dans la recherche. Grâce aux outils en libre accès, elles peuvent suffisamment protéger leurs données d’étude pour pouvoir les publier plus tard, sans pour autant enfreindre à la protection des données.
Illustration: Ari Liloan; Photos: Ian Patterson (2), Florian Generotzky (3)