Les cookies, on connaît. Mais qu’en est-il du browser fingerprinting, cette méthode de traçage invisible et méconnue ?
Lorsque la mort des cookies a été quasiment déclarée, à coups de lois et de régulations, il a bien fallu que les annonceurs trouvent d’autres méthodes pour pouvoir continuer à suivre les activités des utilisateurs à des fins de publicité ciblée. L’une de leurs méthodes, qui existe en réalité depuis des années, est le fingerprinting. Explications.
Les cookies, des outils imparfaits pour le traçage
Ce que l’on appelle « cookies » dans le web sont une petite quantité de données échangées entre un serveur et un client (ordinateur, smartphone, tablette). Par exemple, lorsque vous visitez un site, il peut détecter que c’est votre première visite et décider de créer à cette occasion un cookie, qui contient un identifiant unique, à stocker dans le navigateur. De cette manière, il indique au navigateur de lui renvoyer le cookie nouvellement créé lors de chaque nouvelle requête, ce qui lui permet de déterminer que chaque nouvelle demande de visite d’une page du site provient du même appareil.
Dès 1994, les cookies étaient utilisés sur Internet pour stocker des informations. La première utilisation servait par exemple à vérifier si les visiteurs du site de Netscape avaient déjà vu le site ou non. Et les cookies sont des outils utiles : sans eux, chaque visite d’une nouvelle page d’un site web pourrait être totalement déconnectée de la précédente. Ils permettent d’introduire ce qu’on appelle un état. Même si d’autres méthodes de stockage d’informations existent et sont parfois plus utilisées aujourd’hui, les cookies pouvaient par exemple servir à retenir l’existence d’un panier d’achat ou le fait que le visiteur préfère afficher la version sombre d’un site.
Ainsi, lorsque vous changez de page sur un site ou que vous y revenez plus tard, ces préférences sont retenues et l’état du site n’est pas réinitialisé lors de chaque clic sur un lien interne : vous avez toujours votre panier et le site en mode sombre. Ces cookies sont considérés comme « internes » au site.
La mauvaise réputation des cookies provient de leur utilisation par des tierces parties pour suivre la navigation d’un utilisateur sur différents sites. Là aussi, certains sont utiles : la Cnil cite entre autres les cookies utiles pour de l’authentification fédérée, c’est-à-dire le fait d’utiliser un même compte pour se connecter à plusieurs sites (on pense à France Connect). Généralement, ils ne sont pas là pour apporter une nouvelle fonctionnalité à l’utilisateur, mais pour récupérer des informations. Par exemple, il est possible pour un annonceur de placer une image de publicité ou un pixel espion sur plusieurs sites et, à l’aide d’un cookie, de pouvoir ainsi pister les utilisateurs sur ces différents sites.
Mais les cookies sont une technologie imparfaite. Par défaut, ils expirent à la fin de la session, lorsque le navigateur est fermé. Il est tout de même possible de leur mettre une date d’expiration, pour contrôler leur suppression. Si celle-ci est dans plusieurs années, le cookie devient quasi persistant. Cependant, il est toujours possible pour les navigateurs ou les utilisateurs de les supprimer manuellement. Le pistage ne fonctionne alors plus. De plus, différents pays ont introduit des lois concernant leur utilisation et l’obligation d’obtenir le consentement des visiteurs. En bref, l’utilisation des cookies se meurt. Mais il existe depuis plusieurs années d’autres méthodes bien plus précises pour le pistage.
Le fingerprinting, la solution des traqueurs ?
Entre en jeu ce que l’on appelle le browser fingerprinting. Le principe est simple : lorsque vous naviguez sur Internet, vous le faites à l’aide d’un appareil particulier, sur lequel est installé un navigateur particulier, qui contient lui aussi des paramètres et des extensions de navigateur particulières.
En réunissant toutes ces informations et d’autres encore plus spécifiques comme les polices d’écriture installées, la langue, le matériel utilisé, la résolution de l’écran et de nombreuses autres, il devient possible d’établir un profil permettant de vous identifier. Dès 2010, Peter Eckersley a montré grâce à son site Panopticlick que les différences entre les navigateurs, les extensions et les systèmes étaient assez importantes pour permettre d’identifier de façon unique les utilisateurs grâce à ces informations et suivre leurs activités en ligne.
Impossible donc pour l’utilisateur de contrôler les données qui ont été récupérées ou d’empêcher qui que ce soit d’y accéder.
Comme pour les cookies, toutes ces informations n’avaient pas pour but d’être utilisées à des fins néfastes. Depuis les débuts d’Internet, il existe des différences parfois significatives entre les navigateurs. Il était donc nécessaire de savoir quel navigateur était utilisé par un utilisateur pour pouvoir lui afficher une version du site web compatible. Entre temps, les usages se sont étendus et, si les navigateurs ont essayé au maximum d’établir des fondations communes pour faciliter le travail des développeurs, on peut désormais naviguer sur Internet à partir de nombreux appareils pour lesquels il est nécessaire d’avoir une version optimisée d’un même site. Il était donc essentiel de donner aux sites de plus en plus d’informations afin que l’expérience soit optimale.
Évidemment, cette masse d’informations n’est pas passée inaperçue auprès des annonceurs, d’autant plus qu’elle promettait d’être une bonne alternative aux cookies. Et pouvoir établir une empreinte digitale numérique pour l’identification a plusieurs avantages par rapport aux cookies.
Déjà, les informations peuvent être récupérées à l’insu de l’utilisateur et parfois même du site sur lequel le traqueur est présent. Pas de problème de bannière de cookies ici, il suffit de se servir, vu que la pratique est encore peu régulée et que les informations sont très faciles d’accès. Mais en plus, ces informations ne sont pas enregistrées sur le navigateur de l’utilisateur ou de l’utilisatrice. Impossible donc pour lui ou elle de contrôler ce qui a été récupéré ou d’empêcher qui que ce soit d’y accéder en supprimant ces infos, comme on peut le faire avec un cookie ou une session.
Le simple fait d’utiliser un navigateur et d’accéder à un site permet au browser fingerprinting d’être appliqué. Contrairement à un logiciel ou une application, il n’est pas nécessaire d’obtenir des autorisations spéciales pour y accéder. Enfin, il est toujours possible de combiner une empreinte établie avec d’autres données déjà en possession des annonceurs ou des courtiers en données, comme le souligne Nataliia Bielova, une chercheuse travaillant pour la Cnil, à Wired : « Il y a tellement d’ensembles de données disponibles aujourd’hui, et il y a tellement de moyens de relier votre empreinte digitale à d’autres informations d’identification. »
Il existe également un autre type de fingerprinting, le device fingerprinting. Ici, au lieu de récupérer des informations sur le navigateur, on en récupère sur l’appareil. On en parle notamment pour les appareils mobiles, à propos des applications qui récupèrent des données sur le système et l’appareil sur lesquels elles sont installées. Mais ce type de fingerprinting est moins caché, puisqu’il est nécessaire de télécharger des applications auxquelles on donne des autorisations.
Une pratique non régulée et aux effets difficiles à mesurer
Malgré tout, le fingerprinting présente lui aussi plusieurs défauts. Les empreintes digitales ont deux caractéristiques : elles sont uniques et elles ne changent pas dans le temps. Les empreintes numériques réunissent rarement ces deux qualités. Dès qu’une modification est faite dans les paramètres de son navigateur ou dans les extensions installées, cela entraine une modification de l’empreinte. Même une simple mise à jour automatique peut modifier en profondeur les données.
Cependant, comme souligné dans Browser Fingerprinting: A survey de Pierre Laperdrix, Nataliia Bielova, Benoit Baudry et Gildas Avoine, qui passe en revue les différentes recherches faites dans le domaine, des chercheurs ont réussi à suivre les évolutions des empreintes numériques d’utilisateurs et à continuer de les traquer pendant 51,8 jours en moyenne.
En janvier 2022, des chercheurs d’universités françaises, australiennes et israéliennes ont déterminé qu’en récupérant des informations sur la carte graphique des utilisateurs via le navigateur pour créer une empreinte unique, il était possible d’étendre la durée de traçage de façon significative.
Grâce au fingerprinting, un utilisateur peut être traqué en moyenne pendant 51,8 jours.
Mais le plus compliqué est de quantifier le fingerprinting, aussi bien au niveau du pourcentage véritable d’empreintes uniques, qu’au niveau de son utilisation. Toutes les recherches s’accordent pour dire que le suivi et l’identification d’utilisateurs grâce au fingerprinting est une réalité, mais toutes n’ont pas les mêmes résultats.
Là où plusieurs études, dont celle d’Eckersley, arrivaient à obtenir plus de 80 % d’empreintes uniques, l’étude Hiding in the Crowd réalisée par Alejandro Gómez-Boix, Pierre Laperdrix et Benoit Baudry arrivait au chiffre de 33,6 %. La différence principale réside dans l’audience visée : la majorité des études précédentes se basaient sur des données récoltées sur des sites créés pour l’occasion, là où Hiding in the Crowd a utilisé des données issues d’un des 15 sites français les plus visités. La plupart des études précédentes avaient donc comme audience des utilisateurs spécialisés, au fait des menaces sur leur vie privée, mais Hiding in the Crowd avait une audience beaucoup plus large et « ordinaire ».
L’étude ne visait par ailleurs quasiment que des utilisateurs dont le français est la langue maternelle et le même fuseau horaire, rendant caduc ces deux éléments importants pour le fingerprinting. Leur étude démontre donc que le fingerprinting à grande échelle sur des utilisateurs d’une région donnée est compliqué. Elle démontre aussi autre chose : si certains paramètres changent, comme la langue par exemple, des empreintes non uniques peuvent rapidement devenir uniques, notamment sur ordinateur. Il est donc compliqué de quantifier précisément le nombre d’empreintes uniques sur Internet ou même de garantir que l’empreinte d’un utilisateur n’est pas unique.
Il est difficile de déterminer quels sites utilisent le fingerprinting à des fins malveillantes.
Au fil des années, les méthodes utilisées pour le browser fingerprinting changent. Au début, un grand nombre des paramètres utilisés étaient liés aux plugins et à Flash, qui appartiennent désormais du passé. Si JavaScript arrive à les remplacer pour certaines fonctionnalités, la récolte de données n’est plus forcément aussi simple. L’ajout de certaines API a facilité un temps l’obtention de ces informations et la précision dans le traçage, comme l’API Battery Status qui permettait de récupérer le taux de charge de la batterie et d’autres éléments, et qui offrait ainsi un identifiant efficace pour suivre un utilisateur sur plusieurs sites à court terme.
Mais les navigateurs ont réagi pour rendre l’utilisation de cette API impossible et de nouvelles spécifications ont été mises en place pour leur création afin d’éviter ce genre de problèmes à l’avenir. De même, toutes les extensions ajoutées à un navigateur ne sont pas détectables facilement, mais certaines peuvent l’être plus que d’autres. Les différences au niveau de la technologie des navigateurs et les changements importants qui peuvent survenir d’année en année rendent compliqué de déterminer précisément l’efficacité de la méthode pour le traçage.
Enfin, il est également compliqué de savoir précisément à quel point la méthode est utilisée. Il reste assez peu évident de déterminer si un site utilise un script de fingerprinting à des fins néfastes, comme de la publicité, ou juste pour des raisons de sécurité.
Par exemple, des sites sensibles comme des sites bancaires peuvent vouloir créer une empreinte digitale pour leurs utilisateurs afin de pouvoir demander une confirmation d’identité si une opération sensible est réalisée sur un appareil qui semble différent ou pour détecter des activités provenant de bots.
En 2020, des chercheurs avaient trouvé qu’un quart des sites parmi les plus visités utilisaient des scripts de fingerprinting. Mais, là aussi, compliqué pour eux de déterminer lesquels le faisaient à des fins malveillantes ou non. Preuve des changements auxquels est soumis le fingerprinting, ils rapportaient aussi à cette occasion l’usage de nouvelles techniques, qui étaient généralement combinées au lieu d’être utilisées seules. En bref, la ligne entre usage légitime et illégitime reste floue.
Comment lutter contre le fingerprinting ?
Là aussi, la réponse risque d’être frustrante. Il n’existe pas de solution miracle pour se protéger du fingerprinting. Vu que, comme dit précédemment, il reste dur de quantifier le fingerprinting et de connaître précisément les méthodes utilisées, déterminer les actions les plus efficaces pour lutter contre est une gageure.
Bonne nouvelle cependant : plusieurs navigateurs, comme Firefox et Brave, ont mis en place des protections par défaut contre ce type de traçage. Mais nous avons aussi une mauvaise nouvelle. Contrairement aux cookies ou aux publicités, plus vous essayez de lutter contre le fingerprinting, plus vous avez une chance d’être reconnaissable à cause d’une combinaison de paramètres et d’extensions unique. De plus, une étude de 2019 a déterminé qu’une bonne partie des extensions censées limiter le fingerprinting n’étaient pas si efficaces que ça.
Malgré tout, les extensions qui limitent déjà d’autres formes de pistage et les scripts, comme les bloqueurs de publicité ou Privacy Badger, peuvent se révéler de bons outils contre le fingerprinting. Les méthodes utilisées pour le fingerprinting étant liées à l’histoire et au développement du Web, il n’existe pas de fix facile pour les faire disparaître sans modifier radicalement le Web tel qu’on le connaît aujourd’hui.
Pour le moment, l’une des méthodes les plus prometteuses est celle utilisée par le navigateur Tor. Pour éviter que ses utilisateurs puissent être identifiés de façon unique, ce qui rendrait l’usage de Tor inutile, tout a été fait pour que le navigateur ne présente aucune différence entre les utilisateurs. Certes, cette combinaison de paramètres étant assez spécifique, comme une taille de fenêtre fixe, il est facile de déterminer que quelqu’un utilise le programme. Mais il est beaucoup plus difficile de distinguer un utilisateur en particulier dans la masse.
Si vous souhaitez savoir si l’empreinte de votre navigateur est unique, vous pouvez vous rendre sur le site Cover Your Track, tenu par l’Electronic Frontier Foundation. Il vous permet de tester votre navigateur et vous précise quels éléments peuvent permettre de vous identifier.
En bref, le fingerprinting n’est peut-être pas la solution miracle espérée par les annonceurs face à la disparition des cookies, mais elle reste une menace pour la vie privée, d’autant plus qu’elle n’est pas ou peu régulée et qu’il est impossible pour l’utilisateur de savoir s’il est suivi et, si oui, de quelle manière l’empêcher. Nous savons qu’elle peut se révéler efficace dans certains cas et qu’il est possible de la combiner avec d’autres méthodes pour améliorer l’efficacité du pistage des utilisateurs. Il est donc important de faire preuve de vigilance.