L’outil d’intelligence artificielle spécialisée dans la recherche web est accusé d’outrepasser les blocages de certains sites web.
Cloudflare, principal fournisseur de serveur DNS (un annuaire du web, en résumé) a publié lundi dernier une étude prouvant que les robots de Perplexity ne respectaient pas les règles des sites web leur barrant la route. En effet, les sites web peuvent choisir de ne pas vouloir être siphonnés par l’intelligence artificielle. Inacceptable, pour la startup américaine, qui ruse pour contourner ces barrières fragiles.
Perplexity se moque du consentement
Le chatbot d’IA, qui a largement popularisé la recherche web par intelligence artificielle, et qui vient tout juste de lancer son propre navigateur Internet, ne compte pas se laisser mettre des bâtons dans les roues. D’après Cloudflare, Perplexity dissimule l’identité de ses crawlers (des robots-aspirateurs qui permettent à Perplexity d’indexer les données des sites web) afin de ne pas se voir refuser l’accès à des sites ayant clairement indiqué ne rien vouloir avoir à faire avec lui. Un refus manifeste du consentement des éditeurs de ces sites web, alerte Cloudflare.
« Ce genre d’activité a été constaté sur des dizaines de milliers de sites web, et pour des millions de requêtes par jour, écrit Cloudflare dans son étude. Nous sommes parvenus à trouver le dénominateur commun [fingerprint] de ces crawlers en utilisant une combinaison de machine learning et de signaux réseau. »
Des accusations sérieuses, pourtant balayées d’un revers de la main par Jesse Dwyer, porte-parole de Perplexity, lors d’un échange avec le site TechCrunch. Le robot pointé du doigt par Cloudflare ne serait même pas celui de la startup, assure Dwyer. Pourtant, son accusateur est sûr de son coup : l’idée de ce piège lui est venu après que de nombreux clients ayant spécifiquement indiqué ne pas vouloir autoriser les bots d’intelligence artificielle sur leurs pages ont clairement remarqué que des brèches avaient été ouvertes. « Nous avons remarqué que Perplexity utilise non seulement leur user-agent, mais également un navigateur générique maquillé comme Google Chrome sur macOS lorsque le premier robot est explicitement bloqué », détaille Cloudflare.
En clair : quand Perplexity se fait mettre à la porte, il passe par la fenêtre avec une fausse moustache.
L’impunité des entreprises de l’intelligence artificielle
Les observations de Cloudflare (qui dit avoir mis en place de nouvelles barrières pour mieux protéger ses clients) ne sont ni surprenantes, ni inédites. Voilà des mois, des années que les avocats de la confidentialité en ligne et ceux de la neutralité du web alertent sur les dangers de l’intelligence artificielle — présentée comme une révolution inéluctable, ou comme un train lancé à toute allure que rien ni personne ne pourrait arrêter.
Il y a donc Perplexity qui semble se moquer des barrières, mais n’oublions pas MidJourney et autres Stable Diffusion, dont les moteurs de génération d’images sont entraînées sur des œuvres d’art pillées dans l’illégalité sur Internet. L’an dernier, ChatGPT déclarait même au Guardian suite à des accusations similaires qu’il « serait impossible de créer une intelligence artificielle sans violer du contenu protégé par le droit d’auteur ».
Ces entreprises, pour l’immense partie américaines, semblent profiter d’une impunité en la matière, alors même que leurs actions sont documentées. Une fuite en avant, au prétexte que l’intelligence artificielle est une course qui doit avoir un vainqueur.