Articles

Privacy Loop : les intelligences artificielles dans le labyrinthe de la vie privée et du droit d’auteur

Ceci est le premier de deux articles dans lesquels j'aborde la relation délicate entre la vie privée et le droit d'auteur d'une part, et l'intelligence artificielle d'autre part.

Une relation problématique où l’évolution technologique s’avère si rapide qu’elle rend obsolète tout ajustement réglementaire dès sa première application.

Aborder des questions épineuses liées aux droits des personnes et aux données personnelles nécessite de l'attention, de la compétence et un débat indispensable entre intellectuels et spécialistes de notre temps. Nous découvrons que nous ne sommes pas assez rapides pour adapter les règles sociales aux défis que nous posent les innovations technologiques. Les technologies émergentes se retrouvent de plus en plus à fonctionner en plein champ, en l’absence totale de réglementations limitant leur application, libres de causer des dommages et donc de le faire en toute impunité.

Peut-on imaginer un contrôle remontant la chaîne du développement technologique jusqu'à la recherche scientifique et ses objectifs stratégiques ?

Est-il envisageable de gouverner l’évolution de notre espèce tout en respectant pleinement les libertés individuelles ?

Confidentialité?

« Plus vous essayez de vous cacher, plus vous attirez l’attention. Pourquoi est-il si important que personne ne vous connaisse ? » – extrait du film « Anon » écrit et réalisé par Andrew Niccol – 2018

Dans le film "Anon» de 2018, la société du futur est un endroit sombre, sous le contrôle direct d’un gigantesque système informatique appelé Ether, capable de surveiller chaque recoin de la nation en l’observant à travers les yeux des mêmes personnes qui la peuplent. Chaque être humain est un surveillant au nom d’Ether et sa première responsabilité est, bien entendu, de se surveiller lui-même et son comportement.

Ether est le meilleur allié des forces de police : grâce à Ether, les agents peuvent retracer l'expérience de n'importe quelle personne en la revivant de ses propres yeux et résoudre tout type de crime.

Le policier Sal se demande pourquoi vous devriez vous battre pour protéger votre vie privée : à quoi ça sert quand vous n'avez aucune raison de vous cacher ? Après tout, à une époque où les technologies que nous construisons pour accroître la sécurité de nos maisons et de nos rues nécessitent l'enregistrement, la surveillance et la vérification de ces informations dans l'intérêt des personnes elles-mêmes qui demandent protection, comment pouvons-nous espérer garantir leur intimité ?

Pour démontrer à quel point il est dangereux d'avoir accès à la vie des autres, un hacker va prendre le contrôle d'Ether et un terrible cauchemar s'abattra sur la vie de millions de personnes : la menace de devoir regarder en spectateurs impuissants les images des plus des moments tourmentés de leur vie, diffusés directement dans leurs rétines.

The Loop

Le réseaux de neurones artificiels qui sous-tendent le fonctionnement des intelligences artificielles modernes, s'articulent autour de trois éléments principaux : les informations de base autrement appelées corpusune algorithme pour l'assimilation de l'information et un mémoire pour leur mémorisation.

L'algorithme ne se limite pas à un banal chargement d'informations dans la mémoire, il la scanne à la recherche d'éléments qui les relient les unes aux autres. Un mélange de données et de relations sera transféré vers la mémoire qui formera un modèle.

Au sein d'un modèle, les données et les relations sont totalement indiscernables, c'est pourquoi il est presque impossible de reconstruire le corpus d'informations de formation originales à partir d'un réseau neuronal entraîné.

Cela est particulièrement vrai lorsque les corpus contiennent de grandes quantités de données. C'est le cas des grands systèmes linguistiques connus sous le nom de Large Language Models (LLM en abrégé), y compris le tristement célèbre ChatGpt. Ils doivent leur efficacité à la grande quantité d'informations utilisées dans la formation : actuellement une bonne formation nécessite au moins quelques téraoctets de données et étant donné qu'un téraoctet correspond à 90 milliards de caractères, soit environ 75 millions de pages de texte, on comprend aisément qu'il existe tellement d'informations nécessaires.

Mais si les modèles ne peuvent pas être déstructurés, pourquoi devrions-nous nous poser le problème des violations de la vie privée ?

Dominance des données

"Celui qui est fou peut demander à être exempté des missions aériennes, mais celui qui demande à être exempté des missions aériennes n'est pas fou." – basé sur le roman « Catch 22 » de Joseph Heller.

Bulletin d'innovation
Ne manquez pas les nouvelles les plus importantes sur l'innovation. Inscrivez-vous pour les recevoir par email.

La collecte de données d'une taille telle qu'elle permet la création de projets tels que ChatGpt ou d'autres similaires est aujourd'hui l'apanage des grandes entreprises multinationales qui, avec leurs activités numériques, ont pu mettre la main sur le plus grand référentiel d'informations. dans le monde : le Web.

Google et Microsoft, qui gèrent depuis des années des moteurs de recherche qui parcourent le Web et extrapolent d'énormes quantités d'informations, sont les premiers candidats à la création de LLM, les seuls modèles d'IA capables de digérer des quantités d'informations telles que celles décrites ci-dessus.

Il est difficile de croire que Google ou Microsoft soient capables de masquer des informations personnelles dans leurs données avant de les utiliser comme corpus pour entraîner un réseau neuronal. L'anonymisation des informations dans le cas des systèmes linguistiques se traduit par l'identification de données personnelles au sein d'un corpus et leur remplacement par de fausses données. Imaginons un corpus de la taille de quelques téraoctets avec lequel nous voulons entraîner un modèle et essayons d'imaginer combien de travail serait nécessaire pour anonymiser manuellement les données qu'il contient : ce serait pratiquement impossible. Mais si nous voulions nous appuyer sur un algorithme pour le faire automatiquement, le seul système capable de faire ce travail serait un autre modèle tout aussi vaste et sophistiqué.

Nous sommes en présence d'un problème classique de Catch-22 : « pour former un LLM avec des données anonymisées nous avons besoin d'un LLM capable de l'anonymiser, mais si nous avons un LLM capable d'anonymiser les données, sa formation ne s'est pas faite avec des données anonymisées. .»

Le RGPD est obsolète

Le RGPD qui dicte (presque) globalement les règles de respect de la vie privée des personnes, au regard de ces sujets, est déjà une vieille nouvelle et la protection des données personnelles impliquées dans un ensemble de formation n'est pas envisagée.

Dans le RGPD, le traitement des données personnelles dans le but d'apprendre des corrélations et des connexions générales n'est que partiellement réglementé par l'article 22 qui stipule : « La personne concernée a le droit de ne pas être soumise à une décision fondée uniquement sur un traitement automatisé, y compris le profilage, qui produit sur lui des effets juridiques ou qui l'affectent d'une manière similaire et significative".

Cet article introduit une interdiction pour les responsables du traitement d'utiliser les données personnelles d'un sujet dans le cadre d'un processus décisionnel entièrement automatisé ayant des effets juridiques directs sur le sujet. Mais les réseaux de neurones, facilement assimilables à des processus décisionnels automatisés, une fois formés, acquièrent la capacité de prendre des décisions automatiques pouvant avoir un impact sur la vie des gens. Mais ces décisions ne sont pas toujours « logiques ». Au cours de l'entraînement, en effet, chaque réseau neuronal apprend à associer des informations entre elles, les reliant souvent de manière absolument non linéaire. Et l’absence de « logique » ne facilite pas la tâche du législateur qui veut lever un bouclier pour défendre la vie privée des citoyens.

Si l’on choisissait également d’appliquer une politique extrêmement restrictive, par exemple interdisant l’utilisation de toute donnée sensible sauf autorisation explicite du propriétaire, l’utilisation légale des réseaux de neurones serait impraticable. Et abandonner les technologies des réseaux de neurones serait une perte majeure, il suffit de penser aux modèles d'analyse entraînés avec les données cliniques des sujets d'une population partiellement touchée par une maladie particulière. Ces modèles contribuent à améliorer les politiques de prévention en identifiant des corrélations entre les éléments présents dans les données et la maladie elle-même, corrélations inattendues qui peuvent paraître totalement illogiques aux yeux des cliniciens.

Gérer les besoins

Poser le problème du respect de la vie privée des personnes après avoir autorisé sans discernement sa collecte pendant des années est pour le moins hypocrite. Le RGPD lui-même, dans sa complexité, est responsable de nombreuses manipulations qui permettent d'obtenir l'autorisation de traiter des données personnelles en exploitant l'ambiguïté des clauses et la difficulté de compréhension.

Nous avons certainement besoin d'une simplification de la loi qui permette son applicabilité et d'une véritable éducation à l'utilisation consciente des informations personnelles.

Ma proposition est de ne pas permettre aux entreprises de connaître les données personnelles des utilisateurs qui s'inscrivent à leurs services, même s'il s'agit de services payants. L’utilisation de fausses données personnelles par des particuliers devrait se produire automatiquement lorsqu’ils utilisent des systèmes en ligne. L'utilisation de données réelles doit être limitée au seul processus d'achat, en veillant à ce qu'elles soient toujours complètement distinctes de la base de données des services.

Connaître les goûts et préférences du sujet sans permettre d'associer un nom ou un visage à ce profil fonctionnerait comme une forme d'anonymisation réalisée en amont qui permettrait automatiquement la collecte de données et leur utilisation au sein de systèmes d'automatisation comme les intelligences artificielles.

Article par Gianfranco Fedele

Bulletin d'innovation
Ne manquez pas les nouvelles les plus importantes sur l'innovation. Inscrivez-vous pour les recevoir par email.

Articles récents

Comment consolider des données dans Excel

Toute opération commerciale produit beaucoup de données, même sous différentes formes. Saisissez manuellement ces données à partir d’une feuille Excel pour…

14 mai 2024

Analyse trimestrielle de Cisco Talos : les e-mails d'entreprise ciblés par les criminels L'industrie manufacturière, l'éducation et la santé sont les secteurs les plus touchés

La compromission des e-mails d'entreprise a plus que doublé au cours des trois premiers mois de 2024 par rapport au dernier trimestre de…

14 mai 2024

Principe de ségrégation d'interface (ISP), quatrième principe SOLID

Le principe de ségrégation des interfaces est l'un des cinq principes SOLID de la conception orientée objet. Une classe devrait avoir…

14 mai 2024

Comment organiser au mieux les données et les formules dans Excel, pour une analyse bien faite

Microsoft Excel est l'outil de référence en matière d'analyse de données, car il propose de nombreuses fonctionnalités pour organiser des ensembles de données,…

14 mai 2024

Conclusion positive pour deux projets importants de Walliance Equity Crowdfunding : Jesolo Wave Island et Milano Via Ravenna

Walliance, SIM et plateforme parmi les leaders en Europe dans le domaine du Crowdfunding Immobilier depuis 2017, annonce la finalisation…

13 mai 2024

Qu'est-ce que le filament et comment utiliser le filament Laravel

Filament est un framework de développement Laravel « accéléré », fournissant plusieurs composants full-stack. Il est conçu pour simplifier le processus de…

13 mai 2024

Sous le contrôle des Intelligences Artificielles

«Je dois revenir pour achever mon évolution : je vais me projeter à l'intérieur de l'ordinateur et devenir une pure énergie. Une fois installé…

10 mai 2024

La nouvelle intelligence artificielle de Google peut modéliser l'ADN, l'ARN et « toutes les molécules de la vie »

Google DeepMind présente une version améliorée de son modèle d'intelligence artificielle. Le nouveau modèle amélioré offre non seulement…

9 mai 2024

Lire Innovation dans votre langue

Bulletin d'innovation
Ne manquez pas les nouvelles les plus importantes sur l'innovation. Inscrivez-vous pour les recevoir par email.

Suivez-nous