03 66 72 26 33

L’intelligence artificielle (IA) selon la CNIL

Le 5 avril 2022, la CNIL a publié un recueil d’informations concernant l’intelligence artificielle, afin d’aider les professionnels et particuliers à mieux comprendre ses enjeux et de garantir le respect du RGPD.

Qu’est-ce que l’intelligence artificielle  ?

L’intelligence artificielle (IA) est définie comme l’ensemble des technologies (numériques, mathématiques, statistiques et algorithmiques) capables d’imiter ou d’augmenter l’intelligence humaine grâce à des machines dotées de la capacité d’apprendre, de raisonner et de prendre des décisions. C’est ainsi que le Parlement européen associe à l’IA tout outil utilisé par une machine dans le but de «  reproduire des comportements liés aux humains, tels que le raisonnement, la planification et la créativité  ».

Dans le cadre de la mise en place d’un système d’IA qui repose sur un apprentissage automatique, deux phases se succèdent  :

  • La phase d’apprentissage  : Cette phase correspond à la conception, au développement et à l’entraînement d’un modèle (un modèle constitue la représentation de ce que le système d’IA aura appris à partir des données d’entraînement).
  • La phase de production  : Cette phase consiste à déployer de manière opérationnelle le système d’IA qui a été obtenu suite à la phase d’apprentissage.

Entreprises et IA  : Être en conformité avec le RGPD

Un organisme qui souhaite mettre en place un système d’IA exploitant des données personnelles doit veiller à respecter les différentes obligations découlant du RGPD (28/05/2018). La CNIL détaille ces obligations  :

1. Définir une finalité

La mise en place d’un système d’IA exploitant des données personnelles suppose obligatoirement qu’il soit utilisé avec une finalité bien définie. L’objectif doit être  :

  • Déterminé
  • Légitime  (compatible avec les missions de l’organisme)
  • Explicite (connu et compréhensible)

L’organisme doit démontrer que les données personnelles utilisées sont pertinentes et que leur durée de conservation est adaptée.

2. Etablir une base légale

Cette base légale autorise l’organisme à traiter des données personnelles. En effet, la mise en place d’un système d’IA doit correspondre à l’une des six bases légales prévues par le RGPD  :

  • Consentement
  • Respect d’une obligation légale
  • Exécution d’un contrat
  • Exécution d’une mission d’intérêt public
  • Sauvegarde des intérêts vitaux
  • Poursuite d’un intérêt légitime

3. Constituer une base de données

Etablir une base de données consiste à décrire les données utilisées (annotations) et réaliser un travail de catégorisation, de nettoyage et de normalisation des données. Il faut cependant respecter un délai de conservation des données personnelles déterminé en fonction de la finalité. Certains délais sont recommandés par la CNIL, d’autres délais sont imposés par des textes. Par exemple, pour la vidéoprotection, le délai de conservation est d’un mois, conformément aux dispositions de l’article L252-5 du Code de sécurité intérieure (sujet d’actualité au regard des événements récents du Stade de France).

4. Minimiser les données

L’organisme doit respecter le principe de minimisation des données. Ainsi, les données personnelles collectées et utilisées doivent être adéquates, pertinentes et limitées au strict nécessaire au regard de l’objectif défini.

Attention  : Le principe de minimisation des données ne constitue pas un obstacle en soi à la réalisation des traitements de données.

La CNIL vient donner quelques conseils afin de s’assurer du caractère «  raisonné  » de toutes les données utilisées, que ce soit lors de la phase d’apprentissage, mais aussi la phase de production  :

  • Adopter un esprit critique lors de l’évaluation de la nature et la quantité de données à utiliser  ;
  • Vérifier les performances du système dès lors qu’il est alimenté par de nouvelles données  ;
  • Effectuer une distinction claire entre les données utilisées lors de la phase d’apprentissage et celles utilisées lors de la phase de production  : les modèles sont généralement entraînés avec davantage de données que celles qui sont strictement nécessaires ( phase d’apprentissage ), l’essentiel est de réduire ensuite l’utilisation des données non-nécessaires une fois le modèle validé ( phase de production )  ;
  • Utiliser des mécanismes de pseudonymisation ou de filtrage des données  ;
  • Etablir une documentation relative au jeu de données utilisé et de ses propriétés (source des données, vérification de leur intégrité, etc.)  ;
  • Effectuer une réévaluation régulière des différents risques pour les utilisateurs (vie privée, risques de discrimination, etc.)  ;
  • Limiter les risques en encadrant les habilitations d’accès.

5. Définir une durée de conservation

Le RGPD prévoit l’interdiction de conserver des données personnelles indéfiniment. Il est donc obligatoire pour les responsables de traitement de déterminer la durée de conservation des données en fonction de l’objectif poursuivi par la collecte. La durée doit toujours être proportionnée à la finalité poursuivie  : par exemple, il sera possible de conserver certaines données spécifiques si elles ont une finalité de mesure de performance. Il sera aussi possible de conserver pour une plus longue durée les données relatives aux traitements d’IA mis en œuvre à des fins de recherche scientifique.

6. Encadrer l’amélioration en continu

Dans le cadre d’un système d’apprentissage en continu, les données utilisées lors de la phase de production sont aussi utilisées pour améliorer le système. C’est donc un processus de réapprentissage. Cette technique d’apprentissage en continu peut entraîner différents risques tels que la dégradation des performances. De plus, cette technique pose un autre problème. En effet, la phase d’apprentissage et la phase de production poursuivent en principe deux finalités distinctes quant à l’utilisation des données. D’un côté, la phase de production poursuit une finalité qui est celle pour laquelle le système d’IA est mis en production, et la phase d’apprentissage a pour objectif l’amélioration intrinsèque du système.

La CNIL considère qu’il est possible de séparer la phase d’apprentissage et la phase de production. Aussi, elle considère que la réutilisation par un sous-traitant de données confiées par un responsable de traitement est possible seulement si certaines conditions sont remplies  :

  • L’autorisation de la réutilisation par le responsable de traitement
  • La réalisation d’un test de compatibilité
  • L’information et le respect des droits des personnes
  • La conformité du nouveau traitement mis en œuvre

7. Se prémunir des risques liés aux modèles d’IA

Les modèles sont des représentations de ce que les systèmes d’IA ont appris à partir des données d’entraînement lors de la phase d’apprentissage. Les risques liés aux modèles d’IA peuvent constituer des extractions d’information (attaques par exfiltration de modèle), qui peuvent entraîner une violation de données. Dans ce cas, il est impératif de retirer le modèle concerné et de notifier la violation de données auprès de l’autorité de protection des données compétente.

8. S’assurer de l’information et de l’explicabilité

Le principe de transparence
Le RGPD exige que toute information ou communication relative au traitement de données personnelles soit  : concise, transparente, compréhensible et aisément accessible (en des termes simples et clairs).

Ce principe de transparence s’applique en matière d’IA, mais parfois, il sera difficile de l’appliquer. En effet, l’IA étant un système assez complexe, fournir des explications précises expliquant les raisons ayant conduit à la prise d’une telle décision devient alors compliqué. De plus, dans certains cas, les données n’ont pas été collectées directement par le responsable qui met en œuvre le système d’IA, il est alors difficile de revenir vers les personnes concernées.

Ces différents cas justifient alors qu’il est possible de déroger au droit à l’information, notamment lorsque l’information des personnes concernées s’avère impossible ou exige des efforts disproportionnés.

Attention  : Un organisme peut se voir sanctionner s’il fait reposer sa prise de décision sur le seul fondement d’un traitement automatisé de données, notamment lorsque cette décision entraîne des effets juridiques à l’égard des personnes concernées. Ainsi, la CNIL pourra exiger la mise en œuvre d’une intervention humaine dans cette situation.

9. Mettre en œuvre l’exercice des droits

Toute personne faisant l’objet d’un traitement de données dispose de différents droits lui permettant de garder la maîtrise de ses données  : droit d’accès, de rectification, d’effacement, de limitation, de portabilité et d’opposition.

C’est le responsable de traitement qui est chargé d’expliquer aux utilisateurs comment exercer ces droits.

Attention  : Il existe des exceptions à l’exercice de certains de ces droits, notamment dans les cas de traitements d’IA mis en œuvre à des fins de recherches scientifiques. De plus, en cas d’accident à la suite duquel les modèles d’IA collectent des données personnelles, l’identification des personnes peut s’avérer complexe. Dans ce cas, le responsable de traitement pourra écarter les droits de la personne concernée, sans qu’il n’y ait de préjudice.

10. Encadrer la prise de décision automatisée

Les systèmes d’IA mettent souvent en œuvre des mécanismes de prise de décision automatisée. L’article 22 du RGPD vient poser le droit pour les personnes de ne pas faire l’objet d’une décision automatisée qui a un effet juridique ou qui l’affecte sensiblement. Certaines exceptions pour lesquelles une décision automatisée sera possible sont prévues lorsqu’il est question de  :

  • Consentement explicite de la personne
  • Décision nécessaire à un contrat conclu avec l’organisme
  • Dispositions légales spécifiques qui autorisent la décision automatisée
Dans ces cas , la personne concernée doit pouvoir être informée qu’une décision entièrement automatisée a été prise à son encontre. Elle peut connaître la justification de cette décision, la contester et demander l’intervention d’un être humain pour réexaminer la décision.

11. Evaluer le système

Selon la CNIL, il est indispensable d’évaluer les systèmes d’IA afin de valider l’approche testée lors de la phase d’apprentissage, de diminuer les risques de dérive du système au fil du temps et de s’assurer que, lors de la phase de production, le système satisfait bien les besoins opérationnels pour lesquels il a été conçu.

Dans le cadre de cette évaluation, la CNIL peut alors demander par exemple de fournir  :

  • Une analyse systématique des erreurs du système et de leurs implications opérationnelles
  • Des éléments relatifs aux conditions d’expérimentation
  • Des éléments de réflexion sur les potentiels risques de discrimination

12. Eviter les discriminations algorithmiques

Les discriminations susceptibles d’intervenir lors de l’utilisation de systèmes d’IA peuvent provenir des données utilisées pour l’apprentissage ou encore de l’algorithme lui-même (par des failles de conception). La CNIL et le Défenseur des droits préviennent et contrôlent l’automatisation des discriminations de ces technologies.

Sécuriser un système d’IA  

Le Laboratoire d’innovation numérique de la CNIL (LINC) indique certaines mesures à mettre en œuvre pour sécuriser efficacement les systèmes d’IA contre les différents types d’attaques et limiter les risques pour la vie privée des personnes concernées.

  • Tenter de déployer des architectures respectueuses de la vie privée  ;
  • Renforcer l’environnement d’exécution du système d’IA (ex  : trusted execution environment)  ;
  • Utiliser les ressources de cryptographie (transfert inconscient, chiffrement homomorphe)  ;
  • Anonymiser par différentes méthodes pour perturber les tentatives de vol et de violations de données  ;
  • Mettre en œuvre les règles de SSI (Self-Sovereign Identity)  ;
  • S’assurer de la légalité, de la qualité et de la traçabilité des données (réaliser des analyses d’impact sur la protection des données, phase de nettoyage des données, mécanismes de pseudonymisation)  ;
  • Effectuer un contrôle itératif de l’apprentissage (supprimer les données qui ont un impact négatif sur la précision du modèle)  ;
  • Consolider le jeu de données (augmentation de données, randomisation (ajout de bruits aléatoires), entraînement contradictoire)  ;
  • Durcir le processus d’apprentissage (validation croisée, amorçage, normalisation de lot, quantification, élagage, décrochage ou abandon)  ;
  • Contrôler l’accès au système (vérifier le format des fichiers soumis, la cohérence des données, compresser les caractéristiques et détecter l’ajout de bruit dans les données)  ;
  • Durcir les API (interface de programmation applicative)  : limiter le nombre de requêtes des utilisateurs, s’assurer que l’utilisateur est un humain, imposer un coût calculatoire important, analyser les comportements des utilisateurs, mise en place d’un système de bac à sable  ;
  • Maîtriser les sorties et s’assurer de leur protection (réduire la verbosité des sorties, détecter les sorties suspectes, lever une alerte en cas de doute, proposer une modération manuelle)  ;
  • Développer une stratégie organisationnelle (documenter les choix de conception, anticiper les évolutions du système, s’assurer de la conformité de la fonctionnalité d’IA tout au long de son exploitation, mettre en place des audits réguliers, encadrer le recours à des sous-traitants)  ;
  • Développer une stratégie de gestion des risques (sensibiliser et responsabiliser les équipes, préciser les modalités de sauvegarde et de gestion des données, assurer la confidentialité et l’intégrité (restriction d’accès, chiffrement), élaborer un plan de continuité de l’activité)

Liens du guide d’auto-évaluation de la CNIL pour les systèmes d’IA :

https://www.cnil.fr/fr/intelligence-artificielle/guide/se-poser-les-bonnes-questions-avant-dutiliser-un-systeme-dintelligence-artificielle

https://www.cnil.fr/fr/intelligence-artificielle/guide/collecter-et-qualifier-les-donnees-dentrainement

https://www.cnil.fr/fr/intelligence-artificielle/guide/developper-et-entrainer-un-algorithme

https://www.cnil.fr/fr/intelligence-artificielle/guide/utiliser-un-systeme-dia-en-production

https://www.cnil.fr/fr/intelligence-artificielle/guide/securiser-le-traitement

https://www.cnil.fr/fr/intelligence-artificielle/guide/permettre-le-bon-exercice-de-leurs-droits-par-les-personnes

https://www.cnil.fr/fr/intelligence-artificielle/guide/se-mettre-en-conformite

Autres liens  :

https://www.cnil.fr/fr/intelligence-artificielle/glossaire-ia

https://linc.cnil.fr/fr/panser-la-securite-des-systemes-dia

Marie BREYNE, Juriste 

Raphaël RAULT, Avocat associé