Protection des données

Du concept à la conformité : Bases juridiques pour l’entrainement de l’IA expliquées 

Mis à jour le 02/04/2024

Que vous soyez un fondateur, un décideur dans l’industrie de l’IA ou simplement en train de développer votre premier projet pilote d’IA, il est important de réfléchir aux droits à la vie privée dès le début. Ce sujet devient particulièrement important lors de l’entrainement de systèmes IA, car choisir une base légale pour vos objectifs d’entrainement affecte la praticité du processus et les droits des personnes dont les données sont utilisées. Dans cet article, nous expliquerons les points clés en accord avec le Règlement Général sur la Protection des Données (RGPD) de l’UE et la Loi Fédérale Suisse sur la Protection des Données (LPD). 

Comprendre les sources de données pour l’entrainement de l’IA

La première étape dans l’entrainement des systèmes IA pour se conformer au RGPD et à la LPD est de déterminer si vous utilisez des données personnelles, et si c’est le cas, de savoir d’où elles proviennent. Ceci est particulièrement important car les lois sur la protection des données s’appliquent uniquement aux données personnelles, et non aux données anonymisées, par exemple.  

La différence entre les données personnelles et les données anonymisées / synthétiques dans l’entrainement de l’IA 

Les données personnelles sont des données qui identifient des individus soit directement soit indirectement. Le modèle IA peut être entraîné en utilisant des données personnelles, ou vous n’utilisez pas directement de données personnelles mais il pourrait y avoir un risque d’identification indirecte des personnes à travers des techniques telles que l’inférence de l’appartenance et l’inversion de modèle. Cela signifie que les règles du RGPD et/ou de la LPD pourraient s’appliquer à votre modèle. Pour éviter cela dès le départ, une option est d’utiliser uniquement des données anonymisées pour entraîner vos systèmes IA. En rendant les données anonymes, vous rompez leur lien avec toute personne spécifique. Cela signifie que les règles du RGPD et de la LPD ne s’appliquent plus, car les données ne sont plus considérées comme personnelles. Ceci est particulièrement pertinent lorsque des informations particulièrement sensibles (par exemple, des données médicales) doivent être utilisées comme données d’entraînement. N’oubliez pas, rendre les données anonymes est une tâche complexe. Il est crucial que les informations anonymisées ne puissent pas être reliées à une personne spécifique. Cela signifie également que vous devez vérifier régulièrement si l’anonymisation peut toujours être considérée comme sécurisée avec les méthodes actuelles. 

Une solution supplémentaire peut être l’utilisation de données synthétiques, c’est-à-dire des données créées par des algorithmes pour imiter des données du monde réel. Bien que ce soit une solution plus respectueuse de la vie privée qui peut vous permettre d’échapper au RGPD et à la LPD dans certaines circonstances, ce n’est pas une solution infaillible, puisqu’elle peut encore être retracée jusqu’à des individus particuliers selon la manière dont elle a été générée ou sur les données sous-jacentes qui ont été utilisées pour la synthèse. 

Identifier les sources de données pour les systèmes IA : Assurer la conformité au RGPD et à la LPD   

Si vous devez utiliser des données personnelles pour entrainement de votre IA ou si vous ne pouvez simplement pas exclure le fait que votre ensemble de données puisse inclure des données personnelles, l’étape suivante consiste à examiner votre source de données. Les données personnelles pour l’entrainement de l’IA peuvent être acquises soit directement auprès des sujets de données, soit indirectement. 

La collecte directe implique des données fournies par les utilisateurs. Cela peut se produire dans une phase pré-déploiement – par exemple, lorsque des patients autorisent leurs examens médicaux à être utilisés pour entraîner un système IA – ou après déploiement, lorsque les utilisateurs interagissent avec des systèmes IA (par exemple, des invites soumises par les utilisateurs dans des systèmes IA génératifs). Les sources indirectes incluent les données grattées sur Internet et les données fournies par des tiers (par exemple, des courtiers en données).  

Dans les deux cas, vous devez vous assurer que le traitement des données est conforme aux principes et pratiques de protection des données. Néanmoins, la manière concrète de le faire variera d’un cas à l’autre. En termes simples, la manière dont vous collectez des données personnelles peut créer divers problèmes de conformité aux règles du RGPD et de la LPD. Ne pas avoir de contact direct avec les personnes dont vous utilisez les données peut rendre plus difficile l’obtention de leur consentement et le respect de leurs droits, comme les informer du traitement des données. Nous examinerons cela plus en détail ci-dessous. 

Choisir la base légale appropriée pour l’entrainement de l’IA 

Si le droit de la protection des données, en particulier le RGPD, est applicable, l’une des premières étapes que vous devez faire est de vous assurer que vous avez une base légale pour traiter des données personnelles pour l’entrainement de votre système IA. Dans cette section, nous explorerons les principales bases légales applicables dans cet écosystème, en vous fournissant des informations concrètes sur les avantages et les obstacles de chacune.  

Bases légales généralement applicables  

Alors que la LPD n’exige pas automatiquement une base légale prédéterminée pour l’activité de traitement, à moins que le traitement des données ne soit une violation des droits de la personnalité du sujet des données (par exemple, lorsqu’il est fait contre leur volonté expresse, lorsque des données personnelles sensibles sont partagées avec des tiers), le RGPD vous oblige à en avoir une. Cela signifie que vous aurez besoin de déterminer une base légale appropriée pour la formation en IA avant d’utiliser des données personnelles.  

Pour le traitement des données personnelles qui n’appartiennent pas à une catégorie spéciale de données personnelles (par exemple, les données de santé), les bases légales suivantes peuvent être applicables, selon le contexte : 

  • Exécution d’un contrat : Cette base légale peut être utilisée si l’entrainement du système IA et le traitement connexe des données personnelles sont indispensables pour remplir un contrat avec la personne concernée. Cependant, le fait que le contrat doive être conclu avec la personne concernée elle-même limite beaucoup son applicabilité (par exemple, le développement de systèmes IA personnalisés, adaptés au sujet des données auquel le système est fourni) ; 
  • Consentement : Bien que le consentement soit un choix logique, l’obtenir peut être difficile, notamment lorsqu’il s’agit de données grattées sur l’Internet. Ces obstacles sont dus au manque de contact direct avec les sujets des données. Pour cette raison, lorsque les données personnelles ne sont pas directement obtenues auprès des personnes concernées, cela peut ne pas être une base légale appropriée à utiliser, car il est vraisemblablement assez difficile d’obtenir un consentement informé, sans équivoque, donné librement et spécifique dans ces circonstances ; 
  • Intérêts légitimes : Les intérêts légitimes apparaissent comme une base versatile. En pratique, vous devrez faire une balance des intérêts, où la nécessité d’entrainer votre système IA sur des données personnelles, examinée par rapport aux alternatives, doit l’emporter sur les impacts potentiels sur les droits des personnes concernées. Vous devez également assurer la transparence en informant les personnes concernées de vos intérêts légitimes et établir des mécanismes d’opt-out pour le droit d’opposition (plus à ce sujet ci-dessous). 

Choisir la base légale appropriée nécessite une réflexion soignée. Même si choisir “intérêts légitimes” peut sembler pratique au début, il existe encore des zones grises juridiques. Vous devez peser soigneusement les différents besoins pour vous assurer que vous respectez les droits des personnes. Cela inclut de prêter une attention particulière à la quantité et aux types de données personnelles dont vous avez besoin, à qui concernent les données, en particulier les groupes sensibles comme les enfants, et à la nature des données, qu’elles soient réelles, synthétiques ou pseudonymisées. Un bon premier pas pourrait être d’adopter des mesures techniques qui assurent des niveaux de sécurité adéquats des données personnelles traitées (par exemple, la confidentialité différentielle), ainsi que de curer les données d’entraînement pour limiter la quantité d’informations sensibles présentes (par exemple, identifier et filtrer les informations personnelles ainsi que dédoublonner les données). 

Changement de finalité du traitement

Lorsque l’entrainement de modèle IA utilise des données personnelles à des fins nouvelles, différentes de celles pour lesquelles elles ont été initialement collectées, comme l’exécution d’un contrat, il est important de se rappeler que le RGPD a des règles pour changer la finalité de l’utilisation des données. Si la nouvelle utilisation, comme l’entrainement de l’IA, ne correspond pas à la finalité originale, le RGPD vous oblige à trouver une nouvelle base légale pour cette nouvelle utilisation. Cela signifie que les systèmes IA ne peuvent pas être formés en “recyclant” simplement des données précédemment traitées sans une justification légale appropriée. Vous devez vous assurer que si vous réutilisez des données pour l’entrainement de l’IA, vous établissez une nouvelle base légale appropriée pour ce but spécifique et en informez les personnes concernées. 

Pour rationaliser ce processus, vous devriez mentionner dans vos documents, comme les politiques de confidentialité, que vous utiliserez des données personnelles à des fins de formation et expliquer la raison légale de cela. Cette approche aide à prévenir le besoin d’informer à nouveau les individus sur tout changement dans l’utilisation de leurs données. 

Catégories spéciales de données personnelles 

Il est également important qu’il y ait une couche supplémentaire de complexité si le système IA est entrainé sur des catégories spéciales de données personnelles. Lors de l’entrainement de l’IA sur des catégories spéciales de données personnelles telles que la santé, les opinions politiques ou les croyances religieuses, les développeurs doivent adhérer à des règles plus strictes, car le traitement de telles données est généralement interdit, sauf sous des exceptions étroitement définies. 

La meilleure base légale pour utiliser des données sensibles dans l’entrainement de l’IA, selon le RGPD et la LPD, est généralement d’obtenir le consentement. Cela est dû au fait qu’il y a une grande différence entre utiliser le système IA et l’entrainer. Par exemple, un médecin pourrait utiliser l’IA pour travailler avec des données de santé sous un contrat, en gardant les choses confidentielles. Mais lorsqu’il s’agit de former l’IA, obtenir un consentement approprié est souvent la seule voie à suivre. 

Obtenir ce consentement peut être délicat. De plus, alors que la LPD n’exige pas toujours une base légale pour traiter les données, vous en avez besoin si l’utilisation des données pourrait porter atteinte aux droits personnels de quelqu’un, comme partager des informations sensibles sans tiers. Ici, le consentement est souvent le seul choix pour l’entrainement de l’IA. En raison de ces défis avec les données sensibles, il est préférable d’utiliser des données anonymisées pour la formation si vous le pouvez. Les données anonymisées ne comptent pas comme des données personnelles, donc elles ne tombent pas sous le champ d’application du RGPD ou de la LPD. 

Droits des personnes concernées dans le contexte de l’entrainement de l’IA : Défis sous le RGPD et la LPD 

Dans cette dernière section, nous explorerons les principaux défis que pose l’entrainement de l’IA lors de la satisfaction des droits des personnes concernées, à la fois sous le RGPD et la LPD. Sous les deux lois de protection des données, les personnes concernées disposent d’un ensemble de droits. Cependant, dans le domaine de l’IA, leur mise en œuvre pratique n’est pas aussi facile qu’elle n’y paraît. En particulier, elle fait face aux obstacles suivants : 

Droit d’être informé 

Vous êtes tenu d’informer les personnes concernées sur l’utilisation de leurs données personnelles à des fins de l’entrainement. Cependant, cela s’avère difficile compte tenu du vaste montant d’informations nécessaires pour former ces systèmes et de l’utilisation de sources de données indirectes (par exemple, le grattage web et les fournisseurs de données), il est très difficile d’identifier et de contacter individuellement les personnes concernées.  

Le RGPD et la LPD vous exemptent d’informer les personnes concernées des activités de traitement, lorsque cela s’avère disproportionnellement difficile ou impossible. Même si cette exemption sous le RGPD a tendance à être interprétée de manière étroite par certaines autorités de surveillance de l’UE, il semble y avoir de bons arguments pour son application dans le scénario où les données utilisées proviennent de sources indirectes. 

Néanmoins, vous devez toujours adopter d’autres mesures appropriées pour transmettre les informations pertinentes concernant vos activités de traitement, par exemple en fournissant une politique de confidentialité sur votre site web ou application. 

Retrait du consentement et droit d’opposition 

Si la base légale pour l’entrainement de l’IA était le consentement, les personnes concernées ont le droit de le révoquer avec effet pour l’avenir. Cela signifie que les données personnelles ne peuvent plus être traitées (à moins qu’une autre base légale soit applicable) et doivent être supprimées. 

Le droit d’opposition joue un rôle similaire mais concerne les intérêts légitimes : si vous avez utilisé les intérêts légitimes comme base légale pour le traitement des données personnelles afin de former votre système IA, les sujets de données ont le droit de s’opposer à cette activité de traitement et – si vous n’avez pas un intérêt prépondérant – son utilisation doit cesser. 

Cela signifie que, bien qu’elles puissent sembler être les bases légales les plus probables pour entrainer l’IA, elles viennent avec un handicap : dans certaines circonstances, vous devrez arrêter votre activité de traitement pour des points de données spécifiques si cela est demandé par la personne concernée. Cela n’affectera pas seulement la formation du système mais pourrait également être pratiquement impossible à faire. 

Droit à l’effacement et à la rectification 

Dans le contexte de l’entrainement des systèmes IA, garantir le droit à l’effacement et à la rectification à la personne concernée est complexe. Cette difficulté découle de nombreux facteurs tels que : 

  • “Apprentissage continu”– Certains systèmes IA sont régulièrement mis à jour en fonction des interactions des utilisateurs (par exemple, les interactions et les invites de l’utilisateur du système). Cela signifie que les données personnelles sont continuellement traitées et ajoutées, rendant progressivement plus difficile de suivre toutes les données des utilisateurs qui sont traitées ; 
  • “Non-récupérabilité” – Étant donné que les informations utilisées pour former ces systèmes proviennent d’une variété de sources, il est très difficile de retracer les sujets de données individuels. Cela est rendu plus difficile en raison de l’incorporation profonde des données personnelles avec les algorithmes sous-jacents, où isoler les données personnelles s’avère être un défi. 

Enfin, il existe des défis liés au système lui-même. Modifier ou supprimer des données personnelles de l’ensemble d’entrainement peut affecter la validation et la précision du modèle, ce qui peut impliquer la nécessité de le reformer. C’est une entreprise coûteuse, chronophage et techniquement difficile. 

Même s’il existe des moyens techniques actuellement explorés pour faciliter le processus de suppression des données pour certains types de systèmes IA (par exemple, l’apprentissage machine inversé), la recherche effectuée jusqu’à présent, bien que non entièrement concluante, suggère que cela peut se faire au détriment de la précision du système, ainsi que nécessitant du temps et un savoir-faire technique approfondi sur comment le faire. 

Meilleures pratiques pour aligner l’entrainement de l’IA avec le RGPD et la LPD : La conclusion 

En conclusion, harmoniser l’entrainement de l’IA avec les exigences de protection des données implique de naviguer entre les origines des données, les bases légales et les droits des personnes concernées. Vous devriez aligner vos pratiques avec les principes applicables, en favorisant un développement de l’IA responsable et conforme, notamment en : 

  • Priorisant l’anonymisation des données personnelles utilisées pour la formation des systèmes IA, ainsi que les données synthétiques pour atténuer les risques de non-conformité avec le RGPD et la LPD ; 
  • Évaluant la base légale appropriée pour le traitement des données personnelles dans l’entrainement de l’IA, avec une préférence pour les intérêts légitimes lorsque cela est faisable, et en s’assurant que toutes les activités de traitement sont transparentes et équitables ; 
  • S’abstenant de traiter des catégories spéciales de données, en optant plutôt pour leur anonymisation ; 
  • Mettant en place des mesures pour informer les personnes concernées de l’utilisation de leurs données personnelles dans l’entrainement de l’IA ; 
  • Développant et maintenant des mécanismes clairs pour que les personnes concernées puissent exercer leurs droits, y compris le retrait du consentement et le droit d’opposition ; 
  • Investissant dans des solutions technologiques qui permettent la conformité avec les droits des personnes concernées, tels que l’effacement et la rectification des données, même dans des environnements d’entrainement de l’IA complexes. 

Suivre ce guide aide à construire la confiance et assure que vos projets IA sont à la fois créatifs et conformes aux lois sur la protection des données, menant à un futur technologique plus éthique et durable. 

By Sebastian Schneider

Head of Privacy & Digital Regulation, Legal Expert

Co-écrit par: Francisco Arga e Lima

Related

Allons-y !

Réserve un appel de découverte gratuit et sans engagement pour discuter de la façon dont nous pouvons t’aider à atteindre tes objectifs commerciaux.

Ou n’hésite pas à nous joindre directement par courriel à [email protected].

Réserve un appel gratuit