L'intérêt légitime ne sauvera pas votre IA : pourquoi la base légale préférée des développeurs s'effondre en 2026

Publié le 2026-04-28 | Mots-clés :

L'intérêt légitime ne sauvera pas votre IA

Un CTO d'une startup parisienne m'a dit, fin mars, avec un aplomb désarmant : « On s'appuie sur l'intérêt légitime, ça passe. » Il venait de lancer un chatbot entraîné sur des données scrappées depuis trois forums professionnels. Aucune AIPD. Aucune information aux personnes concernées. Juste cette conviction — largement partagée dans l'écosystème tech français — que l'article 6(1)(f) du RGPD constitue un filet de sécurité universel pour tout traitement IA.

Cette conviction est en train de se fracasser contre la réalité réglementaire de 2026.

En quatre mois, la CNIL a prononcé 550 000 euros d'amendes liées à l'intelligence artificielle. Sur les quatre décisions rendues, trois entreprises invoquaient l'intérêt légitime comme base légale principale. Trois ont été sanctionnées. Le ratio parle de lui-même.

Mais le problème va au-delà des sanctions françaises. Le règlement délégué sur les modèles GPAI publié en mars 2026 impose des obligations de transparence sur les données d'entraînement qui rendent l'intérêt légitime encore plus difficile à défendre. Et le CEPD, dans son avis de février 2026 sur l'articulation IA Act/RGPD, a posé des balises qui ne laissent quasiment plus de marge d'interprétation.

Autrement dit : la fenêtre se referme. Rapidement.

Ce que dit réellement l'article 6(1)(f) — et ce qu'on veut lui faire dire

L'intérêt légitime n'est pas une case à cocher. C'est un test en trois parties, formalisé par la CJUE et repris par le CEPD : existence d'un intérêt légitime, nécessité du traitement, et mise en balance avec les droits des personnes. Les développeurs IA retiennent la première partie. Ils oublient les deux suivantes.

Le test de nécessité pose déjà un problème sérieux. Quand vous entraînez un modèle de langage sur des données personnelles scrappées, le traitement est-il nécessaire à l'intérêt poursuivi ? Ou bien pourrait-on atteindre un résultat équivalent avec des données anonymisées, synthétiques, ou obtenues avec consentement ? La réponse, dans la très grande majorité des cas, est que des alternatives existent. La CNIL le dit explicitement dans son webinaire d'avril 2026 consacré au webscraping et à l'intérêt légitime.

Mais c'est la mise en balance qui tue véritablement le raisonnement. Car les personnes dont les données alimentent un modèle IA n'ont, la plupart du temps, aucune visibilité sur ce traitement. Elles n'ont pas été informées. Elles ne peuvent pas exercer leur droit d'opposition de manière effective — comment s'opposer à un traitement qu'on ignore ? Et les conséquences du traitement sont diffuses, imprévisibles, potentiellement discriminatoires.

Résultat : la balance penche systématiquement du côté des droits des personnes. Ce n'est pas une opinion. C'est la lecture que font la CNIL et le CEPD depuis fin 2025, décision après décision.

KASPR, le signal que personne n'a voulu lire

La clôture de l'injonction prononcée contre KASPR le 6 mars 2026 est un marqueur. KASPR, pour ceux qui ne suivent pas, est un outil d'enrichissement de données B2B qui aspirait des informations depuis LinkedIn et d'autres plateformes professionnelles. La CNIL l'avait sanctionné précédemment pour collecte de données sans base légale valide.

Ce qui est instructif, ce n'est pas la sanction elle-même — c'est le fait que KASPR invoquait précisément l'intérêt légitime. L'entreprise argumentait que la prospection commerciale B2B constituait un intérêt légitime reconnu, que les données étaient « publiquement accessibles », et que le traitement était proportionné.

La CNIL a démonté chaque argument. Un par un. Méthodiquement.

Accessibilité publique ne signifie pas autorisation de traitement. La jurisprudence est constante là-dessus depuis l'arrêt Clearview AI (2022), mais visiblement le message passe mal. Et le fait que la CNIL ait pris la peine de clôturer formellement l'injonction — acte administratif qui confirme que les mesures correctives ont été appliquées — montre qu'elle boucle ses dossiers proprement. Elle construit un corpus de précédents exploitables pour les prochaines procédures.

Le parallèle avec l'entraînement IA est direct et implacable. Si scrapper LinkedIn pour de la prospection commerciale B2B — un usage somme toute banal — ne passe pas le test de l'intérêt légitime, comment justifier le scrapping massif de forums, sites d'actualité et réseaux sociaux pour entraîner un modèle de langage dont les usages futurs sont par définition imprévisibles ? La réponse courte : on ne peut pas. Pas sous l'article 6(1)(f). Pas en France. Pas en 2026.

Quatre sanctions, un schéma qui se répète

Notre base de données recense 136 textes réglementaires liés à l'IA, issus de quatre sources : CNIL (64 documents), CEPD (55 avis et recommandations), Legifrance (9 textes) et EUR-Lex (8 règlements et lignes directrices). Parmi ces textes, les quatre sanctions CNIL prononcées depuis janvier 2026 dessinent un schéma d'une netteté presque pédagogique.

Date	Montant	Motif	Base légale invoquée	Résultat
Janvier 2026	100 000 €	Scoring crédit sans AIPD	Intérêt légitime	Rejeté — absence d'évaluation d'impact
Février 2026	150 000 €	Chatbot sans information IA	Intérêt légitime	Rejeté — défaut de transparence
Mars 2026	50 000 €	Reconnaissance faciale IA	Intérêt légitime	Rejeté — défaut de base légale
Janvier 2026	250 000 €	Profilage discriminatoire RH	Consentement (vicié)	Rejeté — consentement non libre

Trois entreprises sur quatre invoquaient l'intérêt légitime. Toutes ont été sanctionnées. La quatrième invoquait le consentement, mais dans un contexte employeur-salarié où le consentement est par définition vicié (déséquilibre de pouvoir). Le total : 550 000 euros en quatre mois.

Ce qui me frappe, c'est la progressivité des montants. 50 000 euros pour la reconnaissance faciale — étonnamment bas pour un traitement biométrique. 250 000 euros pour le profilage RH discriminatoire. La CNIL ne frappe pas au hasard : elle sanctionne plus lourdement là où les conséquences individuelles sont les plus tangibles. Le recrutement touche l'emploi, donc la vie des gens. La reconnaissance faciale, aussi intrusive soit-elle, restait ici limitée en périmètre.

Cette grille implicite mérite attention. Elle suggère que les prochaines sanctions IA lourdes viseront les domaines où l'impact individuel est fort : santé, crédit, assurance, éducation. Exactement les secteurs classés « haut risque » par l'IA Act. La convergence entre les deux régimes n'est pas accidentelle. J'y reviendrai dans la dernière section sur ce que nous disent les 91 avis du CEPD de ce déplacement normatif.

Le règlement délégué GPAI : l'étau se resserre sur les données d'entraînement

Le 10 mars 2026, la Commission européenne a publié le règlement délégué sur les modèles d'IA à usage général (GPAI). Ce texte est passé sous le radar de beaucoup de DPO français, focalisés sur le calendrier de l'IA Act « classique ». Erreur.

Le règlement délégué impose aux fournisseurs de modèles GPAI de documenter de manière détaillée les sources de données utilisées pour l'entraînement. Pas une vague mention. Une documentation précise : origines, méthodes de collecte, traitements appliqués, et — point capital — la base légale RGPD utilisée pour chaque catégorie de données personnelles.

Concrètement, si vous entraînez un modèle sur des données scrappées et que vous invoquez l'intérêt légitime, vous devez désormais le documenter noir sur blanc. Et cette documentation sera accessible aux autorités de surveillance. Autrement dit, la CNIL (ou son homologue européen) pourra auditer votre base légale de manière systématique, sans même avoir besoin d'une plainte.

C'est un changement de paradigme. Jusqu'ici, l'intérêt légitime fonctionnait en partie parce qu'il restait dans l'ombre. Personne ne vérifiait vraiment si le test en trois parties avait été conduit sérieusement. Le règlement délégué GPAI expose ce raisonnement à la lumière. Et sous la lumière, beaucoup d'analyses d'intérêt légitime vont s'avérer squelettiques.

PANAME et traçabilité : la CNIL s'arme pour auditer les modèles

Deux initiatives CNIL méritent une attention particulière pour quiconque s'appuie sur l'intérêt légitime dans le domaine IA.

La première, c'est le projet PANAME — un outil d'audit RGPD spécifiquement conçu pour les modèles d'IA. La CNIL a lancé un appel à participation pour le tester, ce qui signifie que l'outil est en phase de finalisation. Son objectif : évaluer systématiquement la conformité RGPD des modèles, depuis la collecte de données d'entraînement jusqu'au déploiement. L'intérêt légitime sera l'un des points de contrôle.

La seconde initiative, c'est l'outil de traçabilité des modèles d'IA publiés en source ouverte. La CNIL veut pouvoir retracer l'origine des données d'entraînement des modèles open source. Pourquoi ? Parce que beaucoup de startups françaises fine-tunent des modèles open source (Mistral, LLaMA, etc.) sans vérifier la conformité RGPD des données d'entraînement du modèle de base. Or, le fine-tuning ne « lave » pas le vice d'origine. Si le modèle fondation a été entraîné sur des données collectées illégalement, le déployer en France expose son utilisateur.

Je sais que cette position fait grincer des dents dans l'écosystème. Beaucoup de développeurs considèrent que la responsabilité s'arrête au modèle qu'ils contrôlent directement. Le RGPD dit le contraire : le responsable de traitement est responsable de l'ensemble de la chaîne, y compris des sous-traitants et des sources de données. Le fine-tuning ne crée pas une frontière juridique.

Alors, quelle base légale pour entraîner une IA en France ?

Question légitime. Si l'intérêt légitime s'effondre, que reste-t-il ?

Le consentement est théoriquement la base la plus solide. Mais obtenir un consentement valide pour l'entraînement IA pose des difficultés pratiques considérables. Le consentement doit être spécifique, éclairé et libre. Comment informer des millions de personnes dont les données sont scrappées sur le web ? On ne peut pas. Le consentement fonctionne dans un modèle B2C fermé (vous consentez à ce que vos conversations avec le chatbot soient utilisées pour améliorer le service), pas dans un modèle de collecte massive.

L'exécution contractuelle (article 6(1)(b)) ne fonctionne que pour les traitements strictement nécessaires à l'exécution d'un contrat. Entraîner un modèle va au-delà de l'exécution du service promis au client.

L'obligation légale (article 6(1)(c)) ne s'applique que quand une loi impose le traitement. Aucune loi n'oblige à entraîner une IA.

Reste l'intérêt public (article 6(1)(e)), utilisable par les organismes de recherche publique. C'est la voie suivie par l'INRIA ou le CNRS. Mais elle est fermée au secteur privé, sauf mission de service public.

La vérité, c'est que la base légale « propre » pour l'entraînement IA massif sur données personnelles n'existe probablement pas dans le RGPD tel qu'il est rédigé. Le règlement a été pensé en 2016, avant l'explosion des LLM. On demande à un texte de dix ans de réguler une technologie qu'il n'a pas anticipée. C'est bancal. Je le reconnais volontiers — et c'est peut-être la seule nuance que j'accorderai aux startups qui râlent contre le RGPD.

Mais « bancal » ne signifie pas « inapplicable ». Le RGPD s'applique. Les sanctions tombent. Et la posture du fait accompli (« on entraîne d'abord, on régularise après ») n'est plus tenable quand la CNIL dispose d'outils d'audit automatisés et que le règlement délégué GPAI impose la transparence documentaire.

Ce qui va se passer dans les 12 prochains mois

Je me risque à trois prédictions, fondées sur la trajectoire réglementaire que nous observons depuis janvier.

Première prédiction : la CNIL prononcera au moins une sanction supérieure à 500 000 euros pour un traitement IA avant fin 2026. Les 550 000 euros cumulés sur quatre sanctions sont un échauffement. La formation restreinte de la CNIL monte en puissance graduellement — c'est sa méthode historique. Les prochaines cibles seront des entreprises de taille intermédiaire ou des filiales de groupes, pas des startups en amorçage.

Deuxième prédiction : le CEPD publiera des lignes directrices spécifiques sur la base légale pour l'entraînement IA d'ici fin 2026. Les guidelines 1/2026 sur le traitement des données personnelles à des fins de recherche scientifique sont un premier pas. Le sujet « base légale + IA training » est déjà dans le programme de travail du CEPD. Quand ces lignes directrices sortiront, elles enterreront probablement l'intérêt légitime comme base par défaut.

Troisième prédiction : une vague de « privacy washing » va frapper l'écosystème IA français. Des entreprises vont commencer à afficher des « fiches de transparence » et des « analyses d'intérêt légitime » cosmétiques, conçues pour cocher les cases sans changer les pratiques sous-jacentes. On verra fleurir des documents de 40 pages produits par des cabinets de conseil, méticuleusement formatés, qui resteront dans un tiroir SharePoint sans jamais influencer une seule décision d'architecture technique. La CNIL, armée de PANAME, fera la différence entre conformité réelle et déclarative. Son outil d'audit ne se contente pas de vérifier l'existence d'une documentation — il en teste la cohérence avec le système déployé. Le décalage entre les deux produira un nouveau cycle de sanctions en 2027.

Je me trompe peut-être sur le calendrier. Peut-être que ce sera 2028. Mais la direction est tracée, et elle ne changera pas.

L'impasse et la sortie

Le fond du problème, c'est un conflit structurel entre deux logiques. La logique du RGPD, qui protège les droits individuels sur les données personnelles. Et la logique du développement IA, qui repose sur l'agrégation massive de ces mêmes données. L'intérêt légitime était le pont entre les deux. Ce pont s'effondre.

La sortie existe, mais elle est exigeante. Elle passe par les données synthétiques (une piste que même OpenAI explore désormais sérieusement), les architectures privacy-by-design intégrées dès la conception du pipeline d'entraînement, les accords de licence avec les producteurs de contenu (comme ceux négociés par certains éditeurs de presse avec des labs IA), et — il faut le dire — une refonte partielle de l'approche technique de l'entraînement.

Petite digression : j'ai assisté le mois dernier à une table ronde où un ingénieur ML affirmait que « les données synthétiques ne seront jamais aussi bonnes que les données réelles ». Peut-être. Mais les données réelles collectées illégalement ne seront jamais aussi bonnes que l'absence d'amende CNIL. Le calcul économique est simple.

Certaines entreprises l'ont compris. D'autres attendent la sanction pour réagir.

Mon conseil — et c'est un conseil subjectif, pas une consultation juridique — est de traiter la question de la base légale avant le déploiement, pas après. Documentez votre raisonnement. Faites votre AIPD. Et si votre seul argument est « intérêt légitime parce que c'est innovant », changez d'argument. L'innovation n'est pas une base légale.

Comme nous l'avons détaillé dans notre guide AIPD en 7 étapes, l'analyse d'impact est le point d'entrée obligatoire pour tout système IA traitant des données personnelles. Et pour comprendre comment IA Act et RGPD s'imbriquent concrètement, notre analyse du double régime pose les bases.

Pour évaluer où vous en êtes, notre checklist conformité IA Act + template DPA est en accès libre — c'est un point de départ, pas une fin en soi.

Sources : CNIL décisions publiques, EUR-Lex (règlement délégué GPAI mars 2026), avis CEPD février 2026, Legifrance (décret d'application IA Act mars 2026). Base de veille IAActs : 136 textes réglementaires suivis au 28 avril 2026.