Je dois mettre mon organisation luxembourgeoise en conformité au considérant 105 du AI Act (UE 2024/1689). Quelles sont les exigences concretes a respecter, les sanctions encourues, et comment Luxgap peut-il m'accompagner ?

Considérant 105 AI Act — Considérant 105

Cadre européenRGPD NIS 2 DORAAI ActLanceurs d'alerte

Circulaires CSSFCSSF 22/806 CSSF 25/883 CSSF 25/880 CSSF 25/881 CSSF 25/882 CSSF 20/750 CSSF 12/552 CSSF 11/504 (abrogée)CSSF 24/847

Considérant 105

Règlement établissant des règles harmonisées sur l'intelligence artificielle · UE 2024/1689

(105)

Les modèles d’IA à usage général, en particulier les grands modèles d’IA génératifs, capables de générer du texte, des images et d’autres contenus, présentent des possibilités d’innovation uniques mais aussi des défis pour les artistes, les auteurs et les autres créateurs, et la manière dont leur contenu créatif est créé, distribué, utilisé et consommé. Le développement et l’entraînement de ces modèles requièrent un accès à de grandes quantités de texte, d’images, de vidéos et d’autres données. Les techniques de fouille de textes et de données peuvent être largement utilisées dans ce contexte pour extraire et analyser ces contenus, qui peuvent être protégés par le droit d’auteur et les droits voisins. Toute utilisation d’un contenu protégé par le droit d’auteur nécessite l’autorisation du titulaire de droits concerné, à moins que des exceptions et limitations pertinentes en matière de droit d’auteur ne s’appliquent. La directive (UE) 2019/790 a introduit des exceptions et des limitations autorisant les reproductions et extractions d’œuvres ou d’autres objets protégés aux fins de la fouille de textes et de données, sous certaines conditions. En vertu de ces règles, les titulaires de droits peuvent choisir de réserver leurs droits sur leurs œuvres ou autres objets protégés afin d’empêcher la fouille de textes et de données, à moins que celle-ci ne soit effectuée à des fins de recherche scientifique. Lorsque les droits d’exclusion ont été expressément réservés de manière appropriée, les fournisseurs de modèles d’IA à usage général doivent obtenir une autorisation des titulaires de droits s’ils souhaitent procéder à une fouille de textes et de données sur ces œuvres.

Conseil Luxgap · DPO & CISO

Comment se conformer

Le piège classique

Le considérant 105 eclaire l'article 53(1)(c) du AI Act : tout fournisseur de modèle d'IA a usage general doit mettre en place une politique de respect du droit d'auteur, et notamment identifier et respecter les reservations de droits (opt-out) exprimees au titre de l'article 4(3) de la directive (UE) 2019/790. En pratique, le piège ne touche pas que les laboratoires qui entrainent des modèles : il remonte aussi sur les entreprises qui fine-tunent un modèle open-source sur leurs scrapings web, qui constituent des corpus internes à partir de sites tiers, ou qui integrent un modèle dont le fournisseur n'a pas documente sa politique copyright. L'EU AI Office (Bruxelles) supervisera directement cette obligation pour les modèles a usage general, et le contentieux civil devant les juridictions nationales reste la voie principale d'action des ayants droit.

Les signaux d'opt-out que votre pipeline d'entrainement doit détecter

Fichier robots.txt avec directives User-agent: GPTBot/CCBot/Google-Extended et Disallow.
Balises meta name="robots" content="noai, noimageai" dans le HTML.
Header HTTP X-Robots-Tag: noai.
Metadonnees TDM Réservation Protocol (norme W3C'en cours) au niveau ressource ou domaine.
Conditions generales d'utilisation interdisant explicitement la fouille de textes et de données.
Fichiers ai.txt ou tdmrep.json a la racine du domaine.
Watermarks et metadonnees EXIF/IPTC pour les images (champ Digital Source Type).

Le test 'manière appropriee' : la clé d'argumentation

L'article 4(3) de la directive 2019/790 exige que la réservation soit exprimee de manière appropriee, notamment par des moyens lisibles par machine pour les contenus en ligne. Un fournisseur ne peut donc plus se retrancher derrière l'argument 'on n'a pas vu l'opt-out' si celui-ci etait exposé dans robots.txt ou via une balise standard. Symetriquement, une mention enfouie dans des CGU PDF sans signal machine sera plus difficile a opposer. La documentation de votre pipeline doit démontrer que vous avez interroge ces signaux avant chaque collecte, et conserve la preuve horodatee.

Comment Luxgap automatise ce risque

Notre Luxgap Copyright Opt-Out Sentinel rend impossible l'entrainement ou le fine-tuning d'un modèle sur des contenus dont les ayants droit ont réservé leurs droits, en intercalant un contrôle automatique entre votre crawler et votre dataset. L'outil interroge en temps reel les signaux machine-readable (robots.txt, meta noai, X-Robots-Tag, TDMRep, ai.txt) sur chaque URL collectee, croise avec une base de domaines opt-out maintenue par Luxgap, et bloque l'ingestion des ressources reservees avant qu'elles n'atteignent votre stockage d'entrainement (S3, Azure Blob, HuggingFace Datasets, Databricks).

Scanne chaque URL avant ingestion et detecte les reservations de droits exprimees via les six standards machine-readable les plus repandus.
Bloque automatiquement le telechargement des ressources opt-out et logue la décision dans un journal cryptographiquement scelle.
Genere le 'sufficiently detailed summary' du corpus d'entrainement exige par l'article 53(1)(d) du AI Act, avec ventilation par licence, domaine source et type de contenu.
Produit la politique copyright article 53(1)(c) prete a publier, declinee selon le template attendu par l'EU AI Office.
Alerte vos équipes ML via Slack ou Teams des qu'un domaine majeur du corpus passe en opt-out, permettant un retraining propre avant mise en production.
Conserve une preuve opposable a l'EU AI Office et aux juridictions civiles : pour chaque echantillon du dataset, l'horodatage du contrôle et l'état des signaux opt-out au moment de la collecte.

Disponible en complement d'un mandat DPO ou CISO Luxgap ou en brique SaaS dediee selon votre périmètre. Demandez un devis personnalise et nos équipes preparent une demonstration sur un echantillon de votre corpus reel, avec un audit blanc gratuit sous 48h pour mesurer le taux d'opt-out deja present dans vos données d'entrainement.

Besoin d'aide sur cet article ?

Notre équipe (juristes + ingénieurs cyber) vous fournit le concret. Réponse sous 24 h ouvrées.

Considérant 105

Ils nous font confiance

Avant de discuter