Meta dans la tourmente: Mediapart révèle l'usage de millions de livres piratés pour l'IA

Une enquête récente relance les interrogations sur la provenance des données employées pour entraîner les grands modèles d’intelligence artificielle et met en lumière des pratiques qui pourraient concerner directement le paysage français. Le 22 décembre, Mediapart publie des documents qui établissent un lien entre l’usage de la bibliothèque illicite Library Genesis (connue sous le nom LibGen) et des travaux menés chez Meta, impliquant notamment le chercheur aujourd’hui associé à Mistral AI.

Sommaire

Accusations centrées sur des documents internes

Selon l’enquête, des éléments issus d’un dossier judiciaire — constitué dans le cadre d’un procès intenté par plusieurs auteurs contre Meta — montrent que des données issues de LibGen auraient alimenté l’entraînement du modèle LLaMA. Mediapart rapporte que des e-mails, extraits de code et auditions corroboreraient ces usages pendant l’année 2022.

Les pièces évoquées mentionnent la participation supposée de Guillaume Lample, alors employé de Meta, qui aurait encouragé ses collègues à recourir à cette source afin d’accélérer le développement des modèles. Les échanges internes citeraient aussi d’autres acteurs du secteur comme référence à des pratiques similaires.

Questions juridiques et volume des données

Plusieurs passages de l’enquête portent sur la conformité légale : une salariée aurait demandé si l’équipe juridique avait validé l’utilisation de contenus issus de LibGen. D’après Mediapart, la réponse du chercheur n’aurait pas inclus de consultation formelle du service juridique, laissant planer le doute sur une décision opérée sans validation explicite.

Les documents présentés au tribunal indiquent, toujours selon le média, que des téléchargements massifs ont été effectués dès octobre 2022 — un volume estimé à près de 70 téraoctets — et qu’à un moment Meta a envisagé l’achat de licences avant de se tourner vers des solutions gratuites.

Allégations : usage de fichiers protégés issus de LibGen pour entraîner des modèles chez Meta.

Sources citées : e-mails internes, extraits de code, auditions dans le cadre d’un procès d’auteurs.

Date clé : téléchargements signalés à partir d’octobre 2022 ; enquête publiée le 22 décembre.

Volume évoqué : environ 70 téraoctets de données.

Conséquence possible : enjeux juridiques pour les plateformes et risques réputationnels pour les acteurs associés, y compris des start-up françaises.

Quid de Mistral AI ?

La situation prend une tournure sensible parce que la personne mise en cause occupe désormais une place importante chez Mistral AI, la jeune pousse française lancée en 2023 et valorisée autour de 10 milliards d’euros. L’entreprise a insisté depuis sa création sur l’utilisation de jeux de données « de qualité » et sur la signature de licences — elle a d’ailleurs annoncé des partenariats avec des institutions comme l’AFP, l’INA et la BnF.

Cependant, malgré les accusations qui pèsent sur l’ancien employeur du chercheur, il n’existe à ce stade aucune preuve publique permettant d’affirmer que Mistral AI aurait fait usage de LibGen dans ses premiers développements. Des témoignages d’anciens salariés de Meta cités par Mediapart estiment que la bibliothèque illicite aurait pu être mobilisée lors de phases initiales, mais ces déclarations restent partielles et non vérifiées de manière indépendante.

Pourquoi cela compte aujourd’hui

La controverse touche au cœur des débats sur la traçabilité des données d’apprentissage : transparence, respect du droit d’auteur et responsabilité des entreprises sont désormais au premier plan. Pour les utilisateurs, chercheurs et clients de modèles d’IA, l’origine des corpus conditionne la fiabilité juridique et éthique des systèmes déployés.

Sur le plan pratique, plusieurs conséquences sont possibles : renégociations de licences, audits externes des jeux de données, et actions judiciaires susceptibles d’entraîner des amendes ou des restrictions d’usage. Pour les acteurs français, l’enjeu est double : protéger une réputation naissante et garantir la confiance des partenaires institutionnels et commerciaux.

Les investigations publiées par Mediapart constituent une étape importante, mais la situation reste évolutive. Les documents judiciaires apportent des éléments à examiner, et la prudence s’impose avant de tirer des conclusions définitives. Les prochains épisodes — réponses officielles de Meta et de Mistral AI, suites judiciaires éventuelles — détermineront l’ampleur réelle des conséquences.

Meta dans la tourmente: Mediapart révèle l’usage de millions de livres piratés pour l’IA

Munci

Nos rubriques

Liens rapides

Meta dans la tourmente: Mediapart révèle l’usage de millions de livres piratés pour l’IA

Accusations centrées sur des documents internes

Questions juridiques et volume des données

Quid de Mistral AI ?

Pourquoi cela compte aujourd’hui

Articles similaires

Laissez un commentaire ici... Annuler la réponse

Munci

Nos rubriques

Liens rapides