Fouille de textes et de données - TDM

Qu’est-ce que c’est ?

La fouille de textes et de données, aussi appelée text and data mining (TDM), est un ensemble de techniques visant à « […] la mise en œuvre d’une technique d’analyse automatisée de textes et données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations  » (article L122-5-3 I. du Code de Propriété Intellectuelle, créé par l’Ordonnance n°2021-1518 du 14 novembre 2021).

Autrement dit, le TDM consiste à utiliser des outils informatiques pour extraire des informations, liens, motifs récurrents au sein d’un corpus de textes ou de données.

La Directive européenne sur le droit d’auteur et les droits voisins dans le marché unique numérique de 2019 (notamment les articles 3 et 4) introduit une exception pour l’utilisation de technologies de fouille de textes et de données qui a pour objectif de faciliter la recherche et l’innovation au sein de l’Union européenne.

Type de contenus concernés

L’ensemble des textes et tous les types de contenus numériques sont couverts par le cadre réglementaire : corpus textuels, données, images fixes ou animées, sons, musiques, logiciels, etc.

Qui peut faire usage du TDM ?

Les personnels des universités et d’organismes de recherche, des bibliothèques ouvertes au public, des musées, des services d’archives et des institutions dépositaires du patrimoine cinématographique, audiovisuel ou sonore peuvent faire usage du TDM. Aucune compensation n’est à verser au titulaire des droits. L’accès aux documents doit cependant se faire façon licite (voir paragraphe suivant) et uniquement dans le cadre de recherches.

Qu’est-il permis de faire ?

Il est permis de « reproduire des contenus protégés par des droits de propriété intellectuelle dans le but de conduire des activités de fouille à des fins de recherche scientifique, sans avoir à recueillir d’autorisation préalable des « titulaires de droits » (les producteurs des bases de données, les propriétaires des textes et/ou des données ciblés par le TDM : entreprises, éditeurs, …) ou à obtenir des licences de leur part ».

« Les copies obtenues sur la base de cette « exception » en faveur du TDM peuvent être conservées aussi longtemps que nécessaire avec un niveau de sécurité approprié par ses bénéficiaires, notamment pour permettre la conduite de nouvelles recherches scientifiques ou servir à la vérification de résultats. […] avec pour effet de renforcer la reproductibilité des résultats de recherche et le caractère cumulatif de la science » (cf article dédié à la fouille de textes sur le site Ouvrir la Science).

Concrètement, les chercheurs sont autorisés à travailler sur des documents et des données auxquelles ils ont eu accès légalement : soit car ceux-ci sont disponibles en libre accès, soit via les documents acquis par leur établissement ou bien via les abonnements à des bases en ligne de leur bibliothèque. Des publications ou données en accès fermé obtenues par des moyens illicites ne doivent pas faire l’objet de TDM.

Attention, cependant, si la loi autorise les chercheurs à travailler sur ces données et documents, les éditeurs des bases peuvent parfois interdire le téléchargement massif de documents, aussi appelé moissonnage. Il est ainsi important de contacter les éditeurs concernés avant toute action de fouille de texte et de données, qui commence dès le téléchargement des données et documents.

Pour vous aider, nous vous conseillons de signaler votre projet de TDM à l’adresse avant toute opération de téléchargement de masse, afin d’éviter le blocage des accès de l’établissement par le fournisseur de contenu concerné, qui pourrait penser à une attaque.

Quand le TDM ne peut-il pas être utilisé ?

Dans le cadre d’un partenariat à but lucratif entre acteurs publics et privés : « lorsqu’une entreprise est actionnaire ou structurellement associée à un organisme de recherche et bénéficie par ce biais d’un accès privilégié aux données, alors cet organisme ne peut mobiliser l’exception à des fins de recherche scientifique » (cf article dédié à la fouille de textes sur le site Ouvrir la Science).
Lorsque les contenus à fouiller contiennent des données protégées. L’exception du TDM doit en effet s’articuler avec le RGPD et en respecter les obligations (cf le Règlement UE 2016/679 du Parlement Européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation des données). Exemple : des données personnelles non anonymisées.

Les ressources de l’Université de Lorraine disponibles pour réaliser des opérations de TDM

Abonnements à des ressources disposant d’un cadre dédié au TDM

Pour toute action de fouille de textes et de données sur ces ressources, merci de vous adresser au préalable à , afin d’éviter le blocage des accès de l’établissement par le fournisseur de contenu concerné. Pour les éditeurs concernés, une clé API vous sera fournie.

Springer Archives et Nature : une clé API peut être fournie pour toute demande de TDM : https://api.springernature.com/ (pour en savoir plus : https://link.springer.com/).
Sage Archives : il est possible d’utiliser l’API CrossRef Text and Data Mining.
Elsevier : une API spécifique est dédiée au TDM.
ACM (Association for Computing Machinery) : pour toute demande de TDM, une API sera fournie par l’éditeur ou par un tiers de confiance (cf accords Couperin).
RSC – Royal Society of Chemistry : absence de mention d’API.

Ressources accessibles à l’ensemble de la communauté de l’ESR

ISTEX

Istex, ou Initiative d’EXcellence en Information Scientifique et Technique, est une plateforme opérée par l’Inist-CNRS dans le cadre d’un programme de financement d’achat d’archives de revues scientifiques par l’État. Ses 30 millions de documents, répartis en 50 bouquets éditeurs et 2 bouquets en libre accès, sont accessibles aux seuls membres de l’Enseignement Supérieur et de la Recherche. Les métadonnées sont quant à elles visibles par tous. 63 langues sont représentées, mais la majeure partie des documents sont en anglais, allemand et français. Les documents couvrent une large aire temporelle (de 1455 à aujourd’hui) et disciplinaire (sciences humaines et sociales, sciences fondamentales et appliquées, notamment).

Vous pouvez y créer des corpus sur Istex-Search, interroger des webservices depuis TDM webservices ou lancer des traitements sur vos données depuis TDM Factory. Lodex vous permet ensuite de continuer vos traitements et analyses sur votre corpus et enfin de visualiser vos données et votre corpus. Les services Istex sont accessibles à tous les membres de l’Enseignement Supérieur et de la Recherche.

Des formations aux outils Istex sont proposées par l’équipe de l’Inist-CNRS. Des tutoriels sont également disponibles sur le site Callisto.

Ressources patrimoniales ouvertes

Data BnF, Gallica

Data BnF et Gallica sont deux initiatives de la Bibliothèque nationale de France (BnF).

Gallica est une bibliothèque numérique qui offre un accès libre et gratuit à plusieurs millions de documents numérisés de toutes époques et de tous supports. Gallica est interrogeable depuis le portail BnF API.
Data BnF s’inscrit quant à lui dans le cadre du web sémantique et donne accès à plusieurs millions de métadonnées liées issues du catalogue de la BnF. L’interrogation de la base peut se faire en Sparql.

Inscrits à la bibliothèque de recherche de la BnF ? Vous pourriez bénéficier des services du BnF DataLab, services dédiés aux chercheurs, de la constitution de corpus jusqu’à la fouille de données, depuis les collections numériques de la BnF. Pour plus d’informations, consultez la page du BnF DataLab, ainsi que le formulaire de candidature.

Comment faire du TDM ? Présentation de quelques outils d’analyse

Différents outils libres peuvent être utilisés dans le cadre d’analyses textuelles et de données.

Des logiciels installés sur l’ordinateur, tels que RStudio (basé sur le langage R) et Iramuteq (basé sur les langages R et Python), mais également des solutions tout en ligne, telles que et TDM Factory existent pour vos aider dans vos opérations de fouille de texte et de données.

Iramuteq est un logiciel libre, développé par le LERASS (Université Toulouse 2, LabEx SMS), reposant sur le logiciel R et le langage Python. Vous trouverez toute une documentation en français et de nombreux exemples pratiques.
Cortext Manager, logiciel développé par le LISIS (Université Gustave Eiffel), est un outil dédié à l’analyse et la transformation de données. Disponible en ligne, il est compatible avec le format de téléchargement de données Istex (cf « Ressources accessibles à l’ensemble de la communauté de l’ESR »), afin de permettre une exploration plus facile de vos données. Forum Cortext : https://docs.cortext.net/forum/
TDM Factory « est une interface intuitive qui vous permet de charger vos propres données et d’y appliquer facilement des traitements de fouille de textes » (site de présentation de TDM Factory), développée par l’Inist-CNRS dans le cadre de l’initiative Istex (cf « Ressources accessibles à l’ensemble de la communauté de l’ESR »).

Cette liste n’a pas vocation à être exhaustive. Des logiciels existent également au sein même des laboratoires, qui ont pu être créés dans le cadre de projets de recherches précédents. Des réponses à vos besoins logiciels existent donc peut-être déjà dans votre unité de recherche.

Conseil pratique

N’oubliez pas de bien structurer vos données avant de lancer vos analyses. En effet, certains outils (comme Iramuteq) prennent en entrée des formats de données bien particuliers. Pour une analyse simplifiée, vos fichiers doivent avoir été nettoyés au préalable et correctement formatés (UTF-8 ou caractères latins, format .tsv, .csv, …).

Le saviez-vous ? L’équipe ADOC Lorraine vous accompagne également pour trouver des données :

Comment visualiser mes données ?

Certains des outils présentés précédemment (RStudio, Lodex, Iramuteq) permettent également de visualiser des données.

D’autres outils libres tels que Gephi ou VosViewer sont spécialisés dans la visualisation de données, notamment dans l’affichage de réseaux et de nœuds.

L’équipe Science Ouverte à l’Université de Lorraine vous propose des sessions de formation à VosViewer tout au long de l’année.

Qui vous accompagne ?

L’équipe ADOC Lorraine est là pour vous accompagner. Contactez-nous à

Ressources bibliographiques

Institut de l’Information Scientifique et Technique. DoRANum – Aspects juridiques, éthiques, intégrité scientifique : Text and Data Mining [En ligne]. 2017. Disponible sur : https://doi.org/10.13143/YWKR-5W34
« Ouvrir la Science – La fouille de textes et de données à des fins de recherche : une pratique confirmée et désormais opérationnelle en droit français ». Disponible sur : https://www.ouvrirlascience.fr/la-fouille-de-textes-et-de-donnees-a-des-fins-de-recherche-une-pratique-confirmee-et-desormais-operationnelle-en-droit-francais/
Francom J. An Introduction to Quantitative Text Analysis for Linguistics : Reproducible Research Using R. Taylor & Francis, 2025. [En ligne]. Disponible sur : https://directory.doabooks.org/handle/20.500.12854/143905
Levshina Natalia. How to do linguistics with R: data exploration and statistical analysis. Amsterdam Philadelphia (Pa.) : John Benjamins Publishing Company, 2015. Disponible sur le catalogue des bibliothèques de l’Université de Lorraine.
Schultz Emilien. Python pour les SHS : introduction à la programmation pour le traitement de données. Rennes : Presses universitaires de Rennes, 2020. Disponible sur le catalogue des bibliothèques de l’Université de Lorraine.

Le TDM à l’Université de Lorraine : quelques exemples pratiques

Exemples d’articles extraits d’une recherche OpenAlex en date du 21/11/2025.

Requête API utilisée
https://api.openalex.org/works?page=1&filter=title_and_abstract.search:text+and+data+mining,authorships.institutions.lineage:i90183372&sort=relevance_score:desc&per_page=10

Dina N. Z., Yunardi R. T., Firdaus A. A., Juniarta N. « Measuring User Satisfaction of Educational Service Applications using Text Mining and Multicriteria Decision-Making Approach ». International Journal of Emerging Technologies in Learning (iJET) [En ligne]. 6 septembre 2021. Vol. 16, n°17, p. 76. Disponible sur : https://doi.org/10.3991/ijet.v16i17.22939
Ostaszewski M., Niarakis A., Mazein A., Ravel J.-M. [et al.]. « COVID19 Disease Map, a computational knowledge repository of virus–host interaction mechanisms ». Molecular Systems Biology [En ligne]. 1 octobre 2021. Vol. 17, n°10, p. e10387. Disponible sur : https://doi.org/10.15252/msb.202110387
Pateyron B., Weber M., Germain P. « Essai d’analyse lexicale et stemma codicum de quatre-vingt-trois rituels de Chevaliers Kadosh de la collation du fonds de l’atelier de recherches Sources ». Nouvelles perspectives en sciences sociales [En ligne]. 1 avril 2016. Vol. 11, n°1, p. 93‑144. Disponible sur : https://doi.org/10.7202/1035934ar

Exemple d’un jeu de données constitué à partir de méthodes de TDM :

Tchiedjo, Marie Laure; Thomas, Marielle; Pétronin, Florent; Kestemont, Patrick; Lecocq, Thomas, 2025, « Data Extracted from Scientific Articles on Worldwide Fish Polyculture », https://doi.org/10.57745/8PDRLJ, Recherche Data Gouv, V2.

Fouille de textes et de données – TDM