Plateforme digitale CorTexT

Les investissements réalisés pour concevoir et proposer une Plateforme Numérique, CorTexT, correspondent à un enjeu fondamental de l’IFRIS. ?En effet, assurer le développement de recherches portant sur les sciences, les techniques et l’innovation en société suppose de relever des défis de construction, de traitement et d’analyse de jeux de données numériques dont la prolifération est croissante et la variété considérable. Comme l’indique la notion d’Humanité Digitale, il est devenu important aujourd’hui de mettre à profit l’étude d’un nombre croissant de bases de données numériques permettant une exploration à grande échelle de la littérature scientifique, de la littérature grise, de la production et de la gestion des données des laboratoires, des brevets, des articles de presse, de la blogosphère…

Mais cette profusion de données numériques n’a d’intérêt que si sont mises au point de nouvelles méthodes d’exploration et d’analyse en lien avec les questions que se posent les chercheurs de différentes disciplines des sciences humaines et sociales. Ces méthodes visent à améliorer l’articulation entre approches qualitatives et approches quantitatives, en permettant de gérer de larges quantités de données sans renoncer à la finesse de l’analyse. Elles sont également le fruit d’un travail de conception dans l’usage et mobilisées de façon collective ou individuelle dans des projets de recherche.

Le principal atout de la plateforme numérique consiste en une expérience éprouvée depuis 3 ans de collaborations entre SHS, informatique, théorie des systèmes complexes, méthodes de traitement automatique de la langue. Le LabEx SITES permet de poursuivre et d’amplifier les efforts réalisés depuis la création de l’IFRIS avec deuc projets complémentaires : la plateforme CorText et le pôle indicateurs.

Principaux éléments marquants

Concernant la plateforme CorText

Les quatre premières années sont celles d’une « accumulation primitive » qui a permis de mettre en place une « infrastructure »: un espace qui permet de réunir des compétences et des outils de constitution et de traitement des corpus complexes. Les réalisations se distribuent en deux ensembles complémentaires :

1/ le développement d’un certain nombre d’outils de base qui sont aujourd’hui réunis dans un outil, CorText Manager, qui est accessible sur le web. L’avantage de ces outils est qu’ils sont génériques et qu’ils reposent sur des algorithmes originaux permettant de faire des analyses dynamiques et multi-échelles. Une première exploitation de ces outils a été présentée lors d’une compétition sur les « Big Data » organisée par les Nations Unies à New york;

2/ des expériences de partenariat sur des projets de recherche en SHS qui mobilisent les outils de la plateforme. Les sujets sont très divers : analyse des formes de « sociabilité électroniques » ; les savoirs sur les maladies orphelines ; les controverses sur les algues vertes ; la structuration de domaines de recherche (nanotechnologies, bioénergies, agroécologie), l’émergence de promesses technologiques comme la biologie de synthèse.

Concernant le Pôle Indicateurs

Les réalisations les plus marquantes consistent dans la production du Corporate Invention Board (qui a été lancé en décembre 2009 et devrait être complété par un Corporate Scientifc Board) et d’une carte globales de la technologie. Comme la plateforme CorText, le Pôle Indicateurs est aussi versé dans des travaux méthodologiques concernant la délinéation des corpus, les méthodes de visualisation des résultats et les questions de désambiguïsation et d’unification des noms d’acteurs de la recherche.

Equipe CorTexT

Pour de plus amples informations sur la plateforme, voir le site internet CorTexT.

TOP