Desambig

Méthodes de désambiguisation pour l’analyse scientométrique

Coordinateur

Antoine Schoen (LATTS)

Présentation

L’objectif retenu dans ce projet consiste à compléter les informations issues de l’analyse interne des noms des chercheurs par une analyse externe des données de contexte.

Analyse interne

Elle porte sur les formes de graphies, et vise essentiellement à l’unification des synonymes créés par des artefacts de saisie ou de traitement :

1. variation des formes dans les documents d’origine, par exemple le nombre des prénoms 2. conventions de saisie pour les noms propres de diverses origines (particules, espaces, etc.) et pour les prénoms avec ou sans abréviation 3. problèmes de translitération (noms slaves, etc.) 4. erreurs de saisie, de typographie, de transcription informatique des caractères accentués, de codage inter-formats

Ces problèmes sont plus aggravés pour les champs d’affiliation institutionnelle, avec une variété considérable des habitudes des chercheurs dans la mention des affiliations, et des conventions de saisie par les bases de données.

Il existe de nombreuses méthodes d’analyse informatique des chaînes de caractères permettant d’aider à l’unification des synonymes de graphie, parmi lesquelles les n-grammes (et en particulier les bigrammes pondérés). D’autres méthodes peuvent être utilisés en complément.

Les synonymes sans graphie commune (changements de nom, en particulier les noms d’épouse) ne peuvent être repérés que par études complémentaires (trajectoires individuelles, contextes).

Analyse externe

Plusieurs méthodes permettent d’unifier des synonymes ou de désambigüiser des homonymes selon les sources disponibles :

  • bases de données documentaires science et brevets,
  • bases institutionnelles avec noms de professeurs/chercheurs, nécessitant le plus souvent des accords particuliers (cf. analyses des co-activités sur projet ESF-Eurostat),
  • données individuelles comme les CV, de plus en plus accessibles en ligne, et qui présentent l’avantage d’un suivi chronologique.

Nous nous intéressons ici en priorité à l’appariement contextuel à partir des champs documentaires des bases de données scientifiques type WoS ou Scopus. Les champs principaux utilisables sont :

  1. La localisation géographique des chercheurs
  2. Leur appartenance institutionnelle
  3. Les collaborations apparaissant dans les documents analysés
  4. Les citations/références, et notamment les autocitations
  5. Les spécialisations à gros grain (postes de nomenclature des disciplines, typiquement à base de journaux dans la base WoS).
  6. L’environnement textuel bref (titre et résumé des documents)
  7. L’environnement textuel long (l’ensemble du texte des documents)

Ce projet de recherche explorera en priorité les 3 premiers types d’information, généralement considérés comme porteurs d’un fort potentiel de désambiguïsation, en laissant à une phase ultérieure l’exploitation complémentaire des autres types. L’appariement contextuel permet de s’attaquer aussi bien au problème de désambigüisation des homonymes qu’à l’unification des synonymes. On mettra ici l’accent sur la première question, sans doute la plus délicate.

Pour l’appariement contextuel, le projet explorera les différentes pistes suggérées par la littérature actuelle, notamment dans l’étude des brevets :

  1. méthodes probabilistes
  2. méthodes de statistique textuelle, avec détection de contextes par classifications rapides/ analyse de réseau – méthodes globales (tous contextes confondus) – méthodes par scores,
  3. possibilité de propagation des noms standardisés, l’une des difficultés de l’analyse locale provenant des ambigüités non levées sur les éléments de contexte.

Participants au projet

LATTS :

  • Antoine Schoen

INRA-SenS :

  • Marc Barbier

OST :

  • Michel ZItt
TOP