Revue Bibliographique des Méthodes de Couplage des Bases de Données : Applications et Perspectives dans le Cas des Données de Santé Publique

Authors

  • Said Karim Bounebache
  • Catherine Quantin
  • Eric Benzenine
  • Guillaume Obozinski
  • Grégoire Rey

Abstract

Le couplage des bases de données est un enjeu important en santé publique, particulièrement en cette période de multiplication des bases de données administratives et de cohortes (Loth, 2015). Cette procédure consiste à faire correspondre des informations concernant un individu issues de base de données différentes sans pouvoir utiliser un identifiant unique. En France, dans le cas des données médicales et administratives, le Numéro d’Identification au Répertoire (NIR) est un exemple d’identifiant susceptible d’être utilisé pour servir de clé de couplage. Cependant ce dernier restera, en dépit de la loi du 26 janvier 2016 de modernisation de notre système de santé, difficile d’accès en raison de sa qualité d’identifiant direct commun à de nombreuses bases de données. Nous présentons les méthodes de chaînage susceptibles d’être utilisées par des chercheurs, en nous concentrant sur le modèle génératif de Fellegi et Sunter qui est une approche non supervisée, ainsi que sur quelques méthodes issues de l’apprentissage statistique. Enfin nous présentons rapidement différentes approches pour réaliser une analyse statistique sur des données appariées et comment répercuter l’incertitude de l’appariement dans l’analyse.

Published

2018-12-13

Issue

Section

Article