Open Data en santé : où en est-on ?
Depuis début avril, le nouveau Système National des Données de Santé (SNDS) est ouvert à certains organismes publics comme l’Assurance Maladie, les agences sanitaires ou les équipes de recherche des centres hospitaliers universitaires. Ils disposent d’un accès permanent à nos données de Santé dans différents niveaux de précision.
Pour les autres acteurs, les procédures d’accès sont en cours de mise en place.
Une ouverture progressive initiée en 2014
Suite aux demandes croissantes de la société civile, et sous l’impulsion des directives européennes, une démarche d’ouverture des données de santé a été initiée depuis plusieurs années par les pouvoirs publics. A partir de 2014 l’Assurance Maladie a mis à disposition du grand public des jeux de données sur la plateforme data.gouv.fr ou sur ameli.fr : les dépenses d’assurance maladie tous régimes confondus, les remboursements de médicaments avec des caractéristiques sur leurs prescripteurs et leurs bénéficiaires, enfin les remboursements d’actes de biologie médicale. Depuis 2016, elle organise des hackathons visant à imaginer des solutions innovantes en utilisant ses jeux de données (la prochaine session est consacrée à la prise en charge du diabète). Le succès de ces initiatives a conforté la démarche d’ouverture progressive des données de santé avec notamment la loi de Santé prévoyant la création du SNDS.
Les bénéfices attendus sont prometteurs tant sur l’aspect médical qu’administratif : meilleure régulation du système de santé, amélioration de la qualité des soins, surveillance sanitaire, optimisation des parcours patient, … La mise en place du SNDS répond à ces attentes et propose une réelle démarche d’open data qui permettra à tous les acteurs d’apporter leurs compétences dans l’analyse des données de santé. Elle pose cependant beaucoup de questions sur la manière dont ils auront accès à ces données, ainsi que sur leur sécurisation.
Le contenu du SNDS et ses modes d’accès
Le SNDS permet de consolider une connaissance complète des parcours de santé de la population française. Il regroupera à terme les données des plus grandes bases médico-administratives nationales : SNIIRAM (principalement l’activité de la médecine de ville), PMSI (activité des établissements de santé), CépiDC (données de mortalité), CNSA (données sur le handicap) et organismes complémentaires (échantillon représentatif).
Toute personne souhaitant mener des études ou des recherches portant un intérêt public pourra obtenir un accès à ces données sous réserve d’une autorisation de la CNIL. Seuls sont proscrits les usages pour deux finalités : « la promotion commerciale des produits de santé et la modulation des contrats d’assurance ».
Un guichet unique des demandes sera géré par l’INDS (Institut National des Données de Santé), qui lui-même s’appuiera sur l’analyse d’un Comité d’Expertise, le CEREES, chargé d’évaluer la cohérence entre la finalité de l’étude proposée, la méthodologie présentée et le périmètre des données auquel il est demandé accès. Dans le cas de recherches cliniques un autre comité d’expertise, le CPP, sera chargé de l’évaluation éthique.
Le mode d’accès aux données dépendra de l’activité du demandeur. Pour les laboratoires et les assureurs, le recours à un organisme de recherche indépendant est prévu, afin d’éviter les réutilisations frauduleuses.
En complément, des procédures simplifiées d’accès aux données seront possibles, si le demandeur s’engage à suivre une méthodologie de référence (autorisation automatique), ou s’il souhaite accéder à des jeux de données agrégées ou des échantillons de population (accès autorisé dans un cadre à définir par la CNIL).
Quelle sécurisation pour les données ?
Les données seront « anonymisées » : le numéro de sécurité sociale, le sexe et la date de naissance du patient seront transformés de manière irréversible comme c’est déjà le cas aujourd’hui dans le SNIIRAM. Cependant l’explosion prévisible de l’usage des données individuelles va augmenter les risques de ré-identification par croisement de données.
Pour y remédier certaines données trop discriminantes seront exclues, d’autres seront restituées à des niveaux géographiques agrégés, les capacités de croisement de données potentiellement identifiantes seront limitées en fonction des acteurs. Enfin tous les accès aux données seront tracés. Une sécurisation du traitement d’anonymisation est également nécessaire (il utilise un algorithme obsolète) et une nouvelle plateforme sécurisée sera gérée par l’INSERM pour la mise à disposition des données.
Les limites de l’Open Data
L’ouverture du SNDS est très attendue et il faut reconnaître les efforts de l’Etat pour permettre ces nouveaux modes d’accès sans sacrifier la confidentialité de nos données de santé. Mais leur exploitation est complexe et nécessite un important effort d’accompagnement des utilisateurs. Il faut renforcer les équipes d’experts (médecins de santé publique, data-scientists, économistes) pour interpréter les demandes, les adapter aux données, et supporter la charge d’instruction des dossiers. Par ailleurs ces nouveaux dispositifs sont coûteux et l’Etat réfléchit à un modèle économique, par exemple via des services payants pour les acteurs privés.