Une étude révèle que le risque de partage des données de santé est faible | Nouvelles du MIT

Ces dernières années, les scientifiques ont fait de grands progrès dans leur capacité à développer des algorithmes d’IA capables d’analyser les données des patients et de proposer de nouvelles façons de diagnostiquer la maladie ou de prédire quels traitements sont les meilleurs pour différents patients.

Le succès de ces algorithmes dépend de l’accès aux données de santé des patients, qui ont été dépouillées des informations personnelles qui pourraient être utilisées pour identifier les individus à partir de l’ensemble de données. Cependant, la possibilité que des individus soient identifiés par d’autres moyens a soulevé des inquiétudes parmi les défenseurs de la vie privée.

Dans une nouvelle étude, une équipe de chercheurs dirigée par le chercheur principal du MIT, Leo Anthony Seeley, a identifié les risques potentiels de ce type de réidentification des patients et a constaté qu’il est actuellement trop faible pour le risque de violation de données. En fait, entre 2016 et 2021, la période examinée dans l’étude, il n’y a eu aucun rapport de réidentification de patients grâce à des données de santé accessibles au public.

Les résultats suggèrent que les risques potentiels pour la vie privée des patients sont largement compensés par les gains pour les patients, qui bénéficient d’un meilleur diagnostic et traitement, dit Seeley. Il espère que ces ensembles de données deviendront plus largement disponibles dans un proche avenir et incluront un groupe de patients plus diversifié.

“Nous convenons qu’il existe un certain risque pour la vie privée des patients, mais il existe également un risque de ne pas partager les données”, a-t-il déclaré. “Il y a un mal lorsque les données ne sont pas partagées, et cela doit être pris en compte dans l’équation.”

Seely, qui est également instructeur à la Harvard TH Chan School of Public Health et médecin traitant dans la division des soins pulmonaires, intensifs et de la médecine du sommeil au Beth Israel Deaconess Medical Center, est l’auteur principal de la nouvelle étude. Kenneth Systead, chercheur en chirurgie thoracique au Beth Israel Deaconess Medical Center, est l’auteur principal de l’article, qui paraît aujourd’hui dans PLOS de santé numérique.

Analyse des risques et avantages

Les grandes bases de données de dossiers de santé créées par les hôpitaux et d’autres institutions contiennent une mine d’informations sur des maladies telles que les maladies cardiaques, le cancer, la dégénérescence maculaire et le Covid-19, que les chercheurs utilisent pour essayer de découvrir de nouvelles façons de diagnostiquer et de traiter les maladies.

Celi et d’autres du laboratoire de physiologie computationnelle du MIT ont créé plusieurs bases de données accessibles au public, notamment le Marketplace for Intensive Care Medical Information (MIMIC), qu’ils ont récemment utilisé pour développer des algorithmes pouvant aider les médecins à prendre de meilleures décisions médicales. De nombreux autres groupes de recherche ont également utilisé les données, et d’autres ont créé des bases de données similaires dans des pays du monde entier.

Généralement, lorsque les données des patients sont saisies dans ce type de base de données, certains types d’informations d’identification sont supprimés, notamment les noms, adresses et numéros de téléphone des patients. Ceci est destiné à empêcher les patients d’être ré-identifiés et de publier des informations sur leurs conditions médicales.

Cependant, les préoccupations concernant la confidentialité ont ralenti le développement de bases de données plus accessibles au public avec ce type d’informations, dit Celi. Dans la nouvelle étude, lui et ses collègues ont entrepris de se demander quels sont les risques réels de réidentification des patients. Tout d’abord, ils ont recherché dans PubMed, une base de données d’articles scientifiques, des rapports de redéfinition de patients à partir de données de santé accessibles au public, mais n’en ont trouvé aucun.

Pour étendre la recherche, les chercheurs ont ensuite examiné les reportages des médias de septembre 2016 à septembre 2021, à l’aide de Media Cloud, une base de données d’actualités mondiales open source et un outil d’analyse. En recherchant plus de 10 000 publications dans les médias américains pendant cette période, ils n’ont trouvé aucun cas de réidentification de patient à partir de données de santé accessibles au public.

En revanche, ils ont constaté qu’au cours de la même période, les dossiers de santé de près de 100 millions de personnes ont été volés à la suite de violations de données d’informations censées être stockées en toute sécurité.

“Bien sûr, il est bon de s’inquiéter de la vie privée des patients et du risque de réidentification, mais ce risque, bien qu’il ne soit pas nul, est très faible par rapport au problème de la cybersécurité”, déclare Seeley.

meilleure représentation

Le partage à grande échelle de données de santé anonymisées est essentiel pour aider à élargir la représentation des minorités aux États-Unis, qui ont traditionnellement été sous-représentées dans les études médicales, dit Seeley. Il s’emploie également à encourager le développement d’un plus grand nombre de bases de données dans les pays à revenu faible ou intermédiaire.

“Nous ne pouvons pas aller de l’avant avec l’IA sans nous attaquer aux biais inhérents à nos ensembles de données”, dit-il. “Lorsque nous avons ce débat sur la vie privée, personne n’entend la voix des personnes qui ne sont pas représentées. Les personnes en leur nom décident que leurs données doivent être protégées et non partagées. Mais ce sont eux dont la santé est en jeu. Ils sont ceux qui sont les plus susceptibles de bénéficier du partage des données.

Plutôt que d’exiger le consentement du patient pour partager des données, ce qui, selon lui, pourrait exacerber l’exclusion de nombreuses personnes qui sont désormais sous-représentées dans les données de santé accessibles au public, Celi recommande de renforcer les garanties existantes en place pour protéger ces ensembles de données. L’une des nouvelles stratégies que lui et ses collègues commencent à utiliser consiste à partager les données de manière à ce qu’elles ne puissent pas être téléchargées et que toutes les requêtes exécutées dessus puissent être surveillées par les administrateurs de base de données. Celi dit que cela leur permet de signaler toute demande d’utilisateur qui semble ne pas être à des fins de recherche légitimes.

“Ce que nous défendons, c’est que les données soient analysées dans un environnement très sécurisé afin d’éliminer tous les acteurs malveillants qui tentent d’utiliser les données pour une autre raison que l’amélioration de la santé de la population”, dit-il. “Nous ne disons pas que nous devrions ignorer la vie privée des patients. Ce que nous disons, c’est que nous devons également équilibrer cela avec la valeur du partage des données.”

La recherche a été financée par les National Institutes of Health par le biais de l’Institut national d’imagerie biomédicale et de bioingénierie.

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال