Villejuif, le 10 avril 2024

Les premiers résultats du partenariat entre Lifen et Gustave Roussy démontrent la force de l’IA dans la structuration de données pour la recherche clinique : plus de 1 000 parcours patients structurés en moins de trois mois

Lifen, entreprise spécialisée dans l’intelligence des données de santé, et Gustave Roussy, acteur majeur de la lutte contre le cancer en Europe dévoilent, à l’occasion du congrès de l’American Association for Cancer Research (AACR) se tenant à San Diego, des premiers résultats prometteurs quant au potentiel de l’IA générative dans l’identification et la structuration des données. En décembre, Lifen et Gustave Roussy ont annoncé le lancement de la cohorte multicentrique LUCC (Large & Unified Cancer Cohort) avec pour objectif de mieux comprendre l’évolution de la maladie et d’accélérer l’innovation thérapeutique pour les patients atteints du cancer du poumon. Cette première étude visait à développer et valider une méthode basée sur l'IA pour automatiser la saisie des informations des patients atteints de cancer du poumon. Les résultats ont mis en évidence, une performance équivalente entre la saisie manuelle par des médecins et la structuration grâce à l’IA avec un gain de temps considérable pour cette dernière.

En décembre, Lifen et Gustave Roussy ont annoncé la signature d’un accord cadre visant à accélérer la recherche médicale, cette collaboration s’inscrit dans le plan France 2030, pour faire de la France le pays leader de la recherche clinique en Europe. Le premier projet du duo est le projet LUCC (Large & Unified Cancer Cohort) qui a pour objectif de constituer une base de données de premier plan pan-cancer, en commençant par le cancer du poumon en France. Il prévoit d'inclure 5 000 patients à horizon fin 2024 à travers plusieurs centres investigateurs et d'en analyser le parcours de soins sur plus de 200 critères. Afin de faciliter et accélérer la recherche multicentrique, Lifen a développé DataLab, une solution qui transforme automatiquement et en temps réel les informations des patients des établissements en bases de données anonymisées et exploitables. Constamment actualisées, ces données sont ainsi mises à disposition des équipes de recherche sans action supplémentaire de leur part.

La constitution de bases de données médicales à grande échelle est indispensable à l’avancée de la recherche clinique, mais aujourd’hui la structuration de ces données reste complexe. Avec cette première étude comparative, menée sur une cohorte de 1 057 patients atteints de cancer thoracique, l'IA a présenté une concordance de 91,9 % avec les données issues de la saisie manuelle et sur les 360 discordances examinées, 164 sont attribuables à des erreurs de la méthode automatique de Lifen et 159 à des erreurs de saisie manuelle. A noter également que ⅔ des erreurs de la méthode automatique sont imputables à un accès limité à la donnée. L’étude démontre que l’IA générative se révèle très efficace et permet d'identifier et de structurer les données non structurées des documents médicaux des patients, notamment à partir des comptes-rendus et des réunions de concertation pluridisciplnaires, avec une cohérence similaire à la saisie manuelle par les médecins. En plus de cette précision, l’IA a permis un gain de temps de 85 %, un atout majeur dans la recherche médicale. Ces résultats évoquent des pistes intéressantes pour les hôpitaux et les entités de recherche souhaitant optimiser les performances des conversions entre les dossiers patients informatisés et les bases de données, en termes d'efficacité, de précision et de flexibilité.

Mihaela Aldea, Oncologue médical :

"La structuration des données offre un potentiel considérable pour répondre aux interrogations cliniques et de recherche. À l'heure actuelle, cette tâche repose sur les médecins, les internes, les étudiants, les gestionnaires de données et constitue un processus chronophage et sujet à l'erreur humaine, dépendant de l'objectivité et des connaissances de l'individu responsable de la saisie. L'adoption d'un système automatique, basé sur l'intelligence artificielle, vise à offrir une solution évolutive, capable de traiter efficacement les données de larges populations de patients, tout en garantissant uniformité et fiabilité dans la saisie. Cet algorithme a démontré une performance au moins équivalente au remplissage manuel pour les variables démographiques, les facteurs de risque, les comorbidités et l'historique de la maladie. Toutefois un potentiel d'amélioration demeure pour les données relatives à la réponse au traitement et à la survie. Nous œuvrons à développer une solution apportant un réel soutien au personnel médical et aux patients!

Franck le Ouay, Co-Fondateur de Lifen :

Les premiers résultats de cette collaboration entre Lifen et Gustave Roussy, présentés par le docteur Mihaela Aldea lors de la convention de l'American Association for Cancer Research, montrent que nous sommes aujourd’hui capables d'alimenter très rapidement une base de données structurées au sein des établissements de santé. Ce premier test est significatif car il démontre que l'IA ouvre de nouvelles perspectives pour la recherche médicale et la prise en charge personnalisée des patients. Notre objectif est maintenant d'accélérer dans la construction de cette base et d’accroître l’exhaustivité des données saisies pour mieux comprendre l'évolution de la maladie chez les patients atteints.

Méthodologie 

Cette étude, a été menée sur 1057 patients atteints de cancer thoracique vus à Gustave Roussy entre février 2021 et juin 2023 afin de comparer l’efficacité de la saisie manuelle des données (MDE) avec collecte rétrospective manuelle des données dans une base de données RedCap sécurisée, et la saisie automatisée des données (ADE). La méthodologie adoptée par Lifen pour structurer les données repose sur une combinaison d'IA générative, qui identifie et organise les variables, et d'actions spécifiques utilisant un modèle de langage étendu (LLM). En parallèle, les données de mortalité ont été extraites automatiquement du registre public français, l'INSEE, pour une intégration précise dans l'analyse. Les résultats de l'étude ont porté sur diverses catégories de données, telles que les données démographiques, les facteurs de risque, les comorbidités, le profil moléculaire, l’histoire du cancer, les données de traitement et les données de survie. Pour évaluer la fiabilité et la précision des méthodes de saisie des données, plusieurs mesures ont été adoptées. Cela inclut la comparaison de la concordance entre la saisie manuelle (MDE) et la saisie automatisée des données (ADE), suivie d'un examen manuel secondaire en cas de discordance, supervisé par le médecin principal. L'exhaustivité des données a été examinée pour garantir la représentativité de l'ensemble des informations pertinentes. Le temps requis par patient pour chaque méthode de saisie des données a également été pris en compte pour évaluer l'efficacité opérationnelle de chaque approche.

 

Catégorie de la page: