Algorithmes: l'épineuse question de la validation

Algorithmes: l'épineuse question de la validation
Alors que les algorithmes prédictifs prennent de plus en plus de place dans nos vies et la gestion de notre santé, comment être sûr qu’ils sont à la fois efficaces et sûrs ?

En novembre dernier, une enquête européenne rassemblant 59 médias et 250 journalistes, pointait du doigt la défaillance des processus d’évaluation de nombreux dispositifs médicaux. « Implant Files », c’est le nom de code de cette enquête, révélait les incidents occasionnés par ces pompes à insuline, implants mammaires, pacemakers ou encore prothèses de hanche. En tout, plus de 70 000 produits ont été rappelés par plus de 1 100 fabricants ou de leurs filiales, sur une période comprise entre le début des années 1990 et 2018.

Un dispositif est cependant passé entre les mailles du filet de cette enquête : les algorithmes prédictifs. Ces programmes informatiques utilisent l’intelligence artificielle pour évaluer, analyser, diagnostiquer et même prédire les risques de maladies. Et ils sont en train de prendre de plus en plus de place dans nos vies. Une importance qui nécessite de s’assurer autant de leur efficacité que de leur innocuité. Comme le rappelle Swissmedic, «les directives de l'Union Européenne contiennent plusieurs procédures d'évaluation de la conformité des dispositifs médicaux qui s’appliquent également en Suisse».

Démarches longues et variables

Les organismes certificateurs,  les dispositifs médicaux classiques, s’assurent de deux choses. Tout d’abord que « l’assurance qualité » est respectée. Pour cela ils vérifient, entres autres, que l’entreprise a mis en place une gestion de la qualité conforme à la norme ISO13485 – autrement dit, que le produit répond à un certain nombre d’exigences établies pour l’industrie des dispositifs médicaux – et qu’il a fait l’objet d’une amélioration constante. Ensuite vient l’«audit produit». L’organisme certificateur doit vérifier si les performances prétendues du produit correspondent bien à ses performances réelles. Au bout de cette évaluation du dossier technique, le produit obtient le précieux sésame, le marquage CE, qui lui permet d’être mis sur le marché en Europe et en Suisse.

Mais ces deux étapes ne sont pas systématiques. En effet, à chaque algorithme prédictif est attribué un niveau de risque qui varie selon le programme – tout comme un sparadrap et un pacemaker ne sont pas inspectés avec la même vigilance. Pour les dispositifs médicaux jugés de risques faibles, ce sont les entreprises qui assurent elles-mêmes leur mise sur le marché. Un audit a posteriori est parfois réalisé, mais uniquement sur la partie «assurance qualité». L’audit produit n’est ainsi réalisé que pour les logiciels de hauts risques.

Une législation renforcée

Une distinction de niveaux de risques qui est néanmoins en train d’évoluer avec la nouvelle régulation européenne 2017 746. «Environ 80 % des produits auto-certifiés ne pourront plus l’être, car leur niveau de risques sera augmenté», assure Toufik Abbas-Terki, consultant en assurance qualité pour les dispositifs médicaux, basé à Lausanne. La mise en place de cette nouvelle régulation a débuté en 2017 et sera totalement effective en 2022. Les tests génétiques vont ainsi passer de niveau 1 (risque faible et auto-certification), à niveau 3 avec audit technique systématique. «Par le passé il y a eu des abus de la part de certaines entreprises, comme dans le cas des fameuses prothèses mammaires PIP, pour lesquelles un examen minutieux a été défaillant.

Avec la nouvelle régulation européenne, ce sera beaucoup plus difficile de contourner le système d’évaluation», prometToufik Abbas-Terki.

Il est important de noter que dans tout le processus d’audit décrit, l'accès au code de l’algorithme n’est pas systématique. Pour les logiciels qui ne subissent qu'un audit «assurance qualité», il n'y a pas de revue du code puisque ce sont les procédures qui seules sont inspectées. Lors de l' «audit produit», il est possible d'avoir accès à une partie du code pour s’assurer des bonnes pratiques de codage: si le produit a été testé sur des utilisateurs, qu'il a subi les révisions nécessaires etc.

Beaucoup d'algorithmes opaques

Demeure un problème qui dépasse les cadres de l’évaluation et de la certification : les scientifiques ne savent pas toujours comment fonctionnent leurs algorithmes! «Les techniques de machine learning sont typiquement opaques. Elles produisent des algorithmes ”black box” [opaques, en français] qui font des prédictions ou des recommandations sans justifier leurs résultats», explique ainsi un article paru le 12 décembre dans la revue scientifique Science Transnational Medicine.

Si on ne sait pas comment l’algorithme a obtenu un résultat, comment s’y fier?

Surtout cela pose la question de la valeur de l’évaluation d’un organisme certificateur. «Dans le cadre des algorithmes ”black box”, les outils de validation traditionnels sont inefficaces, car ni les développeurs ni les utilisateurs ne savent avec précision ce que l’algorithme mesure – ou plus précisément quelle constellation de caractéristiques déjà-mesurées il prend en compte – ou quelles quantités de données biomédicales il récolte, mais seulement ce qu’il prédit ou ce qu’il recommande», souligne encore l’article rédigé par W. Nicholson Price, professeur assistant à l’Université du Michigan. Rose-Marie Borges, maître de conférences HDR en Droit privé, à l’Université Clermont-Auvergne enfonce le clou: «Le problème n’est pas tant du côté du dispositif médical et de l’autorisation de mise sur le marché, que du fonctionnement même de l’algorithme : comment il arrive à une décision, à partir de quelles données, et comment il a travaillé sur ces données ?»

Il existe des droits pour protéger les citoyens européens: le RGPD entré en vigueur en mai 2018, mais aussi l’article 8 de la Charte des droits fondamentaux de l’Union européenne, et l’article 16.1 du Traité de fonctionnement de l’UE. Sauf que ces droits sont inefficaces face à l’opacité du fonctionnement des algorithmes. «Il y a un problème d’effectivité de la mise en œuvre du droit et du contrôle juridique», rétorque Rose-Marie Borges, qui plaide plutôt pour la mise en place de garde-fous techniques: limiter la quantité de données utilisées, minimiser l’usage des données (plutôt que l’algorithme ne les aspire toutes et qu’il fasse le tri ensuite, comme c’est le cas actuellement) et surtout qu’il existe un «privacy by design», qui obligerait à l’anonymisation ou à la pseudonymisation des données dès le départ de la construction des logiciels.

Newsletter

Inscrivez-vous pour recevoir les actualités de la plateforme SantéPerSo et être invité aux événements consacrés à la santé personnalisée.

Top