Therapixel, le dépistage du cancer du sein augmenté par l’IA

Temps de lecture estimé : 8 minute

La France a toujours figuré parmi les champions de l’innovation dans le secteur de la santé. C’est d’autant plus vrai à l’heure de la révolution technologique sans précédent que nous sommes en train de vivre. Les progrès récents de l’intelligence artificielle ouvrent ainsi de nouvelles perspectives, notamment pour le dépistage et le traitement précoce de pathologies comme le cancer. Ou plutôt les cancers. Car chaque tumeur est différente et nécessite une expertise que même les meilleurs oncologues du monde ont du mal à maintenir à jour avec leur cerveau biologique. Et si l’informatique, avec l’apport du deep et du machine learning, était la solution pour mieux comprendre la diversité de ces cancers, les dépister plus vite et pouvoir ainsi les traiter plus efficacement ?

C’est le pari d’une société française qui s’est distinguée lors de plusieurs concours internationaux. Therapixel, spécialiste des outils numériques à destination des radiologues et du bloc opératoire, s’est lancée dans l’intelligence artificielle il y a un an seulement et a déjà remporté un concours de référence sur le sujet, le Digital Mammography Challenge, organisé entre autres par Sage Bionetworks, IBM et des centres de recherche américains de renom. Entretien avec cette startup qui a choisi la solution OVH Healthcare, agréée pour héberger les données de santé, et a récemment intégré le Digital Launch Pad, programme de soutien aux startups d’OVH.

Exploiter toujours mieux la puissance de l’imagerie médicale

L’imagerie médicale s’est très largement développée, grâce à des outils toujours plus performants. Des techniques variées permettent aujourd’hui d’adresser une grande diversité de pathologies avec une fiabilité en constante augmentation… notamment grâce au recours à l’IA. En effet, c’est précisément dans le traitement automatisé des images médicales que l’intelligence artificielle va changer la donne. Olivier Clatz, cofondateur de Therapixel passé par la faculté de médecine de Harvard puis l’Inria, a bien senti arriver ce tsunami de l’IA en santé : “Issus du monde du traitement d’images médicales, nous avons toujours été attentifs aux dernières évolutions algorithmiques. Début 2016, nous avions l’intuition qu’une révolution était en train d’arriver. Cependant il était très difficile de discerner la réalité du buzz entourant ces nouvelles façons de traiter les données. C’est pourquoi nous avons voulu essayer par nous-mêmes.”

Therapixel choisit alors de se lancer avec des projets concrets, en postulant à deux concours internationaux. Pour se prouver que la technologie avait un avenir dans l’imagerie, et pour s’assurer que les résultats en valaient la peine. Olivier Clatz confirme la démarche : “Fin 2016, plusieurs concours importants ont été lancés : le dépistage du cancer du poumon sur Kaggle, puis du cancer du sein sur Sage. Compte tenu du nombre d’experts autoproclamés du domaine, on s’est dit que les concours constituaient une bonne opportunité d’être reconnus pour la performance objective de nos algorithmes.”

Résultats ? Cinquième place à l’issue du challenge relatif au cancer du poumon, et première place au Digital Mammography Challenge ! Enjeu de santé publique majeur, le dépistage du cancer du sein est handicapé par l’existence de nombreux faux positifs que l’intelligence artificielle est en mesure de réduire, améliorant sensiblement la fiabilité des résultats, le coût de l’examen et l’efficacité de la prise en charge.

Entraîner une IA à dépister un cancer du sein, ça ne s’improvise pas

L’intelligence artificielle omnisciente, capable de « raisonner » avec autant d’efficacité sur des pathologies variées n’existe pas. Chaque pathologie nécessite un entraînement spécifique, et un algorithme qui fonctionne pour la détection d’un cancer du poumon sera par exemple inopérant sur la détection d’un cancer du sein. Sans entrer dans le cœur du réacteur, Olivier nous en dit tout de même un peu plus sur le fonctionnement de l’IA façon Therapixel : “Notre technologie repose sur une architecture de type réseaux de neurones convolutionnels, également appelée deep learning. Ces algorithmes n’ont rien de magique : ils nécessitent beaucoup de travail, d’expérience et de connaissance du domaine pour délivrer toute leur puissance.”

Plusieurs exemples de mammographies présentant un risque croissant de développement de cancer (gauche vers droite).

Pour ajouter un peu de difficulté au concours, chaque équipe de chercheurs était limitée en termes de puissance de calcul, tout le monde étant contraint d’utiliser le même modèle de processeur graphique (GPU), loin des standards habituels pour ce genre de traitement. “Pour chacune des quatre manches, la ressource disponible était limitée à 14 jours de calcul sur un GPU fourni par un partenaire. À titre de comparaison, si nous avions pu faire tourner nos algorithmes sur l’infrastructure que nous utilisons chez OVH, nous aurions disposé de 50 fois plus de puissance !”.

Comme c’est le cas avec toute bonne intelligence artificielle, l’apprentissage a été long. Pas aussi long que pour former un cancérologue humain, heureusement, mais quelques mois tout de même ont été nécessaires. L’IA de Therapixel a ainsi appris à détecter les tumeurs en s’exerçant sur plusieurs corpus de données : “Toutes les données (privées, publiques) étaient autorisées dans ce concours. Nous n’avons cependant utilisé qu’un seul jeu de données en plus des 640 000 examens anonymisés fournis dans le concours : la base de données DDSM, constituée au début des années 2000.”

Examens de la base DDSM annotés par les radiologues (zone verte) associés aux pixels détectés par l’algorithme comme contribuant le plus à la décision (rouge).

Comme le précise Olivier Clatz, l’exploitation de ce jeu de données n’a pas été simple, car “les données étaient des impressions sur films numérisées, alors que les images du challenge étaient des acquisitions nativement au format numérique. Nous avons dépensé une grande partie de notre énergie à comprendre comment tirer profit de cette base de données pour améliorer nos résultats dans ce concours.” On ne rappellera jamais assez l’importance de la structure et de la qualité des données dans ce genre de projets…

Malgré la quantité impressionnante de données et une fois les écueils de formats d’images levés, les résultats étaient, au départ, « très mauvais« . « Mais tous les compétiteurs étaient dans la même situation. La contrainte sur la capacité de calcul a vraisemblablement surpris toutes les équipes, et poussé chacun à trouver de nouvelles astuces pour parvenir à un compromis idéal entre le temps de calcul requis et la performance algorithmique. Au final, notre algorithme améliore l’état de l’art, en diminuant de 5 % le nombre de faux positifs. On n’a jamais été aussi près de la performance des humains !”

Une pépite qui ne demande qu’à aller encore plus loin !

Ces premiers tests grandeur nature sont plus qu’encourageants et Therapixel ne compte pas s’arrêter en si bon chemin. Olivier Clatz nous en dit un peu plus sur la suite du développement de l’IA dans ses solutions d’imagerie : “Nous avons travaillé sur la problématique du cancer, en ciblant prioritairement les deux cancers les plus meurtriers : le cancer du sein et le cancer du poumon. Il nous reste du chemin à parcourir, mais nous pensons atteindre une capacité de détection supérieure à la moyenne des radiologues sous 24 mois.”

Voilà qui confirme la prédiction du docteur Laurent Alexandre, qui va jusqu’à déclarer que, dans un avenir proche, l’IA sera plus efficace que n’importe quel radiologue. Pour avancer vite, la startup basée à Sophia Antipolis se repose notamment sur OVH : “Je pense que nous comptons parmi les premiers clients de l’offre Private Cloud Healthcare. Et nous avons rejoint le Digital LaunchPad, avec qui nous avons co-construit notre infrastructure. Notre responsable de l’infrastructure a pu participer à plusieurs formations, en particulier sur les outils de virtualisation et de monitoring. Pouvoir être au contact des ingénieurs système de notre hébergeur est une vraie valeur ajoutée !”

L’équipe vainqueur du Digital Mammography Challenge. De gauche à droite : Yaroslav Nikulin, chercheur lead sur le challenge ; Pierre Fillard, CTO et responsable de l’équipe deep learning ; Olivier Clatz, CEO ; Antoine Iannessi, Radiologue au centre Antoine Lacassagne et consultant médical.

Que sera la médecine à l’ère de l’intelligence artificielle, dont nous ne sommes qu’aux prémices ?
Olivier Clatz en a une vision bien plus humaine et optimiste que celle que l’on peut parfois entendre : “Dans un avenir proche, les algorithmes effectueront une première lecture des images médicales, avec une estimation de la confiance dans leur analyse. Les radiologues interviendront en deuxième lecture, en se concentrant sur les examens où la machine est peu confiante.”

Loin de mettre les professionnels de santé sur la touche, l’IA serait donc leur allié. Et celui des patients.

Responsable conformité OVH Group