Entretien avec Grégory Nuel – Apprentissage dans le domaine biomédical

Grégory Nuel est directeur de recherche CNRS au Laboratoire de Probabilités, Statistique et Modélisation (LPSM, UMR 8001), dont il dirige l'équipe "Modélisation aléatoire du vivant" depuis 2018, et directeur adjoint du Carnot Smiles. Il a développé un goût particulier pour les applications biomédicales des statistiques et des probabilités. Ainsi, ses travaux de recherche gravitent autour de l'étude des modèles probabilistes graphiques (réseaux bayésiens, chaînes de Markov cachées), de la statistique calculatoire (algorithme d'espérance-maximisation, méthode de Monte-Carlo par chaînes de Markov), des modèles linéaires généralisés et de l'analyse de survie.

Qu'est-ce que l'apprentissage statistique ?

L'apprentissage statistique (machine learning, en anglais) consiste à calibrer des modèles de prédiction, avec une estimation de paramètres par maximum de vraisemblance, dans lesquels on cherche à prédire la valeur de la variable de réponse Y à partir de données X. Par exemple, la variable de réponse Y peut être binaire (cet individu a-t-il la maladie?) ou quantitative (quel est le niveau de sévérité de la maladie?) ou de type « survie » (combien de temps reste-t-il avant l'apparition de la maladie?).

L'apprentissage statistique permet aussi d'accéder à d'autres statistiques et de découvrir des co-variables liées à la variable de réponse avec lesquelles on peut prédire la valeur de la variable de réponse en fonction de celles-ci. Il est ici nécessaire de distinguer causalité et corrélation de la prédiction. Par exemple, fumer provoque le cancer du poumon. Il y a une relation de causalité entre le fait de fumer et le cancer du poumon. En revanche, si consommer de l’alcool ne provoque pas le cancer du poumon, cette maladie est plus souvent présente chez les gros consommateurs d’alcool. Cette corrélation statistique non causale est liée au fait que les buveurs sont souvent eux-mêmes fumeurs ou boivent accompagnés de fumeurs.

Un des grands défis techniques de l'apprentissage statistique est d'éviter le sur-apprentissage. Celui-ci survient lorsqu'on évolue en grande dimension sur des paramètres mais avec un faible nombre d'individus : il s'agit du « fléau de la dimension ». Par exemple, une des conséquences néfastes de ce phénomène est que l'on parvient à déterminer la probabilité d'apparition d'un cancer des poumons grâce au diamètre des orteils, ce qui n'a aucun sens médical. Une solution à ce problème consiste à entraîner l'algorithme sur un ensemble de données et à valider le modèle prédictif sur un autre.

La classification supervisée est un sujet majeur de l'apprentissage statistique, notamment au travers du développement de nouveaux algorithmes s'appuyant sur des techniques comme le LASSO (Least Absolute Shrinkage and Selection Operator), les SVM (Support Vector Machine), et les forêts aléatoires. Les algorithmes de classification cherchent à produire des regroupements en classes homogènes à partir d’un ensemble de données, en identifiant la catégorie à laquelle un objet appartient grâce à des techniques de prédiction de variables qualitatives. Au final, le but est de déterminer la nature d'une variable en fonction de variables descriptives. L'aspect supervisé implique quant à lui qu'un expert du domaine d'étude (assureur, banquier, ingénieur, médecin...) ait préalablement étiqueté certaines données, c'est-à-dire qu'il ait indiqué à l'algorithme que telle donnée appartenait à telle classe caractéristique (fraude, rupture de fatigue, cancer de l'estomac...). Dans le cas de la cancérologie, les anatomopathologistes sont les experts qui annotent des échantillons cellulaires en les observant au microscope, et qui déterminent le type de cancer en présence. L'intelligence artificielle (IA) appliquée à ce domaine permettrait d'assister les anatomopathologistes au niveau du travail répétitif d'observation, afin que ceux-ci puissent se concentrer sur les diagnostics complexes où l'IA serait moins pertinente.

Un autre domaine de recherche concerne la classification semi-supervisée, qui est pertinente lorsque l'étiquetage des données est partiel, du fait de l'importance du coût d'annotation par des experts ou de la faible disponibilité de données fiables. Une technique pour contourner cette difficulté consiste à se ramener à du supervisé avec des techniques de plus proches voisins, en exploitant la proximité des individus dans l'espace X (données) qui permet de faire comme si on avait l'information Y (réponse). En pratique, la classification semi-supervisée peut-essentiellement se ramener à la classification supervisée à l’aide d’algorithmes adaptés (e.g. algorithme EM — Expectation-Maximization).

En quoi l'IA est-elle un vecteur de « magie noire » ?

L'apprentissage non supervisé (prédire des classes latentes — non observées — à partir des covariables) est un défi beaucoup plus exigeant dont les résultats, dans certains cas, peuvent être assimilés à de la « magie noire » de l'IA, tant les découvertes effectués par ces algorithmes peuvent être surprenantes par leur pertinence et leur singularité, dans un environnement à faible densité en information. Ces algorithmes sont capables de détecter des hétérogénéités latentes dans les données, sans être guidé par un expert humain et sans information sur la variable Y, et de produire une réponse qui n'est pas intuitive à l'expert du domaine. Par exemple, ils vont regrouper automatiquement un ensemble d’images diverses en paysages, portraits, animaux, bâtiments... mais aussi, si les données sont assez abondantes, ils vont regrouper les félins ensemble, ou encore des styles architecturaux, y compris d’une manière qui ne serait pas forcément intuitive pour un humain.

Alors que les modèles statistiques classiques fonctionnent à partir d'hypothèses paramétriques (ex : répartition gaussienne) et linéaires, les algorithmes d'apprentissage profond (deep learning) vont fonctionner sans a priori paramétrique dans les modèles. Cela permet d'éviter le sur-apprentissage et de détecter des effets non linéaires et des interactions d'ordre élevé entre variables (entre plusieurs valeurs de plusieurs paramètres, par ex : quand la variable X3 et la variable X8 ont des valeurs élevées, la réponse change du tout au tout). La force de l'IA réside dans sa démarche non-paramétrique qui permet de découvrir des combinaisons complexes et inattendues entre variables. Cependant, les défis que posent les algorithmes d'apprentissage profond sont immenses et concernent l'explicabilité des modèles et des décisions, et l'interprétabilité des modèles.

Dans un contexte supervisé, la magie de l'IA se manifeste en atteignant des niveaux de performance supérieurs à l'expert humain. Dans un contexte non supervisé, elle permet de voir des choses que l'expert humain pensait impossible à distinguer par une IA, et d'autres qui étaient impossibles à distinguer avant l'IA. Pour cela, il convient de ne pas faire d'hypothèses trop fortes sur la proximité des données. Ainsi, l'apprentissage profond non supervisé possède une capacité étonnante à distinguer les groupes de données, et à dépasser la compétence de l'expert humain. Il parvient à créer de l'information en mettant en évidence des sous-types explicatifs dans les données, qui s'avèrent ensuite très performants dans la prédiction de caractéristiques.

Pourriez-vous nous parler de quelques-unes des applications en santé issues de vos projets de recherche ?

Une partie de mes travaux a eu pour objet l'estimation des risques génétiques à partir des antécédents familiaux, notamment dans un contexte de conseil génétique pour le cancer du sein et de l’ovaire. En prenant en charge des patients qui ont des antécédents de cancer dans leur famille, les techniques que j'ai développées permettent d'évaluer si le risque de cancer est dû à l'exposition à un facteur génétique ou à des facteurs environnementaux. Sur le plan technique, il s’agit de combiner des modèle de survie (modélisation du le temps avant l’apparition d’une maladie par exemple) aux modèles graphiques probabilistes comme les réseaux bayésiens (pour modéliser la transmission mendélienne des allèles dans la famille). L’apprentissage survient lorsqu'on doit calibrer les paramètres de ces modèles : incidence de ces maladies dans les populations non exposées et le risque multiplicatif (dépendant de l’age) en cas d’exposition à un ou plusieurs facteurs génétiques. Notons que ces travaux s’appliquent aussi bien au delà du cancer à toute maladie comportant un potentiel de composantes génétiques (maladies génétiques rares, maladies neuro-dégénératives, diabète, et même obésité pour certaines formes rares) où l'histoire génétique familiale est prépondérante.

Je me suis aussi intéressé à la biologie des systèmes et à la causalité dans les réseaux de gênes. Le dysfonctionnement du système biologique peut être dû à un gène, notamment pour des pathologies comme le cancer ou l’hypertension artérielle pulmonaire. Dans ce cas, si la mutation génétique est présente, il est certain que le patient soit atteint par la pathologie. Mes travaux se sont concentrés sur le mécanisme protéique de dérèglement des systèmes biologiques par l'apparition de pathologies. La reconnaissance de la chaîne causale et la détermination des cibles d'action de la chaîne afin de rééquilibrer le système ont été pour moi des objets d'étude très intéressants.

Quels secteurs d'activité sont impactés ?

De manière globale, toute la médecine translationnelle est impactée : aide au diagnostic, test d'efficacité, affinage d'essais cliniques...

Dans l'industrie pharmaceutique, avec l’analyse de réseaux d’interactions complexes (drogues-cibles, régulation génique, symptômes, effets secondaires...) pour le drug repositionning qui vise à accélérer (et rentabiliser) le développement de nouveaux médicament en réutilisant un ou plusieurs médicaments existant sur une autre pathologie que celle initialement traitée.

On peut aussi citer l'aide au diagnostic et la médecine personnalisée, où il est nécessaire de détecter une maladie avec des informations partielles ou précoces.

L'inférence causale en biologie des systèmes permet d'identifier de nouvelles cibles thérapeutiques, notamment par la découverte d'un gêne en aval d'un gêne responsable d'une maladie, sur lequel on pourrait agir pour contrôler la maladie.

La sélection de patients pour des traitements peu communs est aussi une cible de mes travaux. Cela permet de rationaliser l'accès aux ressources hospitalières en fonction du risque médical du patient (par ex : il y a un risque de 1/200 de déchirure de l'intestin pendant une coloscopie). Dans le cas des maladies rares, pour lesquelles les traitements sont chers, ces méthodes permettent de choisir les patients qui pourront répondre le mieux au traitement grâce à l'analyse de leur données médicales.