IA pour l’analyse de données

Qu'est-ce que l'IA pour l'analyse de données ?

C'est une discipline scientifique qui regroupe des techniques de traitement d’ensembles de données devenus si volumineux (grand nombre de données), variés (hétérogénéité de format ou de structuration) et véloces (fréquence élevée de génération ou d'actualisation) qu’ils dépassent l’intuition et les capacités humaines d’analyse. L'enjeu principal réside dans le fait que les mégadonnées, ce que l'on appelle aussi Big Data, sont à faible densité en information pertinente. Dès lors, il est nécessaire d'avoir recours à des méthodes d'apprentissage qui traitent les données pour en tirer du sens, qui, combinées à des modèles et à des algorithmes logiques, donnent une intelligence artificielle (IA) capable de reproduire l'intelligence et de poursuivre un raisonnement amenant à une décision. La science des données est issue de plusieurs autres domaines plus larges comme la statistique, l’apprentissage statistique, l'intelligence artificielle, les modèles probabilistes, le traitement du signal, la modélisation d’incertitude, la compression de données et le calcul à haute performance.

Apprentissage supervisé et apprentissage non supervisé

L'apprentissage à partir des données peut se faire de manière supervisée ou non supervisée. D'une part, l'apprentissage supervisé implique qu'un expert du domaine d'étude (assureur, banquier, ingénieur, médecin...) a préalablement étiqueté certaines données, c'est-à-dire qu'il a indiqué à l'algorithme que telle donnée appartenait à telle classe caractéristique. D'autre part, dans le cas de l'apprentissage non supervisé, les données ne sont pas étiquetées par un quelconque expert, et l'algorithme ne bénéficie donc d'aucune connaissance a priori sur les données.

Méthodes d'optimisation des performances des algorithmes

Outre les algorithmes en eux-mêmes, des modalités d'apprentissage ont été inventées, comme le Bagging et le Bootstrap, qui sont des techniques de rééchantillonnage, c'est-à-dire que l'algorithme va être entraîné sur une partie des données. Le Boosting, quant à lui, optimise les performances des algorithmes d'apprentissage en pondérant les données mal classées pour qu'elles aient davantage d'importance, au prochain tour, vis-à-vis de l'apprenant faible (algorithme classifiant les données au moins aussi bien que le hasard ne le ferait), afin que celui-ci pallie le manque.

Pour quelles applications ?

La science des données vise à fouiller dans les données, afin de faire ressortir les relations pouvant exister entre elles et à en tirer une information statistique, suivant trois directions : classification, régression, partitionnement.

Classification

Les algorithmes de classification cherchent à produire des regroupements en classes homogènes à partir d’un ensemble de données, en identifiant la catégorie à laquelle un objet appartient grâce à des techniques de prédiction de variables qualitatives. Au final, le but est de déterminer la nature d'une variable en fonction de variables descriptives. Entre autres applications, il y a la détection de courriels indésirables, la reconnaissance d'ensembles biologiques en imagerie médicale... Les algorithmes de classification les plus utilisés sont le SVM, les plus proches voisins, et les forêts aléatoires.

Comparaison de classifieurs (plus proches voisins, SVM linéaire, arbres de décision, forêt aléatoire...) - Crédits : scikit-learn.org

Approximation fonctionnelle d'un nuage de points par régression isotonique - Crédits : scikit-learn.org

Régression

Les algorithmes de régression analysent la relation qu'une variable entretient par rapport à une ou plusieurs autres, dans le but de prédire un attribut quantitatif associé à un objet. Le principal objectif est donc de déterminer une quantité en fonction de variables explicatives. Entre autres applications il y a la mesure de la réponse à un médicament, l'évaluation de modèles économiques, la détermination de facteurs morbides caractérisant un groupe de patients en médecine, le ciblage d'une fraction de la clientèle sensible à une police d’assurance en fonction de tel ou tel risque, la détection de groupes à risque lors de la souscription d’un crédit bancaire... Les algorithmes de régression les plus utilisés sont : SVR, ridge regression, Lasso.

Partitionnement

Les algorithmes de partitionnement regroupent des objets similaires en différents paquets, depuis un ensemble de données. Ils emploient une méthode de classification non supervisée, où les données d'apprentissage ne sont pas étiquetées par un expert du domaine d'étude. Entre autres applications, il y a l'analyse de séquences génétiques pour la reconnaissance de famille de gènes en bioinformatique, la différenciation entre différents types de tissus en imagerie médicale, la discrimination d'ensembles à partir d'images satellitaires (forêts, montagnes, villes), la reconnaissance de communautés sur les réseaux sociaux, l'analyse conceptuelle de portefeuilles de brevets, la segmentation de marchés pour la gestion de la relation avec les clients et le positionnement de produits... Les algorithmes de partitionnement les plus utilisés sont : les k-moyennes, le partitionnement spectral, la Mean-Shift.

Partitionnement par modèle de mélange gaussien - Crédits : wikipedia.org

Quel est l'apport de nos chercheurs ?

Nos chercheurs étudient des techniques performantes d’analyse des données comme des algorithmes de traitement statistique d'objets à structures complexes ou évoluant en grande dimension, ou des techniques de calcul distribué pour l’inférence statistique dans de gros volumes de données. D'autre part, ils évaluent la performance statistique de divers algorithmes d'apprentissage, au travers de travaux de modélisation, afin de mieux comprendre la variabilité de leur efficacité situationnelle. Leurs recherches les amènent à explorer les techniques de rééchantillonnage, et à perfectionner la modélisation des événements rares, les modèles de mélanges, et les approches par réseaux neuronaux.

Ainsi, nos chercheurs étudient des algorithmes de classification et d'apprentissage utilisant des structures d'arbres ou des techniques de plus proches voisins dans des contextes très variés : estimateurs fonctionnels par plus proches voisins pondérés, agrégation d'estimateurs, méthodes et propriétés du Bagging et du Boosting, arbres de décision, forêts aléatoires (Random Forest), méthode CART, approches gloutonnes et parallèles...

Un autre axe de recherche traite de questions de régression et d’analyse de données dans des espaces dont les dimensions sont beaucoup plus grandes que la taille de l’échantillon (méthodes dites éparses ou "sparse"), menant à des problématiques de complétion de matrices et à des procédures d'agrégation d'estimateurs.

Nos chercheurs consacrent aussi leurs efforts à la définition et à l’étude de modèles pour les applications en apprentissage ou en statistique appliquée. De ce fait, ils étudient des modèles de mélange gaussien pour la classification non supervisée, avec comme objectif le choix des variables utiles à la classification ainsi que le nombre de classes à retenir, ainsi que des méthodes bayésiennes afin d'estimer le nombre de composantes du mélange. Ils ont aussi travaillé sur des questions méthodologiques telles que l’étude et l’amélioration de l’initialisation de l’algorithme espérance-maximisation. Il s’intéressent à des questions plus générales dans ce domaine, comme la définition et l'étude des notions de classe et d’homogénéité, les correspondances entre différentes notions de classe et différentes approches de classification non supervisée.

D'autre part, certains de nos chercheurs concentrent leurs travaux sur des aspects méthodologiques (applications concrètes des procédures d’estimation), algorithmiques (optimisation numérique efficace, non convexe) et statistiques (étude de l’excès de risque) de l'apprentissage statistique. Ces travaux portent sur la prévision d’objets structurés, la détection précoce (reconnaissance automatique de signaux temporels, audio, vidéo, etc.) et l’apprentissage par représentation. Ils s'emploient aussi à découvrir de nouvelles techniques d’optimisation pour l’apprentissage statistique (descentes par coordonnée, optimisation sur les variétés et échantillonnage préférentiel) et explorent les algorithmes SVM (Support Vector Machine, ou machines à vecteurs de support) et les méthodes à noyaux.