Science des données pour le Big Data

Une science pour extraire, classifier et visualiser les données

La science des données rassemble l’ensemble des techniques permettant :

  • L’extraction de connaissances d’ensembles de données, par des techniques de fouille de données
  • La classification des données jugées utiles, par des techniques de classification, notamment d’apprentissage statistique (Machine Learning) ou profond (Deep Learning)
  • La visualisation des résultats dans un but d’aide à la décision basée sur les données.

Elle est issue de plusieurs autres domaines plus larges comme la statistique, l’apprentissage statistique, les modèles probabilistes, le traitement de signal, la modélisation d’incertitude, la compression de données et le calcul à haute performance.

Le « Big Data », ou mégadonnées, un nouvel enjeu pour la société

Le « Big Data », dont la traduction en français est « mégadonnées », est une application de la science des données, qui désigne le traitement d’ensembles de données devenus si volumineux, variés et véloces qu’ils dépassent l’intuition et les capacités humaines d’analyse, et même celles des outils informatiques classiques de gestion de base de données. Sa naissance est liée aux progrès des systèmes de production, de transmission, de stockage, de fouille et d’analyse de l’information numérisée. Les mégadonnées ont amené l’émergence de méthodes qui traitent les données pour en tirer du sens.

Parmi quelques-unes des applications les plus marquantes, on peut retrouver : la détection de fraudes en temps réel dans le domaine bancaire, la gestion des réseaux énergétiques complexes et connectés pour adapter la production en fonction des pics de consommation ou de la disponibilité des énergies renouvelables, l’analyse des comportements d’achat pour proposer de nouvelles offres pertinentes en grande distribution et commerce sur internet…

Si vous souhaitez en savoir davantage sur ce que l’on nomme « Big Data », vous pouvez consulter notre page dédiée au Big Data.

Des techniques performantes pour tirer du sens des données

Nos chercheurs étudient des techniques performantes d’analyse des données comme : les forêts aléatoires (Random Forest), le Bagging, le Boosting, les techniques de rééchantillonnage, les machines à vecteurs de support (Support Vector Machine), les méthodes à noyaux, les événements rares, les modèles de mélanges, les algorithmes de partitionnement (Clustering).