Extraire de la connaissance à partir des données

LIDEX

Exploiter des quantités massives de données pour faire progresser les sciences

Créer des synergies et des interactions entre les analystes et les « producteurs » de données

Le projet CDS (Center for Data Science) consiste à développer des méthodes et des outils pour être capable d’analyser de gigantesques quantités de données, et en extraire une information utile pour la physique, la biologie, la médecine, la chimie, l’environnement et les sciences humaines.

Ce projet est pluridisciplinaire : il nécessite des recherches sur les méthodologies d’analyse (statistiques, processus d’apprentissage des machines, extraction de connaissances, visualisation des données), mais aussi sur la conception de logiciels. Des connaissances pointues dans chaque domaine de recherche d’où proviennent les données sont également indispensables.

L’objectif va bien au-delà des initiatives actuelles autour des « Big data », qui se focalise sur la récupération, le transfert, le stockage, l’archivage, et la sécurité des données.

Le Center for Data Science s’attache avant tout à extraire de la connaissance à partir des données.

Faire parler les données

Prédire les liens entre les gènes et les caractéristiques physiques des plantes et des animaux, comprendre les interactions entre protéines, percer les mystères de la matière noire à l’aide de gigantesques télescopes, réaliser des images incroyablement précises du cerveau en fonctionnement, découvrir de nouvelles particules dans les accélérateurs ou en détectant les rayons cosmiques, organiser les milliards de morceaux de musique postées sur le web, modéliser l’environnement, ou encore comprendre la croissance des villes et la désertification des campagnes… toutes ces recherches nécessitent de traiter des quantités pharamineuses de données. Et surtout, de leur donner un sens. C’est la raison d’être du Center for Data Science.

Les atouts CDS

Le CDS souhaite avant tout associer toutes les compétences pluridisciplinaires requises par les analyses de gigantesques données. Ces dernières sont rarement réunies dans un même laboratoire. Le Center for Data Science associera :

  • Des scientifiques et ingénieurs qui collectent des données à l’aide de capteurs et de détecteurs. Ils les analysent pour découvrir les lois de la nature ;
  • Des spécialistes des données, qui construisent des algorithmes et proposent des nouvelles méthodes de traitement des données ;
  • Des ingénieurs logiciel qui conçoivent et mettent en œuvre les outils ;
  • Des ingénieurs système qui construisent et font tourner les calculateurs.

Le CDS sera un point de contact à la fois pour les multinationales et les PME. Des liens seront également créés avec l’enseignement supérieure et avec les data center existants.

Mémento

Les big data, ou données massives en français, désignent les quantités gigantesques de données extrêmement variées que nous produisons en continu, notamment via les réseaux sociaux ou la téléphonie mobile. Car collecter ces énormes quantités de donnée n’a jamais été aussi facile. En sciences, nous produisons aussi des quantités gigantesques de données grâce à des capteurs, des détecteurs, des télescopes, des appareils d’imagerie...

Cette croissance sans précédent a révolutionné la science et l’industrie durant la dernière décennie. En physique des particules, par exemple, les analyses automatiques de données en lien avec la simulation sont aujourd’hui la norme. De même, une nouvelle science a émergé, la bio-informatique, à l’interface de la biologie et l’informatique. Ces quantités massives de données concernent la quasi-totalité des disciplines. Être capable d’extraire des informations utiles de ces données devient donc un enjeu scientifique crucial. C’est aussi un enjeu de société pour apprendre à les maîtriser et à les protéger.