Balázs Kégl

Portrait de chercheur ou chercheuse Article publié le 24 février 2015 , mis à jour le 24 septembre 2020

Titulaire d’un doctorat en science informatique, Balázs Kégl est chercheur au sein du Laboratoire de l'Accélérateur Linéaire du CNRS depuis 2006 et pilote du Center for Data Science.

Il a publié plus d'une centaine d’articles sur l'apprentissage non supervisé et supervisé, l'optimisation et l’inférence bayésienne à grande échelle, et sur diverses applications. A son poste actuel, il a été à la tête de l'équipe AppStat qui a travaillé sur le Machine Learning et sur les problèmes d'inférence statistique motivés par des applications en particules de haute énergie et physique des astroparticules.

Balázs Kégl, vous pilotez le projet phare CDS (Center for Data Science) depuis 2014, quelles sont ses ambitions ?

Le Center for Data Science à Paris-Saclay (PSCDS) est une initiative interdisciplinaire de l'Université Paris-Saclay inaugurée récemment. Elle regroupe près de 250 chercheurs rattachés à 35 laboratoires différents. La moitié d'entre nous est composée de data scientists, avec des recherches portant sur les statistiques, l'apprentissage automatique, le traitement du signal, la visualisation de données et les bases de données. L’autre moitié concentre ses recherches sur les datas en physique, biologie, sciences de l'environnement, sciences sociales et neurosciences.

Le but de cette initiative est d'établir une agora institutionnalisée dans laquelle ces scientifiques peuvent se retrouver, échanger des idées, lancer et alimenter des projets interdisciplinaires, et partager leurs expériences sur les précédents projets scientifiques portant sur les datas. Pour favoriser la synergie entre les analystes de données et les producteurs de données, nous proposons de fournir des ressources initiales dans le but de soutenir les collaborations et d’atténuer le risque non-négligeable que prennent les chercheurs qui s’aventurent dans des projets scientifiques interdisciplinaires de data sciences.

Outre les projets financés, nous concevons et apprenons à gérer des outils génériques pour accompagner les projets scientifiques ayant des besoins différents. Nous organisons des ateliers de l'innovation et de la stratégie, des hackatons et bootcamps, et des datas challenges. Les CDS représentent pour nous l’opportunité d’expérimenter des formes nouvelles et non-conventionnelles d'organisation du travail et de formation autour de projets à haute valeur ajoutée.

Votre communauté est très active comme en témoigne ce second bootcamp. Quels sont les objectifs de ces sessions d'analyse de données ? A qui s’adressent-elles ?

Les bootcamps ou hackatons sont des sessions collaboratives de codage se déroulant sur une seule journée, pour résoudre une question définie autour de la data science. Après une préparation minutieuse, un fournisseur de données arrive avec un problème et un ensemble de données associées. Nos sessions regroupent entre 20 et 30 participants et 3 à 5 entraîneurs. Le problème à résoudre et les datas sont présentés pendant environ une heure, puis nous formons des équipes de 2 à 3 personnes afin de s’attaquer au problème. L'objectif de la journée est de concevoir une solution qui fait appel à des contributions individuelles tout en maintenant une saine concurrence entre les équipes. Nous avons construit des outils logiciels et de gestion pour favoriser la créativité, la diversité et la collaboration. Il est difficile de donner plus de détails à ce stade car nous sommes encore en début de processus. Mais nous sommes tous très enthousiasmés par les perspectives qui se dessinent dans l’invention de nouveaux modes d’organisation du travail.

Outre l'objectif de résolution de problèmes, les bootcamps sont également des sessions de formation. Une grande variété d’experts intervient : les statisticiens avec peu de compétences en codage, les ingénieurs logiciels sans compétences d'analyse de données, les scientifiques du domaine qui ne connaissent pas les dernières techniques ou même les scientifiques novices à la data science. Le but est d'apprendre les uns des autres en « manipulant » la data science.

Un troisième objectif des bootcamps est de permettre le réseautage. La taille de l'Université Paris-Saclay est stupéfiante. Cette nouvelle institution nous donne une occasion unique de construire une communauté scientifique autour des données avec une masse critique qui existe peut-être dans une poignée de villes à travers le monde. Nous avons aujourd’hui une soixantaine de personnes inscrites dans nos bootcamps, et nous nous attendons à une augmentation de ce nombre. Les bootcamps ne sont donc pas seulement des séances de résolution de problèmes, mais aussi des événements de réseautage à part entière qui permettent de tisser des liens entre nos experts.

Quelles sont à votre avis les trois questions les plus difficiles dans la data science ?

A la pointe de l'Intelligence Artificielle, il y a des questions techniques difficiles : comment construire des systèmes pouvant s’adapter à leur environnement et communiquer avec nous de manière transparente ? Comment traiter les flux de données en temps réel ? Comment fabriquer des machines intelligentes ? Selon moi, la plupart des obstacles actuels sont organisationnels et sociologiques : comment trouver les bons experts pour des problèmes donnés ? Comment faire travailler efficacement différentes communautés tout en restant collectivement créatif ? Comment équilibrer la possibilité d’en connaître plus sur les individus grâce aux données avec le respect de la vie privée ?

On parle souvent des Big data comme du levier scientifique et économique des dix prochaines années. Dans quels domaines percevez-vous leur plus grande importance actuellement ?

Il est presque impossible d’estimer les effets de la data science dans l'économie et dans notre société dans un avenir proche. Les grands utilisateurs de produits informatiques ont remarqué le saut quantique dans les systèmes de vision par ordinateur ou de reconnaissance de la parole au cours des deux dernières années. Néanmoins, les grands changements proviendront quand l'industrie traditionnelle (non-informatique) se réveillera et commencera à appliquer les puissantes technologies de l’intelligence artificielle dans ses produits. Il y a tellement de phénomènes qui se déroulent actuellement qu'il est difficile d’imaginer à quoi notre monde ressemblera dans dix ans. Je vous donne un exemple : les voitures d'auto-conduite. Il est peu probable que la conduite en ville puisse être automatisée dans les dix prochaines années, mais nous ne sommes pas loin de passer à une conduite sur autoroute « autonome ». Cela signifie que la plupart des 50 millions chauffeurs de camions du monde perdront leur emploi. Et si vous pensez que votre travail hautement qualifié est plus sûr, lisez ceci. Dans le même temps, grâce à des technologies qui connectent l’offre et la demande en un clic, les entreprises classiques sont obligées de s’adapter pour garder leur place. Nous devrons apprendre à travailler moins, et les institutions et les outils sociaux devront s’adapter.

Dans mon esprit, le plus grand défi aujourd'hui est la vitesse. Nous ne sommes pas prêts pour ces changements et nos institutions sont encore moins bien équipées que les individus. Nos élites politico-économiques vivent dans le passé, et ne peuvent pas résoudre les problèmes pour lesquels il existe des solutions simples. Nos enfants sont formatés à l'école pour un monde qui existait il y a vingt ou même cinquante ans. Nos universités auront également à s’adapter : nos habitudes présentes deviennent vite obsolètes.

Pour finir sur une note positive, l'Université Paris-Saclay de par sa nouveauté et sa jeunesse est réellement l’endroit où il faut être : c’est le défi de sa construction et elle peut facilement devenir le lieu où l’Université du 21ème siècle sera inventée.

Pour en savoir plus : "La communauté de l’apprentissage automatique est affamée de données provenant de projets scientifiques", Balázs Kégl