Streamer, une plateforme logicielle au service de l’apprentissage automatique sur les flux de données

Innovation Article publié le 29 mars 2021 , mis à jour le 30 mars 2021

Multiplication des sources de données, prolifération des objets connectés, augmentation du nombre de capteurs : désormais omniprésents, les flux de données diffusées en temps réel soulèvent la question de l’apprentissage automatique en continu. C’est pour répondre à cette problématique de recherche majeure que des chercheurs du CEA List (Université Paris-Saclay, CEA) et du laboratoire DAVID (Université Paris-Saclay, UVSQ) ont uni leurs forces dans le cadre du projet StreamOps, financé par l’Institut DATAIA, pour enrichir la plateforme STREAMER. Leur objectif : permettre à des utilisateurs d’intégrer et de tester facilement des algorithmes d’apprentissage automatique (machine learning) dans des contextes réalistes de flux de données.

Tout commence en 2014 avec le projet européen SmartWater4Europe (clos fin 2017), auquel participe Sandra Garcia Rodriguez, ingénieure-chercheuse au CEA List. « Dans ce projet, notre mission était de détecter des fuites dans le réseau d’eau de Paris. Pour ce faire, nous avions besoin de logiciels capables de recevoir toutes les données arrivant en flux continu, de faire un apprentissage à partir de ces données et d’utiliser les modèles issus de cet apprentissage pour détecter des anomalies », se rappelle l’intéressée. Le problème : comment valider des algorithmes d’apprentissage dans un contexte de flux continu de données ? « C’est en tentant de répondre à cette question, que nous avons eu l’idée de développer une plateforme capable de simuler de manière réaliste ces flux continus de données, afin d’y intégrer et d’y tester des algorithmes d’apprentissage automatique », continue Sandra Garcia Rodriguez.

StreamOps : un projet à l’interface des aspects algorithmiques, métiers et logiciels

Une idée de départ qui, en 2018, donne naissance au projet StreamOps porté par Cédric Gouy-Pailler, chef de laboratoire à l’institut CEA List (Université Paris-Saclay, CEA), et Karine Zeitouni, professeur à l’UVSQ et responsable de l’équipe ADAM du laboratoire Données et algorithmes pour une ville intelligente et durable (DAVID - Université Paris-Saclay, UVSQ). « Avec StreamOps, notre objectif était de prolonger les travaux réalisés par Sandra pour proposer à la communauté scientifique un outil simple permettant de développer et de tester des algorithmes puissants, au plus proche des conditions rencontrées en opérationnel », explique Cédric Gouy-Pailler. Un objectif d’autant plus ambitieux qu’il suppose, comme le rappelle Karine Zeitouni, « de développer des algorithmes faisant l’interface entre une communauté qui voit l’Internet des objets (IdO ou IoT en anglais) comme un flux de données, qu’elle analyse de manière dynamique au fur et à mesure de leur enregistrement, et une communauté qui voit les données comme des séries temporelles, qu’elle analyse d’un point de vue historique ».

Streamer : une plateforme open source à destination des chercheurs et des industriels

Trois ans plus tard, l’objectif est atteint avec la stabilisation de STREAMER, la première plateforme de recherche et d’intégration pour la récupération, la manipulation et l’analyse de données en flux dans des contextes opérationnels de streaming réalistes. Solution « open source », utilisable sous Linux, Windows et macOS, STREAMER fournit une interface gratuite qui facilite la surveillance et accepte l’intégration d’algorithmes dans n’importe quel langage de programmation (Python, R, Java, etc.). Désormais opérationnelle, STREAMER s’adresse à ce jour à deux cibles d’utilisateurs principaux. Dans un premier temps, les data scientists souhaitant tester leurs algorithmes dans des contextes de flux de données réalistes. « Grâce aux modules existants, ces derniers pourront simuler l’envoi de données dans la plateforme et intégrer leurs algorithmes pour les tester », explique Sandra Garcia Rodriguez. « Nous pensons, dans un second temps, toucher les industriels, eux aussi très intéressés par la possibilité de disposer d’outils automatiques de traitement des données qui arrivent en flux », complète Cédric Gouy-Pailler.

Cybersécurité, santé, environnement : des domaines d’application multiples

Alors que son développement se poursuit grâce au travail de Jingwei Zuo, doctorant de l’UVSQ, et de Mohammad AlShaer, post-doctorant du CEA List, STREAMER sera utilisée en 2021 dans le cadre de plusieurs projets axés sur des domaines variés. « En interne, nous pensons par exemple utiliser l’outil développé comme plateforme d’expérimentation d’algorithmes de détection de requêtes Internet suspectes, en vue de prises de décisions rapides dans le domaine de la cybersécurité. Nous travaillons également dans le cadre du grand défi IA de confiance, Confiance.ai, géré par l’IRT SystemX, afin de développer de nouveaux outils capables d’augmenter la confiance accordée aux algorithmes d’IA », indique Cédric Gouy-Pailler. « Dans le domaine de l’environnement, nous développerons des algorithmes pour caractériser l’exposition individuelle à la pollution de l’air, en exploitant les mesures collectées par des micro-capteurs dans le cadre du projet ANR Polluscope », explique Karine Zeitouni. Ce travail sera également prolongé grâce aux données récoltées dans le cadre du projet européen GoGreen Routes, lié aux smart cities et démarré en septembre 2020. « Nous nous appuierons cette fois-ci sur des séries temporelles générées à partir de capteurs fixes disséminés en milieu urbain à des endroits stratégiques », explique Karine Zeitouni. Enfin, de nouvelles applications sont d’ores et déjà envisagées, qu’elles soient dans le domaine de la santé, avec le suivi (monitoring) de patients et la détection de risques, ou dans celui de l’industrie 4.0 en vue de la détection rapide de défauts sur une chaîne de production. « Aujourd’hui, le déluge de données est partout et les besoins sont immenses. Nous ne sommes qu’au début de l’aventure. Il nous faut donc poursuivre nos recherches et nos expérimentations pour atteindre nos objectifs, et rendre possible l’apprentissage incrémental au fur et à mesure de la réception des données », conclut Karine Zeitouni.