M2 Data management in large-scale distributed systems

Places available

40
Language(s) of instruction

French

Présentation

Objectives

The DataScale programme focuses on the study of and proficiency in new data management and knowledge extraction architectures, from the very large data servers (data centres) to our countless connected objects (edge computing). It aims to provide students with a precise understanding of the technological and scientific challenges involved in the design of these new architectures and the development of Big Data applications using them. The complexity, heterogeneity, and distribution of data and processing must be taken into account as much as the reliability, security, and performance of the underlying data managers (RDBMS or NoSQL).

The skills acquired at the end of the programme follow three axes:

1) big data architectures, cloud and IoT, security and performance;

2) data integration and quality, data mining and knowledge extraction;

3) development and deployment of data-driven services and applications.

Students receive a common core curriculum along these three axes. This common core is supplemented by optional courses covering various topics such as data mining, data confidentiality, the semantic web, cloud computing, ambient data management, the Internet of Things or application development frameworks, opening up research perspectives associated with these different topics.

Location

EVRY

VERSAILLES

Course Prerequisites

The DataScale study path is available only as an introductory programme. As a prerequisite, students must have the equivalent of a Master 1 level in French Informatics, with a solid understanding of databases. The typical profiles of students joining DataScale programme are: students who have obtained a Master's degree in IT in France, students from partner engineering schools doing their last year in a dual course, students who hold an engineering or Informatics Master's degree obtained outside of France.

Skills

Deploy, use and manage a large-scale data management infrastructure.
Extract, analyse and exploit the information and knowledge stored in a large-scale data management infrastructure.
Develop and deploy service-oriented data management applications.
Produce and present an overview report and carry out a scientific approach.

Post-graduate profile

At the end of the programme, students will show proficiency in the three main skills directly linked to the three pillars of the training, namely:
-Deploy, use and manage a large-scale data management infrastructure
-Extract, analyse and exploit the information and knowledge stored in a large-scale data management infrastructure
-Develop and deploy service-oriented data management applications
Students must also be able to produce and present an overview report and carry out a scientific approach in response to a given subject.

These skills are acquired through core common curriculum teaching units and optional units that give students targeted academic knowledge supplemented by the empirical knowledge acquired in carrying out projects; through seminars that introduce students to the topics and practices relating to the worlds of research, industry and services; and finally, through an internship of long duration, to apply acquired knowledge to the reality on the field.

Career prospects

The programme leads students towards management and senior management careers in IT in industry and services, and research-based careers and R&D posts in data management at universities, in private and public research organizations, large companies or start-ups. After obtaining the Master's degree, graduates may continue their studies and apply for a doctoral programme.

Students will be particularly equipped to take up jobs in: database administration (DBA), information systems security administration (DSA), data analysis (data scientists), urbanisation of information systems, design and deployment of empirical knowledge and distributed cations, etc.

Collaboration(s)

Laboratories

Inria Saclay-Île-de-France.

Données et Algorythmes pour une Ville Intelligente et Durable
Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux.

Programme

Le semestre 1 est composé d'un Tronc Commun (6 UE) et d'Options (6 UE au choix).

Subjects	ECTS	Lecture	directed study	Lecture/directed study
Architectures des gestionnaires de données	2.5	18		3
Architectures des gestionnaires de données Language(s) of instruction : FR ECTS : 2.5 Détail du volume horaire : Lecture : 18 Directed study : 3 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Philippe Pucheral (UVSQ) Pierre Sutra (Télécom SudParis). Procedure and organisation : - cours/TD intégrés - évaluation par un examen terminal. Objectifs pédagogiques visés : Contenu : Pour gérer efficacement et de façon fiable des masses de données de plus en plus volumineuses, hétérogènes et largement distribuées, les mécanismes internes de gestion de données sont en profonde mutation. Ces mécanismes doivent s'adapter aux évolutions profondes des applications (des applications OLTP/OLAP traditionnelles au big data et à l'edge computing) et exploiter au mieux les avancées liées aux technologies hardware (mémoires stables électroniques NAND ou 3D Xpoint, tera-byte RAM, architectures massivement distribuées, microcontrôleurs embarqués). En premier lieu, ce module introduit les principes fondamentaux liés au stockage et à l'indexation de données, à l'évaluation et à l'optimisation de traitements massifs et à la cohérence et la résilience des données. Il détaille ensuite comment ces concepts fondamentaux sont déclinés dans des architectures aussi différentes que les serveurs relationnels High End, les systèmes NoSQL largement distribués et désormais les micro-serveurs embarqués constituant l'Internet des Objets. Dans une dernière partie, ce module s'intéresse aux mécanismes de gestion de la cohérence et de la concurrence, et présente plusieurs algorithmiques représentatifs du domaine (Bayou, ABD, primary replication et consensus). Prerequisites : Niveau M1 informatique ou 4ème année d'école d'ingénieur ayant reçu une formation en : - bases de données : concepts fondamentaux, SGBD relationnels, principes de base de l'indexation et de l'évaluation de requêtes - systèmes distribués : concepts fondamentaux, principes de base du contrôle de concurrence et de la réplication. Bibliographie : - Principles of Distributed Database Systems, Ozsu, T., Valduriez P., Prentice-Hall, 2nd edition, 2011 (Springer) - Fundamentals of Database Systems, 6th Ed, Elmasri and Navathe, Addison Wesley, 2011 - Replication Techniques for Availability, R. Van Rene. Période(s) et lieu(x) d’enseignement : Period(s) : Septembre - Octobre - Novembre. Location : VERSAILLES
Architectures orientées Services	2.5	15	12
Architectures orientées Services Language(s) of instruction : FR/AN Title of educational component in English : Service Oriented Architecture ECTS : 2.5 Détail du volume horaire : Lecture : 15 Directed study : 12 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Yehia Taher Walid Gaaloul. Procedure and organisation : L'UE se compose d'une alternance de cours magistraux et d'application pratique. Objectifs pédagogiques visés : Contenu : Ces dernières années, le développement d'applications a beaucoup évolué sous l'impulsion du besoin grandissant des entreprises pour des applications ubiquitaires. Dans l'informatique ubiquitaire, les services modélisent les ressources et les applications, et sont utilisés pour gérer l'hétérogénéité et la dynamique de ces environnements. Le web n'est alors plus simplement un ensemble des pages statiques reliées entre elles, mais un dispositif permettant une intégration des services ubiquitaires, rendant accessible des applications avec une interface utilisateur riche et réactive. L’objectif de ce cours est donc d'aborder les principes fondamentaux des architectures orientées services pour la conception d’applications d’entreprise. Pour cela seront abordés les principaux modèles, algorithmes, technologies et outils pour la construction d’applications à base de services. Ce module adresse les points suivants : Les architecture orientée services et leurs standards; les modèles de contrats (SLA) et qualités de services (QoS) ; les approches pour la découverte et composition de services (orchestration et chorégraphie) ; ou encore les architectures de services (SCA, services web sémantiques, REST). Prerequisites : Bonne connaissance des concepts de base de la programmation orientée-objet, et du développement d’applications Web. Bibliographie : Michael P. Papazoglou: Web Services: Principles and Technology. Prentice Hall, 2007. ISBN, 140825073X, 9781408250730. Période(s) et lieu(x) d’enseignement : Period(s) : Septembre - Octobre - Novembre. Location : VERSAILLES
Intégration de données	2.5	21
Intégration de données Language(s) of instruction : FR ECTS : 2.5 Détail du volume horaire : Lecture : 21 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Béatrice Finance Zoubida Kedad. Procedure and organisation : 7 séances de cours Évaluation par un examen terminal. Objectifs pédagogiques visés : Contenu : Un nombre croissant d’applications nécessitent de manipuler des données provenant de sources de données distantes, autonomes et hétérogènes. L’interopérabilité entre ces sources se fait à travers des architectures d’intégration de données, dont le but est de fournir un accès uniforme à ces sources de données. La conception de telles architectures pose des problèmes techniques, sémantiques et qualitatifs. Le but de ce module est double : (i) passer en revue les architectures d’intégration de données (ex. médiation, entrepôt de données) et leurs propriétés opérationnelles ; (ii) analyser les problèmes de conception de ces architectures et donner une synthèse des principales techniques associées. Seront notamment abordés la définition de mappings (LAV / GAV et autres), la réécriture des requêtes et l’appariement de schéma. Les problèmes spécifiques aux entrepôts de données seront étudiés, notamment la représentation des données multidimensionnelles, la sélection des agrégats à matérialiser, le processus de rafraîchissement d’un entrepôt de données, les opérations OLAP et les outils ETL. Prerequisites : Bases de données : création et manipulation de bases de données relationnelles, mécanismes internes des SGBD relationnels. Bibliographie : Principles of distributed database systems, Tamer Oszu et Patrick Valduriez The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering, Ralph Kimball & Joe Caserta. Période(s) et lieu(x) d’enseignement : Period(s) : Septembre - Octobre - Novembre. Location : VERSAILLES
Machine Learning	2.5	9		12
Machine Learning Language(s) of instruction : FR ECTS : 2.5 Détail du volume horaire : Lecture : 9 Directed study : 12 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : - Marie Szafranski (ENSIIE) - 1 intervenant ENSIIE - Philippe Pucheral [UVSQ). Procedure and organisation : 21h de cours/TD. Objectifs pédagogiques visés : Contenu : L’objectif du cours consiste à appréhender les concepts théoriques et méthodologiques sous-jacent à l’apprentissage automatique (machine learning). L’accent sera mis l’apprentissage supervisé. 1. Introduction : notions d'apprentissage supervisé, d’apprentissage non supervisé, de sciences des données 2. Concepts : minimisation du risque empirique, minimisation du risque structurel, compromis biais-variance 2. Méthodologie : mesures d’évaluation du risque, estimation du risque (échantillons indépendants, validation croisée, méthodes réchantillonnage) 3. Apprentissage supervisé : K plus proches voisins, SVM, modèles de régression, réseaux de neurones. Prerequisites : Notions de statistiques et d'algèbre linéaire. Bibliographie : The elements of statistical learning. T. Hastie, R. Tibshirani, J. Friedman https://web.stanford.edu/~hastie/ElemStatLearn/ Pattern Recognition And Machine Learning. C. Bishop. Apprentissage artificiel. A. Cornuéjols, L. Miclet, V. Barra. Période(s) et lieu(x) d’enseignement : Period(s) : Septembre - Octobre - Novembre. Location : EVRY - VERSAILLES
Modèles et éco-systèmes Post-Relationnels	2.5	15	6
Modèles et éco-systèmes Post-Relationnels Language(s) of instruction : FR ECTS : 2.5 Détail du volume horaire : Lecture : 15 Directed study : 6 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : - Laurent Yeh (UVSQ) - Stéphane Lopes (UVSQ). Procedure and organisation : Ce cours alternera entre présentation des concepts et applications sous la forme de travaux dirigés. Objectifs pédagogiques visés : Contenu : Les systèmes de gestion de bases de données relationnelles permettent de gérer efficacement des données structurées de taille moyenne (tables de quelques centaines de Go). L’avalanche de données Big Data disponibles sur le Web (traces de navigation, opinions, posts, etc.), ou amassées par les entreprises (tickets d’appels téléphoniques, historiques des achats, etc.) se heurte à la rigidité des systèmes de gestion de bases de données traditionnels (besoin de schéma, modèle de données inadéquat pour les données complexes, contraintes d’intégrité et propriétés ACID). Pour répondre aux besoins des nouvelles applications de nombreuses solutions ont été développées ces dernières années. Ces modèles post-relationnels se répartissent en différentes catégories : bases de données en colonne, entrepôts clé-valeur, bases de données XML, bases de données graphe, etc. L’objectif de ce cours est de décrire les enjeux et les fondements de ces solutions et d’en présenter les principales composantes. Mots-clés : bigdata, NoSQL, Map-Reduce, Hadoop, Spark, Document stores, Key-Value stores, XML, Graph database. Prerequisites : Maîtrise des concepts des bases de données relationnelles et des systèmes de gestion de bases de données, maîtrise d'un langage de programmation orienté-objet (Java, Python, ...), maîtrise des outils systèmes (shell, ...) et des outils de développement. Bibliographie : A Survey on NoSQL Stores. Ali Davoudian, Liu Chen, Mengchi Liu. ACM Computing Surveys, Vol. 51, Issue 2, June 2018. Persisting big-data: The NoSQL landscape. Alejandro Corbellini, Cristian Mateos, Alejandro Zunino, Daniela Godoy, Silvia Schiaffino. Information Systems, Volume 63, 2017, pp. 1-23. Période(s) et lieu(x) d’enseignement : Period(s) : Septembre - Octobre - Novembre. Location : VERSAILLES
Qualité des données	2.5	21
Qualité des données Language(s) of instruction : FR ECTS : 2.5 Détail du volume horaire : Lecture : 21 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Zoubida Kedad. Procedure and organisation : 7 séances de cours Réalisation d'un mini-projet pendant toute la durée de l'UE Évaluation par un examen terminal et le mini-projet. Objectifs pédagogiques visés : Contenu : Evaluer et améliorer la qualité de l’information est un enjeu crucial dans les systèmes d’information. Une large collection d'outils commerciaux et open source est disponible sur le marché pour gérer les problèmes de qualité des données dans les systèmes d'information. Chacun de ces outils fournit des fonctionnalités spécifiques, et a sa propre vision de la qualité des données. L'objectif de ce cours est de présenter les concepts fondamentaux pour comprendre et analyser la qualité des données, notamment dans le contexte des systèmes d’intégration. Le cours présente les différentes dimensions et facteurs caractérisant la qualité des données ainsi que la qualité des processus qui les produisent. Les métriques de qualité, outils de mesures associés aux différentes dimensions, sont présentées, ainsi qu'un état de l'art des modèles, approches et outils pour l'évaluation, l'amélioration et l'analyse de la qualité. Les dimensions de la qualité des données étudiés sont mise en œuvre de façon concrète dans le cadre d’un mini-projet. Prerequisites : Concepts fondamentaux de la gestion de données. Bibliographie : Data Quality, Carlo Batini & Monica Scannapieco. Période(s) et lieu(x) d’enseignement : Period(s) : Septembre - Octobre - Novembre. Location : VERSAILLES

Subjects	ECTS	Lecture	directed study
Analyse de masses de données de mobilité	2.5	21
Analyse de masses de données de mobilité Language(s) of instruction : FR/AN Title of educational component in English : Spatio-temporal Data Processing and Mining ECTS : 2.5 Détail du volume horaire : Lecture : 21 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Karine Zeitouni, Professeure Iulian Sandu Popa, Maitre de Conférences. Procedure and organisation : The lecture will alternate the courses and the labs. It will end with the presentation of the project and an exam. The evaluation is equally based on an exam and a project. Objectifs pédagogiques visés : Contenu : The continued advances in mobile devices, geo-location wireless sensors and positioning technologies have led to a profusion of spatio-temporal data. A wide range of applications rely on these data, such as intelligent transportation systems, shared mobility, traffic management, location-aware services, environmental studies, etc. Subsequently, an important research and development (R&D) effort went into the general field of Spatio-temporal (or moving objects) databases (MODB). We can divide them in three classes: (i) modeling moving object databases (ii) indexing techniques and query processing of big spatial and spatio-temporal data (iii) spatial/temporal data analytics, pattern mining, and machine learning. The goal of this lecture is to review the state of the art, from operational and research point of views, and to highlight the application needs, and obstacles / challenges, which guide the trends in R&D. Prerequisites : Advance database techniques (query processing, data integration and quality) Machine learning (recommended). Bibliographie : Books: - Andrienko, Gennady, et al. Visual analytics of movement. Springer Science & Business Media, 2013. - Corti, Paolo, et al. PostGIS Cookbook. Packt Publishing Ltd, 2014. - Giannotti F., Pedreschi D. Mobility, Data Mining and Privacy: Geographic Knowledge Discovery, Springer, 2008. - Ralf Hartmut Güting, Markus Schneider: Moving Objects Databases. Morgan Kaufmann (2005). - Rigaux P., Scholl M. and Voisard A., Spatial Databases-With Application to GIS, Morgan Kaufmann Series in Data Management Systems (2001). Standards & Community: - OGC (Open Geospatial Consortium)- Simple Feature http:/ Période(s) et lieu(x) d’enseignement : Period(s) : Décembre - Janvier - Février. Location : VERSAILLES
Fiabilité et sureté des systèmes de gestion de données	2.5	21
Fiabilité et sureté des systèmes de gestion de données Language(s) of instruction : FR ECTS : 2.5 Détail du volume horaire : Lecture : 21 Modalités d'organisation et de suivi : Coordinator : Scerri Guillaume Pedagogical team : Guillaume Scerri (MCF UVSQ) Stefania Dumbrava (MCF ENSIIE). Procedure and organisation : 7 cours de 3h avec une évaluation sous forme de lectures d'articles/rapport/soutenance. Objectifs pédagogiques visés : Contenu : Les systèmes de gestion de bases de données (SGBD) sont devenus des composantes omniprésentes des logiciels d'application modernes. Par exemple, SQLite, un SGBDR léger, est livré en tant que composante de Firefox, Zoom, Skype, SymbianOS et McAfee Antivirus et doit maintenir de façon très stricte l'intégrité et la confidentialité des données. Par ailleurs, déléguer la gestion de données à des serveurs cloud (ex. amazon cloud ou microsoft Azure) présente de nouveaux problèmes de sureté. Pour s'assurer de la fiabilité de ces SGBD et de leurs algorithmes sous-adjacents, il faut comprendre quels sont les aspects de modélisation et de requêtage qui pourront poser des problèmes de cohérence ou de perte/fuite d'information et quelles sont les techniques qui pourraient êtres appliquées pour y remédier. En particulier, on s'intéressera aux méthodes, dites formelles, qui permettent de raisonner rigoureusement, à l'aide de la logique mathématique, pour établir qu l'exécution des programmes (et des requêtes) est conforme à une spécification. La première partie du cours concernera les aspects liés à la preuve mécanisée et aux tests formels appliqués aux bases de données relationnelles et non-relationnelles (de type graphe). La seconde partie concerne les questions de chiffrement des bases de données et les garanties de sécurité lors de l'exécution de requêtes sur un serveur malhonnête. Prerequisites : Notions de logique - Notions de cryptographie. Bibliographie : K. Trivedi and A. Bobbio, Reliability and Availability Engineering, Cambridge University Press. - B. Schneier, Applied Cryptography, Wiley. Période(s) et lieu(x) d’enseignement : Period(s) : Décembre. Location : VERSAILLES
Fouille de données	2.5	21
Fouille de données Language(s) of instruction : FR/AN Title of educational component in English : Exploratory and Predictive Data Mining ECTS : 2.5 Détail du volume horaire : Lecture : 21 Modalités d'organisation et de suivi : Coordinator : GARCIA Zaineb Pedagogical team : GARCIA Zaineb, MCF UVSQ. Procedure and organisation : Session 1 : Examen (50%) et contrôle continu (50%) Session 2 : Examen (100%). Objectifs pédagogiques visés : Contenu : La fouille de données ou « Data Mining » offre un ensemble de techniques d’exploration de données permettant, à partir d’une grande masse de données stockées dans des bases ou des entrepôts de données, d’extraire des connaissances qui sont utiles et inconnues pour l’aide à la décision. A la fin de ce module, les étudiants seront capables d'identifier la technique adéquate face à un problème réel à résoudre, de traiter les données selon leurs types, de produire des résultats commentés, et d'évaluer la portée réelle de ces résultats. Pour réaliser l’objectif de ce module, le syllabus comportera l’étude des points suivants : ⎯ Le pré-traitement des données (e.g., nettoyage, intégration, transformation, réduction, discrétisation) ; ⎯ Les modèles de segmentation de données (e.g. k-means, classification hiérarchique, DBSCAN) ; ⎯ Les modèles de classification/prédiction (e.g., les arbres de décision, les réseaux de neurones, l’apprentissage profond) ; ⎯ L’extraction de motifs (e.g., les règles d’associations, algorithme Apriori) ; ⎯ Apprentissage de représentation et fouille de données complexes et (e.g., textes, séries temporelles, trajectoires). La mise en pratique de ces concepts s'appuiera sur l'utilisation d'un logiciel gratuit/libre de fouille de données (e.g., Weka) et d’un ensemble de bibliothèque libre destinée à l'apprentissage automatique (e.g., scikit-learn). Compétences : a) Explorer des données, b) traiter les données manquantes, c) développer un modèle de fouille de données en utilisant la technique adéquate face à un problème réel à résoudre, d) comparer et expliquer les modèles de fouille de données, e) évaluer la portée réelle des résultats produits. Prerequisites : Notions de statistiques et d'analyse de données. Bibliographie : ● Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques: concepts and techniques. Elsevier ● H Witten, Ian. "Data mining: practical machine learning tool and techniques." (2016). 4th edition. ● Gupta GK. Introduction to data mining with case studies. PHI Learning Pvt. Ltd.; 2014 Jun 28. ● Cios KJ, Pedrycz W, Swiniarski RW. Data mining methods for knowledge discovery. Springer Science & Business Media; 2012 Dec 6. Période(s) et lieu(x) d’enseignement : Period(s) : Décembre. Location : VERSAILLES
Frameworks pour le développement d'applications Web avancées	2.5	15	6
Frameworks pour le développement d'applications Web avancées Language(s) of instruction : FR ECTS : 2.5 Détail du volume horaire : Lecture : 15 Directed study : 6 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Marc DEXET. Procedure and organisation : Ce cours alternera entre présentation des concepts et applications sous la forme de travaux dirigés. Objectifs pédagogiques visés : Contenu : Le Web est aujourd'hui un support privilégié pour la majorité des applications. Leurs développements répondent à des exigences croissantes et multiples. Leur capacité à être maintenables et évolutives est déterminante. Il n'est plus envisageable de recréer l'ensemble des briques nécessaires. L'ère est définitivement à l'utilisation de frameworks. Ces ensembles cohérents de composants, alignés sur des philosophies et des architectures logicielles reconnues, permettent aux développeurs de se concentrer sur les réponses aux besoins, apportant des solutions éprouvées aux problématiques usuelles du Web. Encore faut-il les connaître ! Cette UE se propose, à travers les frameworks phares de l'écosystème java, d'en comprendre les concepts et de les mettre en pratique. Nous traiterons de sécurité, de persistance des données, de qualité logicielle, d'architecture REST. Nous verrons comment développer, côté serveur, des applications web de niveau professionnel, car il ne lui suffit pas de tomber en marche, encore faut-il qu'elle soit de qualité. Mots-clés : java, web, Spring, Jakarta EE, J2EE, Mockito, JPA, Hibernate, MVC, Quarkus, Maven. Prerequisites : Maîtrise des concepts des bases de données relationnelles et des systèmes de gestion de bases de données Maîtrise de Java Maîtrise des outils systèmes (shell, ...) et des outils de développement. Période(s) et lieu(x) d’enseignement : Period(s) : Décembre - Janvier - Février. Location : VERSAILLES
Gestion de données ambiantes et internet des objets	2.5	21
Gestion de données ambiantes et internet des objets Language(s) of instruction : FR ECTS : 2.5 Détail du volume horaire : Lecture : 21 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Amel Bouzeghoub (TSP) - Amel.Bouzeghoub@telecom-sudparis.eu Valérie Issarny (INRIA) - valerie.issarny@inria.fr. Procedure and organisation : Dans ce module 2 évaluations ont lieu : (1) un mini-projet à faire en binône sur une thématique du cours, et (2) un mini-contrôle écrit individuel sur la compréhension des concepts vus en cours. La moyenne sera calculée sur la base 2/3 mini-projet et 1/3 mini-contrôle. En complément et en dehors du cours, un projet est proposé dans le Master pour ceux qui désirent approfondir cette thématique. Il permet la réalisation dans un cadre réel (i.e. salle complètement équipée de capteurs) d’applications d’intelligence ambiante (domotique). Objectifs pédagogiques visés : Contenu : Descriptif : L’explosion sans précédent des volumes de données générés par les capteurs et les équipements mobiles conduit à un couplage entre monde physique et monde numérique. Cette évolution initiée dans les années 2000 recouvre différents termes technologiques comme le Web des capteurs, l’Internet des objets, l’intelligence ambiante, les systèmes ubiquitaires, les systèmes cyber-physiques, l’informatique mobile, etc.... Cette masse d’informations issues du monde physique, dite masse de données ambiantes, est caractérisée par une distribution à grande échelle (fragmentation et duplication de l’information), une très forte hétérogénéité (aussi bien sémantique que technologique), une grande sensibilité au contexte (déterminant l’interprétation, l’usage et la fragilité de l’information), une dynamicité des sources de données, et une volatilité des flux circulant entre objets communicants. C’est un tour d’horizon des solutions à l’architecture des données ambiantes que propose ce cours. Mots-clef : systèmes de gestion de flux de données (DSMS, CEP), langages de requêtes continues (CQL), médiation de données, intergiciels pour l’internet des objets, déploiement de systèmes IoT, systèmes de crowdsensing, architecture IoT largement distribuée, composition dynamique de smart services, sensibilité au contexte et adaptation…. Prerequisites : Bonne connaissance des SGBD (langages et mécanismes internes), des services et protocoles du web. Période(s) et lieu(x) d’enseignement : Period(s) : Décembre - Janvier - Février. Location : VERSAILLES
Gestion de données et de services dans le cloud	2.5	15	6
Gestion de données et de services dans le cloud Language(s) of instruction : FR/AN Title of educational component in English : Data and service management on the cloud ECTS : 2.5 Détail du volume horaire : Lecture : 15 Directed study : 6 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Yehia Taher Walid Gaaloul. Procedure and organisation : L'UE se compose d'une alternance de cours magistraux et d'application pratique. Objectifs pédagogiques visés : Contenu : Le Cloud Computing est un modèle récent de fourniture à la demande de ressources virtuelles d’infrastructure, de plateforme et de logiciel. Ce cours décrit les concepts de bases, les modèles de déploiements, les services et standard de Cloud et de la gestion de données dans le Cloud. En particulier, on introduit les différents types de services de Cloud (IaaS, PaaS, SaaS), les modèles de déploiement (Privé, Public, Virtuel, Communautaire, Hybride), les architectures de Cloud et les standards (Docker, OGF OCCI, OASIS TOSCA). On décrit également comment les propriétés non-fonctionnelles (telle que l'élasticité) peuvent être assurées. Objectif & Contenu : Les concepts introduits dans ce cours sont illustrés avec des travaux pratiques. Ils portent sur un gestionnaire d’infrastructure (par exemple OpenStack ou OpenNubela), une plateforme de déploiement (Docker, AWS, Google App Engine ou Cloudfoudry) et des outils de gestion de stockage (Google Storage, ObjectStore S3, Amazon Dynamo, etc.). Prerequisites : Bonne connaissance des architectures à bases de services, des concepts fondamentaux des bases de données, des applications client/serveur. Bibliographie : Fehling, Christoph; Leymann, Frank; Retter, Ralph; Schupeck, Walter; Arbitter, Peter: Cloud Computing Patterns, Springer Wien, 2014. Période(s) et lieu(x) d’enseignement : Period(s) : Décembre - Janvier - Février. Location : VERSAILLES
Modélisation de processus métiers	2.5	15	6
Modélisation de processus métiers Language(s) of instruction : FR/AN Title of educational component in English : Business Process Management ECTS : 2.5 Détail du volume horaire : Lecture : 15 Directed study : 6 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Yehia Taher Walid Gaaloul. Procedure and organisation : L'UE se compose d'une alternance de cours magistraux et d'application pratique. Objectifs pédagogiques visés : Contenu : De nos jours, l’évolution de la technologie informatique et notamment l’émergence des architecture SOA, du Cloud Computing et de l’Internet des Objets d’une part, et la complexité et dynamicité croissante des besoins d’utilisateurs d’autre part, ont un impact très important sur la manière avec laquelle l’entreprise effectue ses activités. En effet, il est très important pour une entreprise de s’adapter aux différentes évolutions tant sur le plan métier que sur le plan technologie afin de satisfaire au mieux ses clients. Pour faire face à ces challenges, la notion de processus métier, qui vise à informatiser les procédés d’entreprise ainsi qu'à maîtriser leur complexité, se manifeste comme un enjeu majeur dans l’entreprise de nos jours. L’objectif de ce cours est donc d'aborder à la fois les concepts théoriques et pratiques de la modélisation, développement, et mise en place des processus métier. Pour cela seront abordés les principaux modèles, méthodologies, technologies et outils pour la construction des processus métier d’entreprise, et enfin, les enjeux d’analyse et optimisation des processus à base des techniques de fouille de log de processus. Prerequisites : Bonne connaissance des concepts de base des systèmes d’information, les architectures SOA, et du développement d’applications Web. Bibliographie : Marlon Dumas, Marcello La Rosa, Jan Mendling, and Hajo A. Reijers. 2013. Fundamentals of Business Process Management. Springer Publishing Company, Incorporated. Période(s) et lieu(x) d’enseignement : Period(s) : Décembre - Janvier - Février. Location : VERSAILLES
Sécurité des données corporate et personnelles	2.5	21
Sécurité des données corporate et personnelles Language(s) of instruction : FR ECTS : 2.5 Détail du volume horaire : Lecture : 21 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Philippe Pucheral (UVSQ) Iulian Sandu Popa (UVSQ). Procedure and organisation : 5 cours et 2 TP. Objectifs pédagogiques visés : Contenu : Les menaces sur les données n'ont jamais été aussi nombreuses, qu'il s'agisse d'atteinte à la vie privée des individus, de violation de secrets industriels, commerciaux ou diplomatiques ou encore de falsification de données pouvant avoir des conséquences dramatiques sur le fonctionnement d'un système d'information. Ce module présente les propriétés attendues d’un système d’information en terme de protection des données (confidentialité, intégrité, disponibilité) et passe en revue les familles d'attaques visant à violer ces propriétés. Il détaille ensuite les différentes stratégies pour se prémunir de ces attaques : modèles de contrôle d’accès (DAC, MAC, RBAC, ABAC), chiffrement de bases de données, protections hardware (HSM, co-processeurs sécurisés), audit, anonymisation de données, ainsi que les protections juridiques relatives aux données à caractère personnel (règlement européen RGPD). Prerequisites : Bonnes connaissances des SGBD Concepts de base de la cryptographie (un rappel sera effectué). Bibliographie : - Security, Privacy, and Trust in Modern Data Management, Milan Petkovi?, Willem Jonker, Springer, 2007. - Oracle Database Security Guide, 12c Release 1, 2017. Période(s) et lieu(x) d’enseignement : Period(s) : Décembre - Janvier - Février. Location : VERSAILLES
Web sémantique	2.5	21
Web sémantique Language(s) of instruction : FR ECTS : 2.5 Détail du volume horaire : Lecture : 21 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Zoubida Kedad (UVSQ) Stéphane Lopes (UVSQ). Procedure and organisation : 7 séances de cours. Réalisation d'un mini-projet pendant la durée de l'UE. Objectifs pédagogiques visés : Contenu : Le Web des données (Linked Data) est un espace constitué d’un très grand nombre de sources de données interconnectées, qui peut être vu comme un graphe distribué à l’échelle mondiale. Ces données sont décrites dans les langages développés par le W3C (World Wide Web Consortium). Le Web sémantique est l’ensemble des technologies qui permettent aux applications d’utiliser les données du Web, de reconnaître leur sens, et de permettre le raisonnement sur ces données. L’objectif de ce cours est de présenter les principes du Web sémantique et du Web des données. Il porte sur les langages de représentation proposés par le W3C pour les données : d’abord le langage RDF, puis les langages d’ontologies RDF/S et OWL. L’interrogation de données RDF avec le langage de requêtes Sparql est également abordée, ainsi que les approches d’interconnexion des données (data interlinking). Ce cours présente également des approches alternatives à l’interrogation de données RDF en Sparql, et notamment la recherche mots-clés ou l’exploration thématique. Prerequisites : Maîtrise des concepts de la gestion de données, maîtrise d'un langage de programmation (Java ou Python). Bibliographie : F. Gandon, C. Faron-Zucker et O. Corby. Le web sémantique. T. Heath et C. Bizer. Linked Data. Evolving the web into a global data space. S. Abiteboul, I. Manolescu, P. Rigaux, MC. Rousset, P. Senellart. Web Data Management. Période(s) et lieu(x) d’enseignement : Period(s) : Décembre - Janvier - Février. Location : VERSAILLES

Le second semestre est composé principalement d'un stage de 5 mois ainsi que d'un groupe d'UE professionnalisantes composé d'une UE d'anglais, une UE de connaissance de l'entreprise, une UE de séminaires industriels/recherche et d'un projet annuel.

Subjects	ECTS	Lecture	directed study
Anglais	3		27
Anglais Language(s) of instruction : AN ECTS : 3 Détail du volume horaire : Directed study : 27 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : L'équipe pédagogique est composée d'enseignants de l'Institut d’études culturelles et internationales de l'UVSQ (IECI), qui assure la coordination pédagogique de l’enseignement des langues et cultures étrangères pour tous les étudiants de l'UVSQ. Procedure and organisation : Contrôle continu et examen. Objectifs pédagogiques visés : Contenu : Maîtrise de la langue anglaise, notamment dans le domaine scientifique et informatique. Période(s) et lieu(x) d’enseignement : Period(s) : Septembre - Octobre - Novembre. Location : VERSAILLES
Connaissance du monde du travail	2		21
Connaissance du monde du travail Language(s) of instruction : FR ECTS : 2 Détail du volume horaire : Directed study : 21 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : équipe pédagogique de l'association ECTI. Procedure and organisation : Contrôle continu, examen terminal. Objectifs pédagogiques visés : Contenu : - connaissance du monde de l'entreprise - préparation d'entretien - rédaction de cv et de lettres de motivation. Période(s) et lieu(x) d’enseignement : Period(s) : Septembre - Octobre - Novembre. Location : VERSAILLES
Projet Conception	1.5		1.5
Projet Conception Language(s) of instruction : FR ECTS : 1.5 Détail du volume horaire : Directed study : 1.5 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Zoubida Kedad (UVSQ) Philippe Pucheral (UVSQ). Procedure and organisation : - travail réalisé seul ou en binôme en fonction des projets - le projet se déroule tout au long de l'année, sur des demi-journées bloquées et une semaine complète bloquée - évaluation sur la base d'un rapport et d'une soutenance. Objectifs pédagogiques visés : Contenu : L'UE "projet conception" a pour objectif de réaliser un travail de conception d'envergure autour d'un sujet en relation avec la gestion de données à large échelle. Sont par exemple proposés des sujets relatifs à la gestion de données ambiantes, au machine learning, au requêtage et à la fouille de données scientifiques ou encore aux usines logicielles. Prerequisites : Suivi des UE de tronc commun DataScale. Période(s) et lieu(x) d’enseignement : Period(s) : Octobre - Novembre - Décembre. Location : EVRY - VERSAILLES
Projet Programmation	1.5		1.5
Projet Programmation Language(s) of instruction : FR ECTS : 1.5 Détail du volume horaire : Directed study : 1.5 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Zoubida Kedad (UVSQ) Philippe Pucheral (UVSQ). Procedure and organisation : - Travail réalisé seul ou en binôme en fonction des projets - le projet se déroule tout au long de l'année, sur des demi-journées bloquées et une semaine complète bloquée - évaluation sur la base d'un rapport et d'une soutenance. Objectifs pédagogiques visés : Contenu : L'UE "projet programmation" fait suite à l'UE 'projet conception' et a pour objectif de réaliser un travail de développement d'envergure autour d'un sujet en relation avec la gestion de données à large échelle. Sont par exemple proposés des sujets relatifs à la gestion de données ambiantes, au machine learning, au requêtage et à la fouille de données scientifiques,aux usines logicielles, aux architectures de SGBD. Prerequisites : UE 'projet conception'. Période(s) et lieu(x) d’enseignement : Period(s) : Décembre - Janvier - Février - Mars. Location : EVRY - VERSAILLES
Régulations des données et des contenus numériques	1	9
Régulations des données et des contenus numériques Language(s) of instruction : FR ECTS : 1 Détail du volume horaire : Lecture : 9 Modalités d'organisation et de suivi : Coordinator : Mélanie Clément-Fontaine Pedagogical team : Mélanie Clément-Fontaine (PR UVSQ). Objectifs pédagogiques visés : Contenu : Cette UE a pour objet de présenter les grands principes des régimes juridique applicables aux : - données à caractère personnel - données à caractère non personnel. - contenus numériques relevant du droit de la propriété intellectuelle (PI). - contenus numériques hors du champ de la PI. Cette présentation permettra d’explorer les grandes interrogations du moment en particulier soulevées par l’émergence de l’IA ou encore l’accroissement des plateformes d’intermédiation. Période(s) et lieu(x) d’enseignement : Period(s) : Octobre. Location : VERSAILLES
Séminaires Industriels et Recherche	1		20
Séminaires Industriels et Recherche Language(s) of instruction : FR ECTS : 1 Détail du volume horaire : Directed study : 20 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Philippe Pucheral (UVSQ) Zoubida Kedad (UVSQ). Procedure and organisation : Présence obligatoire, contrôle continu. Objectifs pédagogiques visés : Contenu : Cette séquence de séminaires à vocation à ouvrir les étudiants à des problématiques industrielles ou recherche en relation avec la gestion de données à large échelle. Les séminaires prennent la forme d'interventions de personnalités extérieures, ingénieurs, managers, chefs de projet ou chercheurs, venant partager leurs compétences autour d'un outil, d'une méthode de travail, d'un projet ou encore d'un retour d'expérience présentant un intérêt pédagogique direct aux étudiants, complémentaire à leur formation académique. Prerequisites : Aucun. Période(s) et lieu(x) d’enseignement : Period(s) : Octobre - Novembre - Décembre - Janvier - Février. Location : VERSAILLES

Subjects	ECTS	Lecture	directed study	practical class	Lecture/directed study	Lecture/practical class	directed study/practical class	distance-learning course	Project	Supervised studies
Stage	20		2
Stage ECTS : 20 Détail du volume horaire : Directed study : 2 Modalités d'organisation et de suivi : Coordinator : Pedagogical team : Philippe Pucheral (UVSQ) Zoubida Kedad (UVSQ). Procedure and organisation : Rapport écrit et soutenance orale en fin de stage. Objectifs pédagogiques visés : Contenu : 5 mois de stage en entreprise ou en laboratoire de recherche. Période(s) et lieu(x) d’enseignement : Period(s) : Mars - Avril - Mai - Juin - Juillet.

Modalités de candidatures

Application period

From 30/01/2025 to 11/07/2025

Compulsory supporting documents

Copy diplomas.
Motivation letter.
All transcripts of the years / semesters validated since the high school diploma at the date of application.
Certificate of French (compulsory for non-French speakers).
Curriculum Vitae.

Additional supporting documents

VAP file (obligatory for all persons requesting a valuation of the assets to enter the diploma).
Supporting documents :
- Residence permit stating the country of residence of the first country
- Or receipt of request stating the country of first asylum
- Or document from the UNHCR granting refugee status
- Or receipt of refugee status request delivered in France
- Or residence permit stating the refugee status delivered in France
- Or document stating subsidiary protection in France or abroad
- Or document stating temporary protection in France or abroad.

Contact(s)

Course manager(s)

Zoubida Kedad-Cointot - zoubida.kedad@uvsq.fr

Philippe PUCHERAL - philippe.pucheral@uvsq.fr

Administrative office

Fabienne Chevalier - Fabienne.Chevalier@uvsq.fr

Admission

Registration fees

Find out more about the registration fees