The DataScale programme focuses on the study of and proficiency in new data management and knowledge extraction architectures, from the very large data servers (data centres) to our countless connected objects (edge computing). It aims to provide students with a precise understanding of the technological and scientific challenges involved in the design of these new architectures and the development of Big Data applications using them. The complexity, heterogeneity, and distribution of data and processing must be taken into account as much as the reliability, security, and performance of the underlying data managers (RDBMS or NoSQL).
The skills acquired at the end of the programme follow three axes:
1) big data architectures, cloud and IoT, security and performance;
2) data integration and quality, data mining and knowledge extraction;
3) development and deployment of data-driven services and applications.
Students receive a common core curriculum along these three axes. This common core is supplemented by optional courses covering various topics such as data mining, data confidentiality, the semantic web, cloud computing, ambient data management, the Internet of Things or application development frameworks, opening up research perspectives associated with these different topics.
Location
EVRY
VERSAILLES
Course Prerequisites
The DataScale study path is available only as an introductory programme. As a prerequisite, students must have the equivalent of a Master 1 level in French Informatics, with a solid understanding of databases. The typical profiles of students joining DataScale programme are: students who have obtained a Master's degree in IT in France, students from partner engineering schools doing their last year in a dual course, students who hold an engineering or Informatics Master's degree obtained outside of France.
Skills
Deploy, use and manage a large-scale data management infrastructure.
Extract, analyse and exploit the information and knowledge stored in a large-scale data management infrastructure.
Develop and deploy service-oriented data management applications.
Produce and present an overview report and carry out a scientific approach.
Post-graduate profile
At the end of the programme, students will show proficiency in the three main skills directly linked to the three pillars of the training, namely:
-Deploy, use and manage a large-scale data management infrastructure
-Extract, analyse and exploit the information and knowledge stored in a large-scale data management infrastructure
-Develop and deploy service-oriented data management applications
Students must also be able to produce and present an overview report and carry out a scientific approach in response to a given subject.
These skills are acquired through core common curriculum teaching units and optional units that give students targeted academic knowledge supplemented by the empirical knowledge acquired in carrying out projects; through seminars that introduce students to the topics and practices relating to the worlds of research, industry and services; and finally, through an internship of long duration, to apply acquired knowledge to the reality on the field.
Career prospects
The programme leads students towards management and senior management careers in IT in industry and services, and research-based careers and R&D posts in data management at universities, in private and public research organizations, large companies or start-ups. After obtaining the Master's degree, graduates may continue their studies and apply for a doctoral programme.
Students will be particularly equipped to take up jobs in: database administration (DBA), information systems security administration (DSA), data analysis (data scientists), urbanisation of information systems, design and deployment of empirical knowledge and distributed cations, etc.
Collaboration(s)
Laboratories
Inria Saclay-Île-de-France.
Données et Algorythmes pour une Ville Intelligente et Durable
Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux.
Programme
Le semestre 1 est composé d'un Tronc Commun (6 UE) et d'Options (6 UE au choix).
7 séances de cours
Réalisation d'un mini-projet pendant toute la durée de l'UE
Évaluation par un examen terminal et le mini-projet.
Objectifs pédagogiques visés :
Contenu :
Evaluer et améliorer la qualité de l’information est un enjeu crucial dans les systèmes d’information. Une large collection d'outils commerciaux et open source est disponible sur le marché pour gérer les problèmes de qualité des données dans les systèmes d'information. Chacun de ces outils fournit des fonctionnalités spécifiques, et a sa propre vision de la qualité des données.
L'objectif de ce cours est de présenter les concepts fondamentaux pour comprendre et analyser la qualité des données, notamment dans le contexte des systèmes d’intégration. Le cours présente les différentes dimensions et facteurs caractérisant la qualité des données ainsi que la qualité des processus qui les produisent. Les métriques de qualité, outils de mesures associés aux différentes dimensions, sont présentées, ainsi qu'un état de l'art des modèles, approches et outils pour l'évaluation, l'amélioration et l'analyse de la qualité. Les dimensions de la qualité des données étudiés sont mise en œuvre de façon concrète dans le cadre d’un mini-projet.
Ce cours alternera entre présentation des concepts et applications sous la forme de travaux dirigés.
Objectifs pédagogiques visés :
Contenu :
Les systèmes de gestion de bases de données relationnelles permettent de gérer efficacement des données structurées de taille moyenne (tables de quelques centaines de Go). L’avalanche de données Big Data disponibles sur le Web (traces de navigation, opinions, posts, etc.), ou amassées par les entreprises (tickets d’appels téléphoniques, historiques des achats, etc.) se heurte à la rigidité des systèmes de gestion de bases de données traditionnels (besoin de schéma, modèle de données inadéquat pour les données complexes, contraintes d’intégrité et propriétés ACID).
Pour répondre aux besoins des nouvelles applications de nombreuses solutions ont été développées ces dernières années. Ces modèles post-relationnels se répartissent en différentes catégories : bases de données en colonne, entrepôts clé-valeur, bases de données XML, bases de données graphe, etc.
L’objectif de ce cours est de décrire les enjeux et les fondements de ces solutions et d’en présenter les principales composantes.
- Maîtrise des concepts des bases de données relationnelles et des systèmes de gestion de bases de données
- Maîtrise d'un langage de programmation orienté-objet (Java, Python, ...)
- Maîtrise des outils systèmes (shell, ...) et des outils de développement.
Bibliographie :
- A Survey on NoSQL Stores. Ali Davoudian, Liu Chen, Mengchi Liu. ACM Computing Surveys, Vol. 51, Issue 2, June 2018.
- Persisting big-data: The NoSQL landscape. Alejandro Corbellini, Cristian Mateos, Alejandro Zunino, Daniela Godoy, Silvia Schiaffino. Information Systems, Volume 63, January 2017, Pages 1-23.
- Distributed Data Management Using MapReduce. FENG LI, BENG CHIN OOI, TAMER̈ OZSU, SAI WU. ACM Computing Surveys, Vol. 46, Issue 3, January 2014.
- Seven Databases in Seven Weeks, Second Edition. Luc Perkins, Jim Wilson, Eric Redmond. The Pragmatic Programmers. 2018.
- Spark: The
- Marie Szafranski (ENSIIE)
- 1 intervenant ENSIIE
- Philippe Pucheral [UVSQ).
Procedure and organisation :
21h de cours/TD.
Objectifs pédagogiques visés :
Contenu :
L’objectif du cours consiste à appréhender les concepts théoriques et méthodologiques sous-jacent à l’apprentissage automatique (machine learning). L’accent sera mis l’apprentissage supervisé.
1. Introduction : notions d'apprentissage supervisé, d’apprentissage non supervisé, de sciences des données
2. Concepts : minimisation du risque empirique, minimisation du risque structurel, compromis biais-variance
2. Méthodologie : mesures d’évaluation du risque, estimation du risque (échantillons indépendants, validation croisée, méthodes réchantillonnage)
3. Apprentissage supervisé : K plus proches voisins, SVM, modèles de régression, réseaux de neurones.
7 séances de cours
Évaluation par un examen terminal.
Objectifs pédagogiques visés :
Contenu :
Un nombre croissant d’applications nécessitent de manipuler des données provenant de sources de données distantes, autonomes et hétérogènes. L’interopérabilité entre ces sources se fait à travers des architectures d’intégration de données, dont le but est de fournir un accès uniforme à ces sources de données. La conception de telles architectures pose des problèmes techniques, sémantiques et qualitatifs. Le but de ce module est double : (i) passer en revue les architectures d’intégration de données (ex. médiation, entrepôt de données) et leurs propriétés opérationnelles ; (ii) analyser les problèmes de conception de ces architectures et donner une synthèse des principales techniques associées. Seront notamment abordés la définition de mappings (LAV / GAV et autres), la réécriture des requêtes et l’appariement de schéma. Les problèmes spécifiques aux entrepôts de données seront étudiés, notamment la représentation des données multidimensionnelles, la sélection des agrégats à matérialiser, le processus de rafraîchissement d’un entrepôt de données, les opérations OLAP et les outils ETL.
Prerequisites :
Bases de données : création et manipulation de bases de données relationnelles, mécanismes internes des SGBD relationnels.
Bibliographie :
Principles of distributed database systems, Tamer Oszu et Patrick Valduriez
The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering, Ralph Kimball & Joe Caserta.
Title of educational component in English :
Service Oriented Architecture
ECTS :
2.5
Détail du volume horaire :
Lecture :15
Directed study :12
Modalités d'organisation et de suivi :
Coordinator :
Pedagogical team :
Yehia Taher
Walid Gaaloul.
Procedure and organisation :
L'UE se compose d'une alternance de cours magistraux et d'application pratique.
Objectifs pédagogiques visés :
Contenu :
Ces dernières années, le développement d'applications a beaucoup évolué sous l'impulsion du besoin grandissant des entreprises pour des applications ubiquitaires. Dans l'informatique ubiquitaire, les services modélisent les ressources et les applications, et sont utilisés pour gérer l'hétérogénéité et la dynamique de ces environnements. Le web n'est alors plus simplement un ensemble des pages statiques reliées entre elles, mais un dispositif permettant une intégration des services ubiquitaires, rendant accessible des applications avec une interface utilisateur riche et réactive.
L’objectif de ce cours est donc d'aborder les principes fondamentaux des architectures orientées services pour la conception d’applications d’entreprise. Pour cela seront abordés les principaux modèles, algorithmes, technologies et outils pour la construction d’applications à base de services. Ce module adresse les points suivants : Les architecture orientée services et leurs standards; les modèles de contrats (SLA) et qualités de services (QoS) ; les approches pour la découverte et composition de services (orchestration et chorégraphie) ; ou encore les architectures de services (SCA, services web sémantiques, REST).
Prerequisites :
Bonne connaissance des concepts de base de la programmation orientée-objet, et du développement d’applications Web.
Bibliographie :
Michael P. Papazoglou: Web Services: Principles and Technology. Prentice Hall, 2007. ISBN, 140825073X, 9781408250730.
Philippe Pucheral (UVSQ)
Pierre Sutra (Télécom SudParis).
Procedure and organisation :
- cours/TD intégrés
- évaluation par un examen terminal.
Objectifs pédagogiques visés :
Contenu :
Pour gérer efficacement et de façon fiable des masses de données de plus en plus volumineuses, hétérogènes et largement distribuées, les mécanismes internes de gestion de données sont en profonde mutation. Ces mécanismes doivent s'adapter aux évolutions profondes des applications (des applications OLTP/OLAP traditionnelles au big data et à l'edge computing) et exploiter au mieux les avancées liées aux technologies hardware (mémoires stables électroniques NAND ou 3D Xpoint, tera-byte RAM, architectures massivement distribuées, microcontrôleurs embarqués).
En premier lieu, ce module introduit les principes fondamentaux liés au stockage et à l'indexation de données, à l'évaluation et à l'optimisation de traitements massifs et à la cohérence et la résilience des données. Il détaille ensuite comment ces concepts fondamentaux sont déclinés dans des architectures aussi différentes que les serveurs relationnels High End, les systèmes NoSQL largement distribués et désormais les micro-serveurs embarqués constituant l'Internet des Objets. Dans une dernière partie, ce module s'intéresse aux mécanismes de gestion de la cohérence et de la concurrence, et présente plusieurs algorithmiques représentatifs du domaine (Bayou, ABD, primary replication et consensus).
Prerequisites :
Niveau M1 informatique ou 4ème année d'école d'ingénieur ayant reçu une formation en :
- bases de données : concepts fondamentaux, SGBD relationnels, principes de base de l'indexation et de l'évaluation de requêtes
- systèmes distribués : concepts fondamentaux, principes de base du contrôle de concurrence et de la réplication.
Bibliographie :
- Principles of Distributed Database Systems, Ozsu, T., Valduriez P., Prentice-Hall, 2nd edition, 2011 (Springer)
- Fundamentals of Database Systems, 6th Ed, Elmasri and Navathe, Addison Wesley, 2011
- Replication Techniques for Availability, R. Van Renesse, R. Guerraoui, in Replication: Theory and Practice, 2010.
7 séances de cours.
Réalisation d'un mini-projet pendant la durée de l'UE.
Objectifs pédagogiques visés :
Contenu :
Le Web des données (Linked Data) est un espace constitué d’un très grand nombre de sources de données interconnectées, qui peut être vu comme un graphe distribué à l’échelle mondiale. Ces données sont décrites dans les langages développés par le W3C (World Wide Web Consortium). Le Web sémantique est l’ensemble des technologies qui permettent aux applications d’utiliser les données du Web, de reconnaître leur sens, et de permettre le raisonnement sur ces données.
L’objectif de ce cours est de présenter les principes du Web sémantique et du Web des données. Il porte sur les langages de représentation proposés par le W3C pour les données : d’abord le langage RDF, puis les langages d’ontologies RDF/S et OWL. L’interrogation de données RDF avec le langage de requêtes Sparql est également abordée, ainsi que les approches d’interconnexion des données (data interlinking). Ce cours présente également des approches alternatives à l’interrogation de données RDF en Sparql, et notamment la recherche mots-clés ou l’exploration thématique.
Prerequisites :
Maîtrise des concepts de la gestion de données, maîtrise d'un langage de programmation (Java ou Python).
Bibliographie :
F. Gandon, C. Faron-Zucker et O. Corby. Le web sémantique.
T. Heath et C. Bizer. Linked Data. Evolving the web into a global data space.
S. Abiteboul, I. Manolescu, P. Rigaux, MC. Rousset, P. Senellart. Web Data Management.
Le module traite de l’analyse de la fiabilité et des performances des systèmes transactionnels ainsi que des concepts clés associés à la sécurité informatique et en particulier aux protocoles de sécurité.
La première partie présente les techniques d’analyse de la fiabilité et de la disponibilité (Arbre de Fautes, RBD) et des mesures tels le MTTF. Il traite aussi de l’analyse opérationnelle des débits des systèmes de transactions et des attaques de déni de service (simple ou distribué, botnet)
Ce module montre également les bases des protocoles cryptographiques, et présente des solutions de sécurité concrètes à plusieurs problèmes de sécurité informatique. Plus précisément, sont introduits les concepts portant sur les services et mécanismes de sécurité, les signatures numériques et les certificats électroniques.
Compétences:
- Connaître les mécanismes clés liés à l'authentification et les infrastructures à clefs publiques (PKI)
- Comprendre les bases et les enjeux de sécurité des protocoles associés aux nouveaux services
- savoir concevoir et évaluer des systèmes logiciels fiables et résistants aux attaques et aux pannes.
Prerequisites :
- Notions de probabilités.
- Notions de cryptographie.
Bibliographie :
- K. Trivedi and A. Bobbio, Reliability and Availability Engineering, Cambridge University Press.
- B. Schneier, Applied Cryptography, Wiley.
Philippe Pucheral (UVSQ)
Iulian Sandu Popa (UVSQ).
Procedure and organisation :
5 cours et 2 TP.
Objectifs pédagogiques visés :
Contenu :
Les menaces sur les données n'ont jamais été aussi nombreuses, qu'il s'agisse d'atteinte à la vie privée des individus, de violation de secrets industriels, commerciaux ou diplomatiques ou encore de falsification de données pouvant avoir des conséquences dramatiques sur le fonctionnement d'un système d'information.
Ce module présente les propriétés attendues d’un système d’information en terme de protection des données (confidentialité, intégrité, disponibilité) et passe en revue les familles d'attaques visant à violer ces propriétés. Il détaille ensuite les différentes stratégies pour se prémunir de ces attaques : modèles de contrôle d’accès (DAC, MAC, RBAC, ABAC), chiffrement de bases de données, protections hardware (HSM, co-processeurs sécurisés), audit, anonymisation de données, ainsi que les protections juridiques relatives aux données à caractère personnel (règlement européen RGPD).
Prerequisites :
- bonnes connaissances des SGBD
- concepts de base de la cryptographie (un rappel sera effectué).
Bibliographie :
- Security, Privacy, and Trust in Modern Data Management, Milan Petković, Willem Jonker, Springer, 2007.
Title of educational component in English :
Business Process Management
ECTS :
2.5
Détail du volume horaire :
Lecture :15
Directed study :6
Modalités d'organisation et de suivi :
Coordinator :
Pedagogical team :
Yehia Taher
Walid Gaaloul.
Procedure and organisation :
L'UE se compose d'une alternance de cours magistraux et d'application pratique.
Objectifs pédagogiques visés :
Contenu :
De nos jours, l’évolution de la technologie informatique et notamment l’émergence des architecture SOA, du Cloud Computing et de l’Internet des Objets d’une part, et la complexité et dynamicité croissante des besoins d’utilisateurs d’autre part, ont un impact très important sur la manière avec laquelle l’entreprise effectue ses activités. En effet, il est très important pour une entreprise de s’adapter aux différentes évolutions tant sur le plan métier que sur le plan technologie afin de satisfaire au mieux ses clients. Pour faire face à ces challenges, la notion de processus métier, qui vise à informatiser les procédés d’entreprise ainsi qu'à maîtriser leur complexité, se manifeste comme un enjeu majeur dans l’entreprise de nos jours.
L’objectif de ce cours est donc d'aborder à la fois les concepts théoriques et pratiques de la modélisation, développement, et mise en place des processus métier. Pour cela seront abordés les principaux modèles, méthodologies, technologies et outils pour la construction des processus métier d’entreprise, et enfin, les enjeux d’analyse et optimisation des processus à base des techniques de fouille de log de processus.
Prerequisites :
Bonne connaissance des concepts de base des systèmes d’information, les architectures SOA, et du développement d’applications Web.
Bibliographie :
Marlon Dumas, Marcello La Rosa, Jan Mendling, and Hajo A. Reijers. 2013. Fundamentals of Business Process Management. Springer Publishing Company, Incorporated.
Title of educational component in English :
Spatio-temporal Data Processing and Mining
ECTS :
2.5
Détail du volume horaire :
Lecture :21
Modalités d'organisation et de suivi :
Coordinator :
Pedagogical team :
Karine Zeitouni, Professeure
Iulian Sandu Popa, Maitre de Conférences.
Procedure and organisation :
The lecture will alternate the courses and the labs. It will end with the presentation of the project and an exam.
The evaluation is equally based on an exam and a project.
Objectifs pédagogiques visés :
Contenu :
The continued advances in mobile devices, geo-location wireless sensors and positioning technologies have led to a profusion of spatio-temporal data. A wide range of applications rely on these data, such as intelligent transportation systems, shared mobility, traffic management, location-aware services, environmental studies, etc. Subsequently, an important research and development (R&D) effort went into the general field of Spatio-temporal (or moving objects) databases (MODB). We can divide them in three classes:
(i) modeling moving object databases
(ii) indexing techniques and query processing of big spatial and spatio-temporal data
(iii) spatial/temporal data analytics, pattern mining, and machine learning.
The goal of this lecture is to review the state of the art, from operational and research point of views, and to highlight the application needs, and obstacles / challenges, which guide the trends in R&D.
Prerequisites :
Advance database techniques (query processing, data integration and quality)
Machine learning (recommended).
Bibliographie :
Books:
- Andrienko, Gennady, et al. Visual analytics of movement. Springer Science & Business Media, 2013.
- Corti, Paolo, et al. PostGIS Cookbook. Packt Publishing Ltd, 2014.
- Giannotti F., Pedreschi D. Mobility, Data Mining and Privacy: Geographic Knowledge Discovery, Springer, 2008.
- Ralf Hartmut Güting, Markus Schneider: Moving Objects Databases. Morgan Kaufmann (2005).
- Rigaux P., Scholl M. and Voisard A., Spatial Databases-With Application to GIS, Morgan Kaufmann Series in Data Management Systems (2001).
Title of educational component in English :
Data and service management on the cloud
ECTS :
2.5
Détail du volume horaire :
Lecture :15
Directed study :6
Modalités d'organisation et de suivi :
Coordinator :
Pedagogical team :
Yehia Taher
Walid Gaaloul.
Procedure and organisation :
L'UE se compose d'une alternance de cours magistraux et d'application pratique.
Objectifs pédagogiques visés :
Contenu :
Le Cloud Computing est un modèle récent de fourniture à la demande de ressources virtuelles d’infrastructure, de plateforme et de logiciel. Ce cours décrit les concepts de bases, les modèles de déploiements, les services et standard de Cloud et de la gestion de données dans le Cloud. En particulier, on introduit les différents types de services de Cloud (IaaS, PaaS, SaaS), les modèles de déploiement (Privé, Public, Virtuel, Communautaire, Hybride), les architectures de Cloud et les standards (Docker, OGF OCCI, OASIS TOSCA). On décrit également comment les propriétés non-fonctionnelles (telle que l'élasticité) peuvent être assurées.
Objectif & Contenu : Les concepts introduits dans ce cours sont illustrés avec des travaux pratiques. Ils portent sur un gestionnaire d’infrastructure (par exemple OpenStack ou OpenNubela), une plateforme de déploiement (Docker, AWS, Google App Engine ou Cloudfoudry) et des outils de gestion de stockage (Google Storage, ObjectStore S3, Amazon Dynamo, etc.).
Prerequisites :
Bonne connaissance des architectures à bases de services, des concepts fondamentaux des bases de données, des applications client=/serveur.
Dans ce module 2 évaluations ont lieu : (1) un mini-projet à faire en binône sur une thématique du cours, et (2) un mini-contrôle écrit individuel sur la compréhension des concepts vus en cours.
La moyenne sera calculée sur la base 2/3 mini-projet et 1/3 mini-contrôle.
En complément et en dehors du cours, un projet est proposé dans le Master pour ceux qui désirent approfondir cette thématique. Il permet la réalisation dans un cadre réel (i.e. salle complètement équipée de capteurs) d’applications d’intelligence ambiante (domotique).
Objectifs pédagogiques visés :
Contenu :
Descriptif : L’explosion sans précédent des volumes de données générés par les capteurs et les équipements mobiles conduit à un couplage entre monde physique et monde numérique. Cette évolution initiée dans les années 2000 recouvre différents termes technologiques comme le Web des capteurs, l’Internet des objets, l’intelligence ambiante, les systèmes ubiquitaires, les systèmes cyber-physiques, l’informatique mobile, etc.... Cette masse d’informations issues du monde physique, dite masse de données ambiantes, est caractérisée par une distribution à grande échelle (fragmentation et duplication de l’information), une très forte hétérogénéité (aussi bien sémantique que technologique), une grande sensibilité au contexte (déterminant l’interprétation, l’usage et la fragilité de l’information), une dynamicité des sources de données, et une volatilité des flux circulant entre objets communicants.
C’est un tour d’horizon des solutions à l’architecture des données ambiantes que propose ce cours.
Mots-clef : systèmes de gestion de flux de données (DSMS, CEP), langages de requêtes continues (CQL), médiation de données, intergiciels pour l’internet des objets, déploiement de systèmes IoT, systèmes de crowdsensing, architecture IoT largement distribuée, composition dynamique de smart services, sensibilité au contexte et adaptation….
Prerequisites :
Bonne connaissance des SGBD (langages et mécanismes internes), des services et protocoles du web.
Frameworks pour le développement d'applications Web avancées
Language(s) of instruction :
FR
ECTS :
2.5
Détail du volume horaire :
Lecture :15
Directed study :6
Modalités d'organisation et de suivi :
Coordinator :
Pedagogical team :
Marc DEXET.
Procedure and organisation :
Ce cours alternera entre présentation des concepts et applications sous la forme de travaux dirigés.
Objectifs pédagogiques visés :
Contenu :
Le Web est aujourd'hui un support privilégié pour la majorité des applications. Leurs développements répondent à des exigences croissantes et multiples. Leur capacité à être maintenables et évolutives est déterminante. Il n'est plus envisageable de recréer l'ensemble des briques nécessaires. L'ère est définitivement à l'utilisation de frameworks.
Ces ensembles cohérents de composants, alignés sur des philosophies et des architectures logicielles reconnues, permettent aux développeurs de se concentrer sur les réponses aux besoins, apportant des solutions éprouvées aux problématiques usuelles du Web.
Encore faut-il les connaître ! Cette UE se propose, à travers les frameworks phares de l'écosystème java, d'en comprendre les concepts et de les mettre en pratique. Nous traiterons de sécurité, de persistance des données, de qualité logicielle, d'architecture REST. Nous verrons comment développer, côté serveur, des applications web de niveau professionnel, car il ne lui suffit pas de tomber en marche, encore faut-il qu'elle soit de qualité.
Maîtrise des concepts des bases de données relationnelles et des systèmes de gestion de bases de données
Maîtrise de Java
Maîtrise des outils systèmes (shell, ...) et des outils de développement.
Title of educational component in English :
Exploratory and Predictive Data Mining
ECTS :
2.5
Détail du volume horaire :
Lecture :12
directed study/practical class :12
Modalités d'organisation et de suivi :
Coordinator :
Pedagogical team :
Karine Zeitouni.
Procedure and organisation :
L'UE se compose d'une alternance de cours magistraux (12h au total) et d'application pratique (12h).
L'évaluation se base sur un examen écrit et la réalisation d'un projet. La note finale est la moyenne des notes sur ces deux parties.
Objectifs pédagogiques visés :
Contenu :
La fouille de données vise à extraire, depuis des bases de données, des connaissances cachées potentiellement utiles pour l’aide à la décision. Ce module a pour objectif d'apprendre à tirer au mieux parti des données en traitant différents aspects de la fouille de données qu'elle soit exploratoire ou prédictive.
Le cours abordera les notions permettant l'analyse des données selon plusieurs points de vues :
- La préparation des données.
- Les méthodes exploratoires : le groupage (clustering), l'analyse de motifs fréquents, les règles associatives.
- Les méthodes prédictives : le processus général, la classification, la régression, les méthodes hybrides.
- Approches spécifiques : fouille de textes, fouille de séquences, fouille de séries temporelles, fouille de flux de données, ...
La mise en pratique de ces concepts s'appuiera sur l'utilisation d'outils et de librairies ouverts, largement utilisés.
Prerequisites :
Il est souhaitable de suivre les cours de Machine learning et d'intégration des données.
Bibliographie :
Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques: concepts and techniques. Elsevier.
Mohammed J. Zaki, Wagner Meira, Jr., Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, May 2014.
Witten, Ian H., et al. Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann, 2016.
Période(s) et lieu(x) d’enseignement :
Period(s) :
Décembre - Janvier - Février.
Location :
VERSAILLES
Le second semestre est composé principalement d'un stage de 5 mois ainsi que d'un groupe d'UE professionnalisantes composé d'une UE d'anglais, une UE de connaissance de l'entreprise, une UE de séminaires industriels/recherche et d'un projet annuel.
Cette séquence de séminaires à vocation à ouvrir les étudiants à des problématiques industrielles ou recherche en relation avec la gestion de données à large échelle.
Les séminaires prennent la forme d'interventions de personnalités extérieures, ingénieurs, managers, chefs de projet ou chercheurs, venant partager leurs compétences autour d'un outil, d'une méthode de travail, d'un projet ou encore d'un retour d'expérience présentant un intérêt pédagogique direct aux étudiants, complémentaire à leur formation académique.
Prerequisites :
Aucun.
Période(s) et lieu(x) d’enseignement :
Period(s) :
Octobre - Novembre - Décembre - Janvier - Février.
- Travail réalisé seul ou en binôme en fonction des projets
- le projet se déroule tout au long de l'année, sur des demi-journées bloquées et une semaine complète bloquée
- évaluation sur la base d'un rapport et d'une soutenance.
Objectifs pédagogiques visés :
Contenu :
L'UE "projet programmation" fait suite à l'UE 'projet conception' et a pour objectif de réaliser un travail de développement d'envergure autour d'un sujet en relation avec la gestion de données à large échelle. Sont par exemple proposés des sujets relatifs à la gestion de données ambiantes, au machine learning, au requêtage et à la fouille de données scientifiques,aux usines logicielles, aux architectures de SGBD.
- travail réalisé seul ou en binôme en fonction des projets
- le projet se déroule tout au long de l'année, sur des demi-journées bloquées et une semaine complète bloquée
- évaluation sur la base d'un rapport et d'une soutenance.
Objectifs pédagogiques visés :
Contenu :
L'UE "projet conception" a pour objectif de réaliser un travail de conception d'envergure autour d'un sujet en relation avec la gestion de données à large échelle. Sont par exemple proposés des sujets relatifs à la gestion de données ambiantes, au machine learning, au requêtage et à la fouille de données scientifiques ou encore aux usines logicielles.
L'équipe pédagogique est composée d'enseignants de l'Institut d’études culturelles et internationales de l'UVSQ (IECI), qui assure la coordination pédagogique de l’enseignement des langues et cultures étrangères pour tous les étudiants de l'UVSQ.
Procedure and organisation :
Contrôle continu et examen.
Objectifs pédagogiques visés :
Contenu :
Maîtrise de la langue anglaise, notamment dans le domaine scientifique et informatique.