Le parcours " Innovation, Marchés et Science des Données " s'adresse à des étudiants désireux d'acquérir une expertise à l'intersection de l'analyse économique, du marketing et des techniques quantitatives. Il propose un enseignement à la fois conceptuel et professionnalisé portant sur l'analyse et l'étude de marché. L'objectif est de former des économistes et des spécialistes marketing capables d'inscrire leur démarche dans son contexte économique, rompus aux méthodes d'analyse, d'étude quantitative et de développement de marchés de produits ou services. Il s'agit de disposer des clés pour comprendre la logique d'une innovation de marché, notamment des modèles économiques accompagnant la diffusion des technologies de l'information et de la communication, et de maîtriser les outils quantitatifs du marketing et du big data. L'objectif essentiel de la formation est de donner les compétences nécessaires pour exercer dans l'entreprise les métiers de data scientist, architecte big data, analyste Business Intelligence, analyste Connaissance Client, spécialiste de marketing quantitatif et de pouvoir y exercer rapidement. La formation implique d'une part une acquisition d'expériences au sein de l'entreprise et d'autre part un enseignement supérieur dans le cadre du département d'Economie de l'Université d'Evry Val d'Essonne, du département SHS de l'Université Paris-Saclay.
Location
EVRY
PALAISEAU
Course Prerequisites
Les candidats doivent être titulaires d'un niveau M1 reconnu équivalent à la formation universitaire (université, écoles de commerce ou d'ingénieur): dans le domaine de l'économie, de la gestion, du commerce ou de la vente (université ou école de commerce); dans une formation technique (mathématiques, informatique, statistique, ingénieurs) manifestant un intérêt pour les sciences des données, l'économie et le marketing quantitatif. Les pré-requis en économie, statistique et économétrie sont souhaitables.
Skills
Conduire les analyses statistiques et économétriques, interpréter les résultats.
Faire une analyse marketing à partir de jeux de données et modèles statistiques.
Analyser et comprendre les enjeux économiques.
Maîtriser des plateformes de Big Data ainsi que les outils de cloud.
Maîtriser les outils quantitatifs du marketing et du Big Data.
Post-graduate profile
La formation implique d'une part une acquisition d'expériences au sein de l'entreprise et d'autre part un enseignement supérieur dans le cadre du département d'Economie de l'Université d'Evry Val d'Essonne, du département SHS de l'Université Paris-Saclay et de l'ENSIIE (Ecole Nationale Supérieure d'Informatique pour l'Industrie et l'Entreprise).
Les principales compétences acquises: analyser et comprendre les enjeux économiques; conduire les analyses statistiques et économiques, interpréter les résultats; maîtriser les analyses socio-économiques, analyser les comportements à partir de modélisations; faire une analyse marketing à partir de jeux de données et de modèles statistiques; maîtriser les outils quantitatifs du marketing et du Big Data; maîtriser des plateformes de Big Data ainsi que les outils de cloud.
Les étudiants acquièrent également les méthodes de travail individuelles mais aussi en équipes: la plupart des matières sont valorisés par un projet individuel ou en groupe. Les étudiants développent les qualités personnelles telles que l'autonomie, initiative, responsabilité
Career prospects
Métiers possibles à l'issue de la formation :
-Analyste Marketing relationnel
-Analyste Connaissance Client
-Architecte Big data
-Big data analyst
-Business Intelligence analyst
-Chargé d'études en statistiques et informatique décisionnelles
-Consultant statisticien
-Data analyst
-Data Mining analyst
-Data scientist
Collaboration(s)
Laboratories
Centre d'Etudes des Politiques Economiques de l'Université d'Evry.
Les supports de cours, de travaux dirigés ainsi que leur corrigés sont mis en
ligne sur la plate-forme pédagogique E-campus avant et/ou après les séances.
Objectifs pédagogiques visés :
Contenu :
Ce cours est une initiation à l’utilisation de logiciels d’analyse statistique
tels que SAS ou R afin d’illustrer sur des données réelles ou simulées quelques
techniques classiques de modélisation statistique. Il permet aux étudiants qui
le souhaitent d’acquérir les principes de base de programmation au travers le
logiciel SAS. Cet enseignement est dispensé en début d’année universitaire et
comporte 20H.
Chapitre 1 : Généralités - Présentation - Étape DATA
Chapitre 2 : Les Procédures usuelles - Graphiques
Chapitre 3 : Proc REG - SAS / Insight
Chapitre 4 : Programmation en SAS (1) : macro-langage - O.D.S
Chapitre 5 : Programmation (2) : calcul matriciel avec SAS / IML
Chapitre 6 : La procédure SAS/SQL.
Prerequisites :
Statistique inférentielle et modèle linéaire.
Bibliographie :
– SAS - Introduction au décisionnel : du data management au reporting
(3ème édition), 2011, Sébastien Ringuedé
– SAS –Maîtriser SAS Base et SAS Macro – Hélène Kontchou Kouomegni et
Olivier Decourt – Dunod.
Le cours se déroule sous la forme de sept séances de 3h
Des notes de cours sont disponibles en ligne pour les étudiants
Des séances d’application sont organisées pendant lesquelles les étudiants travaillent sur des variantes des modèles présentés en cours
15h de travaux pratiques et de remise à niveau sont organisées. Elles portent essentiellement sur les exercices pratiques pour chaque chapitre du cours et la révision des définitions nécessaire pour la bonne compréhension du cours.
Objectifs pédagogiques visés :
Contenu :
- Equilibre général en concurrence parfaite
- Monopole
- Discrimination par les prix : monopole discriminant
- Oligopole et duopole
- Différenciation des produits I : concurrence monopolistique
- Différenciation des produits II : oligopole
- Information, qualité et publicité.
Prerequisites :
Comportements du producteur en concurrence parfaite
-Techniques de base d’optimisation
-Maximisation du profit
-Fonction de coûts
-Détermination de la fonction d’offre et des demandes de facteur
-Equilibre sur un marché.
Bibliographie :
- Eléments de Microéconomie : Théorie et applications, Pierre PICARD, Montchrestien
- Analyse microéconomique, Hal R. VARIAN, De Boeck
- Theory of industrial organization, Jean TIROLE, MIT Press
- Game Theory for Applied Economists, Robert GIBBONS, Princeton University Press
- Game Theory : Interactive Strategies in Economics and Management, Aviad HEIFETZ, Cambridge University Press.
Chaque session commence par une présentation des concepts du Marketing digital puis une mise en application soit individuelle soit en groupe autour d’exemple de l’industrie. La mise en application donne généralement lieu à une présentation en anglais devant la classe.
Les acquis seront évalués à travers une présentation par paire ou par trio d’une stratégie digitale.
Objectifs pédagogiques visés :
Contenu :
Séance 1
•Introduction (naissance d’internet et du marketing digital, changements liés à la technologie digitale, transformations dues au marketing digital)
•L’impact du digital sur le marketing (Les nouveaux challenges, Impact du marketing par le digital, POEM, Les nouveaux 4P, permission marketing, proposition de valeur, tendances pour 2019)
•L’impact du digital sur les clients (modification du comportement, impact sur le funnel)
•Développer une stratégie digitale (introduction, travail en groupe sur un cas d’usage)
Séance 2
•Marketing de contenu (type de contenus, curation, Hub Hygiène et Hero, travail de groupe en anglais)
Séance 3
•L’expérience mobile (ce que la mobilité a changé, site vs application)
•SEO
•Les réseaux sociaux
•Etude d’un cas
Séance 4
•Inbound et outbound marketing
•Email marketing et RGPD
•Affiliate Marketing.
Prerequisites :
Aucun prérequis. Le cours reprend les concepts de base du marketing et commence par une définition du Marketing.
Le module compte 8 demi-journées :
-Marketing Client : 1 demi-journées
-CRM Analytique : 2 demi-journées de cours, dont TP (Sous R)
-CRM Opérationnel : 3 demi-journées de cours, dont TP (Sous Salesforce)
-Soutenance de projet : 2 demi-journées
Les étudiants ont un projet à réaliser en binôme pour valider ce module.
Objectifs pédagogiques visés :
Contenu :
L’objectif de ce module est de permettre aux étudiants d’acquérir les connaissances nécessaires en termes d’outils et de méthodes afin de mener des activités de Gestion de Relation Client.
Le contenu du cours comporte trois thèmes:
•Le Marketing Client, l’Expérience Client
•Le CRM Analytique (passage en revue des techniques de Connaissance Client à travers la segmentation, la valeur client, les scores d’appétence, les scores d’attrition…).
•Le CRM Opérationnel (Forces de ventes, Campagnes Marketing, Centres d’appels, Support Client, CRM Collaboratif, e-CRM, Social CRM, passage en revue des outils utilisés).
Prerequisites :
-Connaissances de base en R
-Connaissance de base en statistiques.
Bibliographie :
-Gestion de la relation client (Frédéric Jallat, Ed Peelen, Pierre Volle, Eric Stevens) – Pearson 2018
-L'expérience client (Laurence Body , Christophe Tallec) – Eyrolles 2015
-Magic Quadrant Reports (Gartner) - 2019
-The CRM Playbook (Forester) - 2019.
Linux:
15H de cours/TP (applications des exemples sur machine + interaction question/réponse)
Évaluation => Projet en binôme : le sujet change d’une année à l’autre. On demande aux étudiant de créer un programme Shell qui englobera les différents thèmes abordés en classe
Scala:
Le déroulement du cours, intégrera une partie théorique afin d’expliquer les spécificités
du langage Scala, ainsi qu’une partie pratique afin de s’exercer un peu sur celui-ci.
L’IDE utilisé sera IntelliJ.
Python:
On alterne cours théorique, exercice sur tableau et pratique sur la machine. Le cours est interactif. Le cours sera validé avec 3 notes :
- une pour le contrôle continu
- une deuxième pour le TP
- une troisième pour le projet final et la soutenance.
Java:
Cours magistraux (2 séances) et TD/TP sur la réalisation d’une calculatrice graphique en Java (2 séances).
Objectifs pédagogiques visés :
Contenu :
Linux:
1. Généralités sur les systèmes Unix
2. Commandes fréquemment utilisées
Gestion des fichiers et des répertoires
Gestion des droits
Manipulation des contenus de fichiers ligne par ligne
Divers
Commandes de manipulation de variables et de paramètres
3. Shell
Substitution
Variables
Quotation
Caractères de redirection
4. Script Shell
Rôle d’un script Shell
Passage de paramètres
Tests
Structure de contrôle
Fonction
Gestion des processus
Scala:
Présentation du Langage de programmation Scala
Scala essentiel
Clean code
Les boucles
Les tableaux
Les principales collections
Programmation Orienté Objet
Les tests unitaires
Python:
On part de la pensée théorique de l’algorithmique vers l’application avec un langage bien précis (PYTHON). Apprendre les paradigmes principaux de la programmation. Comprendre le lien entre les structures des données et le quotidien des praticiens du métier Data Science.
Java:
Introduction à la POO (Programmation Orientée Objet)
Objectifs de la POO
Comparaison langage procédural et langage objet
Encapsulation, héritage et polymorphisme
Classe et objet
Méthodes et attributs
Notion d'interface et de classe abstraite
La syntaxe Java
Gestion des entrées sorties
•Le package java.io
•Opérations de lecture
•Opération d'écriture
Construction d'interface graphique
•Présentation de SWING
•Composants d'interface
•Les layouts
•Evènements et listeners.
Prerequisites :
Linux:
Avoir un environnement UNIX sur les machines des étudiants.
Un raisonnement algorithmique (boucle, structure conditionnelle, variable/constante..)
Scala:
Aucun niveau pré-requis pour ce cours, il est principalement destiné aux étudiants qui
n’ont pas acquis les notions de la programmation objet.
Python:
Aucun
Java:
Posséder des connaissances de base en programmation.
Bibliographie :
Linux:
Learning the Unix Operating System, chez O’Reilly
Learning the vi editor, chez O’Reilly
Supervised studies including internship supervision :0
Modalités d'organisation et de suivi :
Coordinator :
Pedagogical team :
Fourat Mastouri.
Procedure and organisation :
Le cours s’étale sur 24 heures :
- 21 heures de cours théorique + des travaux pratiques. Le cours se compose des chapitres suivants :
- Introduction au big data
- L’écosystème Hadoop
- Les bases de données Nosql
- Elasticsearch et stack ES
- Les bonnes pratiques de passage en production !
- 3 heures: évaluation pendant laquelle les étudiants sont amenés à présenter un exposé par groupe de 5 maximum détaillant leurs travaux. Des sujets leurs seront proposés ainsi qu'un accès à une plateforme sur le cloud (Cluster de 10 machine sur le cloud Microsoft Azure) afin qu'ils proposent une chaîne de stockage, manipulation et restitution de données de bout en bout qui permet de répondre aux problématiques posées par le sujet choisi par le biais des outils de l'écosystème Hadoop.
L'objectif étant de concrétiser les connaissances théoriques abordées pendant le cours dans le cadre d’un petit projet en mode pilote - proof of concept.
Objectifs pédagogiques visés :
Contenu :
Le but de ce cours est de présenter les principales idées et théories relatives aux systèmes de gestion de données no sql (non tabulaire).
Ces technologies ont vu le jour notamment grâce à l'avènement des techniques de stockage et de traitement de volumes massifs de données. Ainsi, Les principaux thèmes abordés seront les suivants :
-Le web comme locomotive de développement d’outil de gestion de données volumineuses
-Limite des systeme classiques de stockage et traitement de l’information
-Le changement de paradigmes en entreprise du transactionnel vers l’analytique
-Etude de l'écosystème Hadoop et ses différents outils et leurs rôles.
Prerequisites :
-Une bonne connaissance du système d’exploitation linux
-Une maîtrise d’un langage de programmation (Python, Java ou Scala)
-Des notions de l'algèbre relationnelles et des système de gestion de base de données relationnels.
-Facultatif : Fondements des systèmes d’exploitation et des technologies de virtualisation.
Bibliographie :
Grover, M. (2015). Hadoop application architectures : designing real world big data applications. Sebastopol, CA: O'Reilly.
Kleppmann, M. (2017). Designing data-intensive applications : the big ideas behind reliable, scalable, and maintainable systems. Sebastopol, CA: O'Reilly Media.
White, T. (2015). Hadoop : the definitive guide. Sebastopol, CA: O'Reilly.
Bruchez, R. (2013). Les bases de données NoSQL : comprendre et mettre en oeuvre. Paris: Eyrolles.
Chokogoué, J. (2017). Hadoop : devenez opérationnel dans le monde du Big Data. St Herblain: Éditions ENI.
6 séances de 3 heures qui se déroulent comme suit :
-1/3 du cours pour l’explication des nouveaux concepts, définitions,
-1/3 du cours des exemples pratiques explicités par le professeur et relatifs des nouveaux concepts acquis
-1/3 du cours un travail d’expérimentation des élèves sur leurs propres machines, encadrés par le professeur.
Objectifs pédagogiques visés :
Contenu :
Cours 1 et 2 : Enjeux de collecte des données, de privacy et de visualisation dans un environnement Big Data
I - Que recouvre vraiment la notion de Big Data ?
1)Les Big Data en question
2)L'approche des « 3V » reste pertinente
3)Petite typologie des données
II - Big Data : les risques, les freins, les écueils à éviter
III - Inventaire des bonnes pratiques pour tirer parti au mieux des Big Data
IV - Huit études de cas pour mieux comprendre l'impact concret des Big Data sur le business
Cours 2 et 3 : Introduction à l’open data, API et Cas pratiques
-Introduction à l’open data (signification, bref historique, différences entre données publiques et données ouvertes, différentes classes d’usages, mise en pratique)
- Travaux pratiques opendata.gouv, Insee, sncf
- APIs (Application Programming Interface) : définition, fonctionnement, exemples d’applications. Travaux pratiques
- Etude de cas : Création de valeur dans un environnement Big Data.
Prerequisites :
En mathématiques : analyse de données, algèbre, probabilité, statistiques de base et quelques notions de statistiques avancées (régressions, classifications et modèles de prédiction)
En informatique : algorithmique, notions de bases de données et de langage d’interrogation de type SQL, notions de terminal.
Bibliographie :
Livre Blanc – Big Data – Zouheir Guedri/PwC
Videos pédagogiques de Hans Rosling sur la visualisation des données
Big data Analytics - Andry Alamsyah - Social Computing and Big Data Research Group -
Open data – Simon Chignard. - donneesouvertes.info.
La finalité de ce cours est double : (i) permettre aux étudiants de comprendre les aspects théoriques des modèles couramment utilisés pour établir un « Score » (ii) et de leur permettre de mettre en place, à partir de données réelles et avec un logiciel statistique (SAS, R ou Python), un « Score » de risque de crédit. Le plan du cours est :
1.Introduction au Scoring
2.Panorama sur les méthodes usuelles d’estimation d’un « Score » (méthodes paramétriques Vs Non paramétriques)
3.Introduction à la régression logistique
4.Méthodologie d’estimation d’un modèle de régression logistique
5.Sélection des modèles et des variables dans le cadre de la régression logistique
6.Méthodes de validation des modèles
7.Présentation des modèles de régression multinomiale
8.Mise en place d’une grille de score à partir des résultats d’estimation du modèle.
Prerequisites :
Ce cours nécessite une bonne compréhension de la probabilité, la statistique différentielle et l’économétrie (notions de modèle, estimation des paramètres par l’estimateur des MCO et du maximum de vraisemblance, notions de multicolinéarité).
Toutefois, en fonction du niveau des étudiants et de leurs parcours antérieurs, des rappels seront effectués sur les notions essentielles du cours.
Bibliographie :
-Stéphane Tufféry, DataMining et Statistique décisionnelle, Editions Technip.
-Stéphane Tufféry, Modélisation prédictive et Apprentissage statistique avec R, Editions Technip.
-Stéphane Tufféry, Etude de cas en statistique décisionnelle, Editions Technip.
-Vivek Ajmani, Applied Econometrics using the SAS system, Wiley
-Bart Baessens, Daniel Rosch, Harald Scheule, Credit Risk Analytics, Measurement Techniques Applications, and Examples in SAS, Wiley.
Les cours allient aspects théoriques, notamment pour présenter les grands principes méthodologiques d’une étude quantitative, mais aussi et surtout, cas pratiques. Ces cas pratiques s’effectuent le plus souvent en binôme et permettent de confronter directement les étudiants à la réalisation d’une étude via ce type de logiciel. Par la réalisation de cas pratiques et d’exemples types, les étudiants peuvent directement faire remonter leurs questions et voir les possibilités du logiciel.
Objectifs pédagogiques visés :
Contenu :
Le cours d’initiation au logiciel d’enquête quantitative Sphinx Campus permet d’aborder, dans un premier temps, les grands principes méthodologiques d’une démarche quantitative.
Sont ensuite détaillées les différentes étapes de mise en place et de réalisation d’une étude, de sa conception à la valorisation de ses résultats. Sont par exemple abordés la préparation du questionnaire, sa diffusion, son analyse et la mise en forme de ses résultats.
Prerequisites :
Peu de pré requis techniques sont nécessaires pour s’approprier ce cours car le logiciel reste assez intuitif et facile à prendre en main.
Cependant, il est davantage conseillé d’avoir quelques prénotions sur la démarche des études statistiques, et plus particulièrement ici, sur les études quantitatives. Par exemple, avoir des notions sur la façon de rédiger un questionnaire et sur les formulations à adopter, le choix des réponses possibles, le type de question (ouverte, fermée, etc, …) peut se révéler un plus.
Bibliographie :
Les méthodes quantitatives, que sais-je ?, n°4011, Marie Paule Couto et Fannu Bugeja-Bloch.
Il est conseillé aux étudiants d’installer la licence de Tableau software avant le début du cours.
L’idée est de comprendre l’importance de la data visualisation au sein d’une entreprise et d’être capable de valoriser l’information. Les étudiants apprendront étape par étape à communiquer et à mettre en valeur la donnée utile via un outil de data visualisation.
Objectifs pédagogiques visés :
Contenu :
Target : learn how to design and create visualizations.
Jour 1 :
-Qu’est-ce que la data visualisation ?
-Presentation de l’interface de Tableau Software
-Production de data visualisation (niveau 1)
Jour 2 :
-Production de data visualisation (niveau 2 et 3).
Structurer et valider les acquis en statistique et usage des logiciels d’analyse
Positionner les techniques et technologies dans l’ordre d’un projet de datamining
Fonder la réflexion sur les usages et l’interconnexion des apprentissages suivants.
Objectifs pédagogiques visés :
Contenu :
Introduction et Concepts
Introduction au datamining
La donnée, Définition
Le projet de datamining
Méthodes statistiques du Datamining
Statistique Descriptive, business Intelligence et organisation de la donnée
Statistique Exploratoire et typologies
Méthodes de modélisation
Ouverture Applicative
Exemple de données non structurées, le text-mining
Connaissance Client
Moteurs de recommandation.
Prerequisites :
Connaissance générale des concepts mathématiques usuels de la Statistique, des méthodes de statistique multivariée, d’analyse factorielle et de régression
Appréciation des enjeux technologiques actuels.
Bibliographie :
Mining the Web: Transforming Customer Data into Customer Value. Gordon
S. Linoff, Michael J. A. Berry.
Data Mining et statistique décisionnelle , L’intelligence des données.
Stéphane Tufféry.
« Modélisation prédictive et apprentissage statistique avec R » Par
Stéphane Tufféry.
Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, 3rd Edition.
Gordon S. Linoff, Michael J. A. Berry
Statistique textuelle.
Ludovic Lebart, André Salem :.
In class you will train for the test by revising grammar rules, learning vocabulary and improving your
reading and listening skills. Full tests will be regularly organised and corrected.
Formation dispensée sur un environnement Splunk Hautement Disponible (Cluster SH et Indexer)
Les étudiants ont juste besoin d’un LapTop avec un Browser Web (IE, Firefox, Chrome, etc …)
La formation est conçue pour que les étudiants pratiques à chaque module
Evaluation des étudiants (par groupe) sur projet : création d’un Dashboard d’analyses de données sur des datasets choisis par les étudiants.
Objectifs pédagogiques visés :
Contenu :
Découvert de Splunk :
-Utilisation
-Notion Infrastructure
-Notion Monitoring
-Notion d’Administration
-Evaluation sur projet : création d’un Dashboard d’analyses de données sur des datasets choisis par les étudiants
✦Using Splunk : support en Anglais
++ Module 1 : Introducing Training environnement
++ Module 2 : Introducing Splunk's User Interface
++ Module 3 : Creating Searches and Saving Results
++ Module 4 : Using Fields
++ Module 5 : Creating Reports and Visualizations
++ Module 6 : Using Pivot and Creating DashBoards
✦Searching and Reporting : support en Anglais
++ Module 1 : Introducing Training environnement
++ Module 2 : Search Fundamentals
++ Module 3 : Reporting Commands, Part 1
++ Module 4 : Reporting Commands, Part 2
++ Module 5 : Analyzing, Calculating, and Formatting Results
++ Module 6 : Correlating Events
++ Module 7 : Enriching Data with Lookups
++ Module 8 : Accelerating Reports
++ Module 9 : Summary Indexing
Sur les 15 heures dispensées : 10 heures sont consacrées au cours académique mêlant théorie et pratique avec de nombreux exemples réels et simulés, les 5 heures restantes sont dédiées aux travaux pratiques sur des données réelles qui peuvent être traitées avec SAS, R ou Python. Les étudiants sont regroupés par deux, un compte-rendu de TP est à envoyer un mois après la fin du cours.
Objectifs pédagogiques visés :
Contenu :
La régression PLS (Partial Least Squares) permet de modéliser linéairement une ou plusieurs variables réponses à l’aide d’un nombre élevé de prédicteurs (parfois supérieur au nombre d’observations), pouvant être multi-colinéaires et de prendre en compte les données manquantes.
Ce cours aborde les problèmes d’instabilité et de non inversibilité en régression multilinéaire. Pour pallier ces problèmes, des indicateurs de détection de la multicolinéarité seront introduits, la régression sur composantes principales et la régression PLS seront développées, en particulier l’algorithme NIPALS permettant de traiter :
Le cas d’une unique variable réponse (régression PLS1)
L’extension à plusieurs variables réponses (régression PLS2).
Prerequisites :
Une bonne maîtrise des techniques générales d’analyses factorielles simples et de classification d’individus statistiques (classification ascendante hiérarchique, centres mobiles), ainsi que l’inférence dans le cadre du modèle linéaire gaussien.
Bibliographie :
Derquenne Ch. et Hallais C., (2003) Une méthode alternative à l'approche PLS : comparaison et application aux modèles conceptuels marketing, Revue de Statistique Appliquée, 52, 37-72.
Hotelling H., (1936a) Simplified calculation of principal components, Psychometrica, 1, 27-35.
Tenenhaus (1998), La régression PLS, Technip
Wold H., (1966), Estimation of the Principal Components and Related Models by Iterative Least Squares, Krishnaiah P.R. Editor, Multivariate Analysis, 391-420, Academic Press, New-York.
Wold H., (1973) Nonlinear Iterative Partial Least Squares (NIPALS) Modelling some Current
En pratique, l'enseignant présente rapidement un sujet/notion et les étudiants l'implémentent sous Python pour mesurer les sensibilités des différents paramètres. Trois ou quatre exemples seront traités en profondeur pendant les enseignements. Un projet de 6 semaines viendra compléter l'ensemble.
Objectifs pédagogiques visés :
Contenu :
L'UE s'articule autour des techniques avancées de Machine Learning et plus particulièrement sur les applications des réseaux de neurones en finance.
- Le perceptron comme outil de classification des titres d'un portefeuille/indice
- Un réseau multicouche pour évaluer les poids d'un portefeuille
- Utilisation de la librairie TensorFlow pour prédire des prix
- Comment choisir la bonne fonction d'activation ?.
Prerequisites :
Nous tacherons de rappeler systématiquement les notions de finance utilisées. Pour conserver une visée universelle à cet UE, nous n'utiliserons que des produits et des techniques élémentaires en finance.
Toutefois, il est important de bien maitriser l'outil Excel et la programmation sous Python pour suivre efficacement ce cours.
Les connaissances en statistiques et en optimisation sont les bienvenues.
Bibliographie :
- Neural Networks and the Financial Markets: Predicting, Combining and Portfolio Optimisation – J. Shadbolt and JG Taylor – Springer
- Neural Networks in Finance and Investing: Using Artificial Intelligence to Improve Real-world Performance – RR Trippi and E Turban.
Multi-core system tools (Hive, Pig, Spark, Storm…)
Language(s) of instruction :
FR
ECTS :
3
Détail du volume horaire :
Lecture :24
Project :10
Modalités d'organisation et de suivi :
Coordinator :
Pedagogical team :
Antoine Monino.
Procedure and organisation :
Le cours est constitué d’un enseignement de 24 heures.
Après une première partie théorique sur les systèmes distribués, nous aborderons le fonctionnement des outils de la stack Hadoop. La pratique systématique de ces outils, installés sur un cluster de 10 machines et hébergés sur Azure, permettront aux étudiants de devenir opérationnels sur ces technologies.
Le module sera validé par un projet à réaliser en groupe et dont le but sera de réaliser une analyse de machine Learning dans un contexte distribué en traitant la donnée à partir de sa collecte.
Objectifs pédagogiques visés :
Contenu :
Objectifs
•Comprendre le paradigme, le fonctionnement et les enjeux des applications distribuées.
•Comprendre et Pratiquer les outils technologiques reflétant les socles Big Data actuellement répandus en entreprise.
•Mettre en œuvre un projet Data sur une plateforme distribuée, de la collecte de donnée à la mise en œuvre d’un modèle de machine learning en passant par la préparation et l’exploration des données.
La pile technologique étudiée est constituée de HDFS, YARN, Hive et de Spark sur une distribution HortonWorks 3.
Plan du cours
•Introduction aux systèmes répartis
•Introduction aux outils de la stack Hadoop
•Mise en œuvre en entreprise
•Etude et pratique détaillée des outils :
oHadoop - HDFS
oHive - Ingestion et traitement des données
oSpark SQL- Manipulation des données, construction d'un modèle intermédiaire avec python/pySpark
oSpark - Machine learning MLLIB avec python/pySpark
oIntroduction à Spark Streaming – Kafka
Autres outils abordés : ambari, zeppelin, Superset.
Prerequisites :
Connaissance du language python.
Notions sur le système d’exploitation Linux
Notions sur le shell Linux.
Ce projet de Machine Learning est effectué à l’aide de la plateforme RAMP de l’Université Paris-Saclay (https://ramp.studio/). Après avoir un choisi un problème de data-science, les étudiant sont fournis avec un kit de démarrage qui comprends la description des données ainsi qu’un premier modèle prédictif simple. Après une phase d’exploration et visualisation des données, les étudiants soumettent leur solution sur la plateforme RAMP, sous forme de code en langage Python, où celle-ci est évaluée en temps réel. Les scores prédictifs des différents modèles sont rendus public, et les étudiants peuvent améliorer leurs modèles prédictifs de manière itérative avec des nouvelles soumissions sur la plateforme.
Objectifs pédagogiques visés :
Contenu :
Machine Learning
Introduction
- Python ecosystem for data-science
- Introduction to Machine Learning
- Data analysis methodology
Python language
- Import libraries
- Basic operations
- Data types
- Execution control statements
- Functions
- List comprehensions, iterators, etc.
- Regular expression
- System programming
- Scripts and argument parsing
- Networking
- Modules and packages
- Object Oriented Programming (OOP)
- Exercises
Scientific Python
- Numpy: arrays and matrices
- Pandas: data manipulation
- Matplotlib: data visualization
Statistics
- Univariate statistics
- Multivariate statistics
- Time Series in python
Machine Learning
- Dimension reduction and feature extraction
- Clustering
- Linear methods for regression
- Linear classification
- Non linear learning algorithms
- Resampling Methods
- Ensemble learning: bagging, boosting and stacking
- Gradient descent
Deep Learning
- Backpropagation
- Multilayer Perceptron (MLP)
- Convolutional neural network
- Transfer Learning
Machine Learning Project
Ce projet vise à confronter les étudiants qui ont suivi le cours de Machine Learning, à un problème de data science réel sur les données issues d’industrie. Les étudiants pourront ainsi mettre en pratique les méthodes de data science classiques, à commencer par l’exploration et visualisation de donnés, avant de développer un modèle prédictif en langage Python.
Prerequisites :
Machine Learning:
BAC + 4 scientifique ou en économie
Machine Learning Project:
UE2 : STATISTICS
UE7 : Operating systems: and Programming languages: Python
UE10 : Data mining
UE11 : Data Analysis
UE14 : Machine Learning (partie 1 : cours).
Bibliographie :
-The Elements of Statistical Learning T. Hastie, R. Tibshirani, and J. Friedman. Springer (2001)
-Scikit-learn: Machine learning in Python, Pedregosa et al 2011
-The RAMP framework: from reproducibility to transparency in the design and optimization of scientific workflows, Kégl et al, 2018.
Les supports de cours, de travaux dirigés ainsi que leur corrigés sont mis en
ligne sur la plate-forme pédagogique E-campus avant et/ou après les séances.
L’évaluation des connaissances s’effectue sous forme de projet.
Il est demandé à chaque groupe de réaliser une modélisation économétrique
univariée ou multivariée « propre » de la (les) série(s) choisie(s). Il s’agira notamment
d’examiner ses propriétés statistiques d’identifier le processus inconnu
sous-jacent, d’estimer ses paramètres, de s’assurer que toutes les hypothèses
usuelles sont bien vérifiées, et de réaliser des prévisions statiques sur, et en dehors
de la période d’estimation. Il s’agira également en cas de plusieurs modélisations
alternatives possibles pour cette série d’indiquer le modèle finalement
retenu et les critères sur lesquels a été basé ce choix.
Objectifs pédagogiques visés :
Contenu :
L’objectif du cours est de familiariser les étudiants avec les techniques modernes
de modélisation des séries temporelles univariées et multivariées stationnaires,
et non stationnaires.
Les objectifs de ce cours de Time Series sont donc doubles :
1. pédagogiques : présenter de façon rigoureuse un panorama synthétique des
méthodes économétriques utilisées en séries temporelles.
2. scientifiques : permettre aux étudiants de lire des articles d’économie appliquée
et de réaliser des travaux économétriques.
Chapitre 1 : Processus aléatoires stationnaires
Chapitre 2 :Modélisation univariée de Box et Jenkins
Chapitre 3 :Processus non stationnaires et tests de racine unitaire
Chapitre 4 :Hétéroscédasticité conditionnelle et modèles ARCH
Chapitre 5 :Séries temporelles multivariées : une introduction
Chapitre 6 :Modèles avec variables non stationnaires
Chapitre 7 :La cointégration
Chapitre 8 :Les modèles VAR.
Prerequisites :
Statistiques et économétrie.
Bibliographie :
– Campbell J.Y, Lo A.W et A.C. MacKinley A.C, 1997, The Econometrics of
Financial Markets, Princeton University Press.
– Francq C. et J-M. Zakoian, 2009, Mod eles Garch : Structure, Inférence
Statistique et Applications Financières, Economica, collection Economie
et Statistiques Avancées, Paris.
– Gouriéroux C., 1992, Modèles ARCH et Applications Financières, Economica,
Paris.
– Gouriéroux C. et A. Monfort, 1990, Séries Temporelles et Modèles Dynamiques,
Economica,Paris.
– Hamilton J.D, 1994, Time Series Analysis, Princeton University Press.
– Lamberton, D. et B. Lapeyre, 1997, Introduction au
Sur les 24 heures dispensées : 18 heures sont consacrées au cours académique mêlant théorie et pratique avec de nombreux exemples réels et simulés, les 6 heures restantes sont dédiées aux travaux pratiques sur des données réelles qui peuvent être traitées avec SAS, R ou Python. Les étudiants sont regroupés par deux, un compte-rendu de TP est à envoyer un mois après la fin du cours.
Objectifs pédagogiques visés :
Contenu :
Les modèles à équations structurelles (SEM) sont d’un usage important dans de nombreux champs disciplinaires tels que la psychométrie, la sociologie, l’économétrie et aussi les sciences de gestion. Le but de ce cours est d’acquérir les bons réflexes méthodologiques et les connaissances théoriques nécessaires pour la mise en œuvre des modèles SEM. La mise en pratique se fera sous SAS essentiellement.
Le plan est le suivant :
1. Modélisation du comportement du consommateur : satisfaction et fidélité.
2. Méthodes d’estimation de modèles à équations structurelles : la méthode LISREL, l’approche PLS et l’approche RFPC.
3. La création de modèles : les modèles libres.
Prerequisites :
Une bonne maîtrise des techniques générales d’analyses factorielles simples et de classification d’individus statistiques (classification ascendante hiérarchique, centres mobiles), ainsi que l’inférence dans le cadre du modèle linéaire gaussien.
Bibliographie :
B. S. EVERITT. An introduction to latent variable models, 1984
K. A. BOLLEN. Structural Equation with latent variables, 1989
P. ROUSSEL et al. Méthodes d’Equations Structurelles : recherche et application en Gestion, 2002
L. HATCHER. A step-by-step approach to Factor Analysis and Structural Equation Modelling using SAS System. SAS Institute Inc. 1994
M. TENENHAUS, V. ESPOSITO VINZI, Y. M. CHATELIN and C. LAURO, PLS Path Modelling, Computational Statistics and Data Analysis, vol. 48 n°1, jan. 2005
H. WOLD. Soft Modelling : The Basic Design and Some Extensions, in Jöreskog K.G. and Sörbum D.,