Une erreur est survenue. Merci de réessayer ultérieurement
Le mail de partage a bien été envoyé.
M2 Data Science : santé, assurance et finance
Master
Mention Mathématiques et applications
Formation initiale
Anglais
Français
Le Master 2, Data Science: Santé, Assurance, Finance est un master destiné à former des étudiant·es issus de filière de mathématiques et
mathématiques appliquées à la science des données (aspects
mathématiques et informatiques) et aux statistiques
avancées.
Année organisée en 5 blocs compensable entre eux, sauf le stage
Comprendre, mettre en oeuvre et développer des méthodes statistiques (mathématiques, numériques, apprentissage statistique) pour la science des données, le deep learning et la grande dimension
Gérer de grandes bases de données
Choisir les algorithmes d’apprentissage automatique et de statistique adaptés à la grande dimension et pertinents suivant les domaines d'application
Développer les programmes informatiques nécessaires à leur mise en oeuvre (python, R, spark)
Partager les résultats obtenus avec les outils de visualisation adéquats
Objectifs pédagogiques de la formation
+ Former des étudiant·es issus de filière de mathématiques et
mathématiques appliquées à la science des données (aspects
mathématiques et informatiques) et aux statistiques
avancées.
+ Comprendre et savoir utiliser les algorithmes du machine
learning et de deep learning avec un accent mis sur trois
domaines d’application (santé, assurance, finance).
+ Permettre aux étudiants d’acquérir une connaissance
approfondie des signaux (données) complexes issus de ces
domaines.
Débouchés
Professionnels
Après un Master ou Master + Doctorat : ingénieur (R&D, contrôle, production…)
Après un Master ou Master + Doctorat : chercheur ou enseignant-chercheur
Après un Master ou Master + Doctorat : ingénieur (recherche-développement, contrôle, production…) dans les domaines santé, pharmacie, agroalimentaire, biotechnologies, instruments et réactifs, cosmétique, dépollution et environnement
Après un Master ou Master + Doctorat : ingénieur (recherche et développement, contrôle, production…)
Après un Master : Ingénieur (analyste financier, économiste, statisticien)
Après un Master : Data scientist
Après un Master : Spécialiste en intelligence artificielle (IA)
Après un master : Chargé(e) d’études
ingénieur étude conception
Ingénieur d'études industrie / recherche publique
Ingénieur.e recherche & développement
Enseignant.es dans le secondaire
Tarifs et bourses
Les montants peuvent varier selon les formations et votre situation.
Le M2 Data Science : Santé, Assurance, Finance s’adresse en particulier aux étudiant.e.s de M1 de mathématiques (ou formation équivalente type école d’ingénieur) comprenant des cours de statistique inférentielle et modèle linéaire, probabilités et processus stochastiques, programmation (R et python).
Période(s) de candidature
Plateforme Inception
Du 05/01/2026 au 10/07/2026
Pièces justificatives
Obligatoires
Lettre de recommandation ou évaluation de stage.
Descriptif détaillé et volume horaire des enseignements suivis depuis le début du cursus universitaire.
Curriculum Vitae| Lettre de motivation.
Tous les relevés notes des années / semestres validés depuis le bac à la date de candidature.
Facultatives
Fiche de choix de M2 (obligatoire pour les candidats inscrits en M1 à l'Université Paris-Saclay) à télécharger sur https://urlz.fr/i3Lo.
Pratique régulière d’anglais dans sa vie culturelle, académique et/ou professionnelle, un auto-test de positionnement se fera à la rentrée
Objectifs d'apprentissage
Développer une autonomie dans son apprentissage de langue pour permettre une amélioration constante. Approfondir ses capacités de lecture et écoute. Soigner la prononciation.
Savoir parler de soi-meme et échanger avec d'autres dans un contexte formel, respectueux et coopératif. Comprendre le langage de ressources humaines et de recrutement. Savoir décrire et mettre en avant ses connaissances, compétences et qualités.
Savoir raconter et discuter l’histoire de statistiques et l’apparition de la discipline de « data science ». Savoir exprimer son avis et débattre des questions sociétales liant « data science » à la santé et l’assurance.
Être à l’aise et précis en décrivant des concepts techniques (y compris des chiffres, des notions mathématiques et informatiques, des tendances).
Présenter à l’oral et à l’écrit un projet suivant rigoureusement la méthode scientifique, tout en adaptant son langage à son audience.
Anglais : pratique régulière d’anglais dans sa vie culturelle, académique et/ou professionnelle, un auto-test de positionnement se fera à la rentrée
Objectifs d'apprentissage
Autonomie dans son apprentissage pour une amélioration constante. Approfondir ses capacités de lecture et écoute. Soigner la prononciation. Savoir parler de soi-même et échanger avec d'autres dans un contexte formel, respectueux et coopératif. Comprendre le langage de ressources humaines et de recrutement. Savoir décrire et mettre en avant ses connaissances, compétences et qualités. Savoir raconter et discuter l’histoire de statistiques et l’apparition de la discipline de « data science ». Savoir exprimer son avis et débattre des questions sociétales liant « data science » à la santé et l’assurance. Être à l’aise et précis en décrivant des concepts techniques mathématiques et informatiques. Présenter à l’oral et à l’écrit un projet suivant la méthode scientifique, en adaptant son langage à son audience.
Cours de statistique inférentielle, de régression linéaire et de processus stochastiques de niveau M1 de mathématiques
Programme / plan / contenus
• Nonparametric statistic (Tests non paramétriques, estimation de densité et estimation de fonction de répartition)
• Asymptotic statistic ( Inférence, exhaustivité, admissibilité, famille exponentielle, tests basés sur la vraisemblance, modèles GLM
• Statistics for stochastic processes :
(I) Processus de Poisson : définitions, caractérisation des temps d’arrivées, processus de Poisson inhomogène, estimation de l’intensité, exemples d’applications en assurance et en sciences de la vie.
II) Processus de comptage : définition, éléments de calcul stochastique pour les processus de comptage (intégrale stochastique et compensateur),
intensité, vraisemblance, applications (modèle de dynamique de population, modèle SIR, modèle de durée, données censurées, processus de
Hawkes)
Organisation générale et modalités pédagogiques
• Nonparametric Statistics (2ECTS) (9h CM +9h TD pour les FA) et (15CM+15TD pour les FI)
• Asymptotic Statistics (2 ECTS) (9h CM +9h TD pour les FA) et (15CM+15TD pour les FI)
• Statistics for stochastic processes (2ECTS) (9h CM+ 9h TD)
Bibliographie
nonparametric statistic:
[1] Sinda Ammous, Olivier Bouaziz, Jerome Dedecker, Jonathan El Methni, Mohamed Mellouk, et al.
[2] F. Comte Nonparametric Estimation
Spartacus-Idh 2017
[3] L. Wasserman. All of nonparametric statistics. Springer Texts in Statistics. Springer-Verlag, 2006.
[4] E.L. Lehmann. Elements of large sample theory.
[5] A. B. Tsybakov.
Introduction à l’estimation non paramétrique
Asymptotic statistic
Rivoirard and Stoltz 2012
Cadre and Vial 2012
Fourdrinier 2002
Gaudouin Polycopiés de cours
Bickel and Doksum 2016
Agresti 2015 : GLM
Fahrmeir and Kaufmann 1985) : GLM
James, Witten, Hastie, and Tibshirani 2013 : GLM
Lindsey 2000 : GLM
McCullagh and Nelder 1989 : GLM
Statistic for stochastic processes
« Statistical Models Based on Counting Processes », *Andersen *P.K.,
Borgan, O., Gill, R.D., Keiding, N., Springer series in Statistics.
« Non life Insurance mathematics . An introduction with the Poisson
process », T. Mikosch, Universitext.
Optimisation: Reconnaître un problème d'optimisation convexe sous forme simple
Etre en mesure d'écrire les conditions d'optimalité en étant conscient des hypothèses pour que ces dernières soient suffisantes/nécessaires.
Savoir écrire un algorithme itératif d'optimisation, en particulier
algorithme proximal
Organisation générale et modalités pédagogiques
Optimisation 3 ECTS (9h CM + 12 h TD )
Graphical models 3 ECTS (9h CM + 9h TD)
Statistique Robuste (6h CM+6h TD)
Bibliographie
Optimisation:
Boyd and Vandenberghe, Convex Optimization (Cambridge University Press) (voir: http://stanford.edu/~boyd/)
Borwein and Lewis, Convex Analysis and Nonlinear Optimization, Theory and Examples (Canadian Mathematical Society)
N. Parikh and S. Boyd, Proximal Algorithms (Foundations and Trends in Optimization, 1(3):123-231, 2014)
Modèles graphiques: "Machine Learning: A Probabilistic Perspective" (MLAPP) de Kevin P. Murphy, notamment (
Chapitre 10 : Modèles graphiques dirigés (réseaux Bayésiens)
Chapitre 19 : Modèles graphiques non-dirigés (champs aléatoires de Markov)
Chapitre 20 : Inférence exacte pour les modèles graphiques
Chapitre 26 : Apprentissage de la structure des modèles graphiques.)
Statistique bayésienne et variables latentes discrètes
ECTS :
2.5
Semestre calendaire :
Semestre 1
Détail du volume horaire :
Cours magistraux :12
Travaux dirigés :15
Langue d'enseignement
Français
Enseignement à distance
non
Objectifs d'apprentissage
Statistique bayésienne et Variables discrètes latentes: Base conceptuelles de l’inférence Bayésienne, Choix de priors
Comparaison de modèles Méthodes Monte Carlo, Monte Carlo Markov Chain, langages de programmation probabilistes pour l’inférence Bayésienne (Stan, JAGS, Nimble); probabilités discrète et continues, statistique paramétrique & maximum de vraisemblance, optimisation sous contraintes : convexité, contraintes d'(in)égalités, lagrangien
Organisation générale et modalités pédagogiques
12h CM+ 15 TD, 2.5 ECTS
Bibliographie
Hoff, Peter D. A first course in Bayesian statistical methods. Vol. 580. New York: Springer, 2009.
Gelman, Andrew, et al. Bayesian data analysis. CRC press, 2013.
Jaynes, Edwin T. Probability theory: The logic of science. Cambridge university press, 2003.
Kruschke, John. "Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan." (2014).
McGrayne, Sharon Bertsch. The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, & Emerged Triumphant from Two Centuries of C. Yale University Press, 2011.
Robert, Christian P. The Bayesian choice: from decision-theoretic foundations to computational implementation. Vol. 2. New York: Springer, 2007.
Bernardo, José M., and Adrian FM Smith. Bayesian theory. Vol. 405. John Wiley & Sons, 2009.
Gelman, Andrew, Jennifer Hill, and Aki Vehtari. Regression and other stories. Cambridge University Press, 2020.
McElreath, Richard. Statistical rethinking: A Bayesian course with examples in R and Stan. CRC press, 2020.
Méthodes numériques de pricing et calibration de modèles
ECTS :
6
Semestre calendaire :
Semestre 1
Détail du volume horaire :
Cours magistraux :42
Langue d'enseignement
Anglais
Enseignement à distance
non
Prérequis
Probabilities at a good master 1 level, discrete and continuous time stochastic processes, Derivative products and contracts in Finance and programming with Python at a good master 1 level.
Programme / plan / contenus
I Stochastic analysis prerequisites.
II Monte Carlo methods and variance reduction techniques.
III Hedging financial options.
IV Advanced computation of Greeks.
V Advanced numerical methods for pricing exotic and path dependent of options .
VI Analysis of discretization schemes for stochastic differential equations.
VII Model calibration techniques.
Objectifs d'apprentissage
The aim of this course is to introduce advanced numerical methods needed for quantitative work in finance. To this avail, the course will provide a detailed study for calibrating models, pricing and hedging financial options.
Organisation générale et modalités pédagogiques
42 hours of lectures
Blackboard course, homework coding with Python
Modalités pédagogiques particulières
L'UEVE prend en charge 31,5 HETD, le reste est à la charge de l'ENSIIE.
Bibliographie
Mainly:
Lamberton, D. and Lapeyre P., Introduction to Stochastic Calculus Applied to Finance. Chapman & Hall, 2nd revised edition, 2007. Hull, J., Options, Futures, and Other Derivative Securities, Prentice-Hall, last edition. Glasserman P., Monte Carlo Methods in Financial Engineering, Springer, 2004. Shreve, S.: Stochastic Calculus for Finance II: Continuous—Time Models, Springer, 2004 or later. Cont R. et P. Tankov, Modelling with Jump Processes, Chapman & Hall, 2003.
In this course, we will study time series models related to financial data. We are specifically interested in estimation problems for these models.
Course program :
Short recap on time series. Basic empirical facts of financial time series.
GARCH models : existence, properties, estimation of parameters (pseudo-likelihood estimator), volatility forecast. VaR computation, pricing with GARCH, connection with the high frequency sampling of a stochastic volatility model.
Duration models and trading time modeling (Autoregressive Conditional Duration models, Lo and MacKinlay model).
Volatility estimation with high frequency data.
Bibliographie
[1] Analysis of Financial Time Series (Anglais) Relié – 10 septembre 2010 de Ruey S. Tsay
[2] Statistics of Financial Markets: An Introduction (2015) by Jürgen Franke (Author), Wolfgang Karl Härdle (Author), Christian Matthias Hafner (Author)
[3] Time Series: Time Series: Theory and Methods (Springer Series in Statistics) (Anglais) Broché – 28 avril 2009 Peter J. Brockwell
[4] Lecture on "The econometrics of high frequency data" by Per Mykland and Lan Zhang, http://tigger.uic.edu/~lanzhang/LaManga022209.pdf
Statistique pour la génétique et la génomique (option Santé)
ECTS :
2.5
Semestre calendaire :
Semestre 2
Détail du volume horaire :
Cours magistraux :9
Travaux dirigés :9
Langue d'enseignement
Anglais
Enseignement à distance
non
Prérequis
Pré-requis pour statistique pour la génétique et la génomique : Bases statistiques ; Notions de génétique moléculaire
Objectifs d'apprentissage
Objectifs pour statistique pour la génétique et la génomique:
Comprendre les développements statistiques actuels pour l’analyse de données génétiques dans le cadre d’études d’associations pangénomiques. Savoir mettre en œuvre une analyse standard et savoir interpréter les résultats.
Organisation générale et modalités pédagogiques
Statistique pour la génétique et la génomique (9h CM + 9h TD) 2.5 ECTS
Bibliographie
Bibliographie pour statistique pour la génétique et la génomique:
Uffelmann E, Huang QQ, Munung NS et al. Genome-wide association studies. Nat Rev Methods Primers. 2021;
Dehghan A. Genome-Wide Association Studies. Methods Mol Biol. 2018;
Wang MH, Cordell HJ, Van Steen K. Statistical methods for genome-wide association studies. Semin Cancer Biol. 2019
Hayes B. Overview of Statistical Methods for Genome-Wide Association Studies
(GWAS). Methods Mol Biol. 2013
Marees AT, de Kluiver H, Stringer S, Vorspan F, Curis E, Marie-Claire C, Derks EM. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int J Methods Psychiatr Res. 2018
Uitterlinden AG. An Introduction to Genome-Wide Association Studies: GWAS for Dummies. Semin Reprod Med. 2016
Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P. Use of linkage analysis, genome-wide association studies, and next-generation sequencing in the identification of disease-causing mutations. 2013
Analyse des données de survie et longitudinales (options santé et assurance)
ECTS :
5
Semestre calendaire :
Semestre 1
Détail du volume horaire :
Cours magistraux :10.5
Travaux dirigés :10.5
Apprentissage autonome20
Langue d'enseignement
Anglais
Enseignement à distance
non
Prérequis
Pré-requis pour survival and longitudinal data : analysis: M1-level statistical inference and statistical modeling course in mathematics. Familiarity with computing in R
Programme / plan / contenus
Survival and longitudinal data analysis: Analyse de la séquence d'événements observés au fil du temps. Ces types de données sont contraints d'être positifs et sont souvent incomplets en raison de la censure. Ignorer ces caractéristiques dans l'analyse peut sérieusement biaiser les résultats et conduire à des conclusions trompeuses. Dans ce cours, nous introduisons des méthodes statistiques développées dans l'analyse des données de survie et des données longitudinales pour traiter correctement de tels problèmes.
Objectifs d'apprentissage
Objectifs: À l'issue de ce cours, les étudiants seront capables de
de comprendre comment construire des modèles statistiques pour des applications
d'apprécier comment la censure peut affecter l'analyse et les résultats
de choisir les méthodes statistiques appropriées pour analyser les temps de survie
d'évaluer et de comparer différents modèles à l'aide de méthodes d'inférence statististique
Organisation générale et modalités pédagogiques
• survival and longitudinal data analysis (10.5 CM+ 10.5 TD) 2.5 ECTS
Bibliographie
Bibliographie: survival and longitudinal data analysis:
Andersen, P.K., Borgan, O., Gill, R.D. and Keiding, N. (2012) Statistical models based on counting processes
Klein, J.P. and Moeschberger, M.L. (2003) Survival analysis: Techniques for censored and truncated data, Springer.
Moore, D.F. (2016) Applied survival analysis using R
Singer, J.D. and Willett, J.B. (2003) Applied longitudinal data analysis: Modeling change and event occurrence. Oxford university press.
Pawitan, Y. (2001) In All Liikelihood: Statistical modeling and inference using likelihood
Pré-requis pour bioinformatique: Statistique inférentielle, Deep learning, notions de génétique et biologie moléculaire
Programme / plan / contenus
Bioinformatique: Analyse statistiques du transcriptome : détermination des gènes co-exprimés, enrichissement fonctionnel et inférence de réseaux de co-expression.
Intégration de données hétérogènes.
Médecine prédictive : Prédiction d'une pathologie ou de la réponse à traitement par deep learning et par apprentissage statistique de données génomiques, transcriptomiques et protéomiques.
Objectifs d'apprentissage
Savoir analyser des données d’expression de gènes, c’est à dire savoir identifier et corriger les biais dans les données de NGS, savoir identifier des gènes différentiellement exprimés entre deux conditions, savoir identifier des gènes coexprimés, savoir identifier des groupes de gènes corégulés.
Savoir construire un arbre phylogénétique par différentes approches et savoir l’analyser
Savoir prédire des interactions protéine-protéine et construire et analyser un réseau d’interactions protéine-protéine
Machine Learning pour l'assurance et la finance (Options Assurance et Finance)
ECTS :
5
Semestre calendaire :
Semestre 2
Détail du volume horaire :
Cours magistraux :18
Travaux dirigés :18
Apprentissage autonome20
Langue d'enseignement
Français
Enseignement à distance
non
Prérequis
MACHINE LEARNING TECHNIQUES FOR OPTION PRICING, CALIBRATION, AND HEDGING APPLICATIONS: Financial modeling and numerical knowledge and skills, such as provided by the first semester course “Pricing and calibration methods in finance” General “machine learning” and “deep learning” knowledge and skills, such as provided by the eponymous first semester courses.
Programme / plan / contenus
MACHINE LEARNING TECHNIQUES FOR OPTION PRICING, CALIBRATION, AND HEDGING APPLICATIONS:
In recent years, machine learning techniques have emerged as a generic, model-free, financial derivative numerical paradigm. This course module will be devoted to the option pricing, calibration, and hedging applications of machine learning, with a focus on deep neural networks (mainly), and also Gaussian process regression technique
Objectifs d'apprentissage
Introducing the main relevant applications of very recent machine learning technics in quantitative finance
Organisation générale et modalités pédagogiques
Machine Learning pour la finance (18hCM+18hTD) 5 ECTS:
MACHINE LEARNING TECHNIQUES FOR OPTION PRICING, CALIBRATION, AND HEDGING APPLICATIONS: beamer slides course, tutorials in python / tensorflow (local jupyter notebooks, after local installation of the required packages including anaconda and tensorflow, or notebooks executed online on the google collaborative platform).
Bibliographie
Statistical machine learning for quantitative finance
Ludkovski, M. Annu. Rev. Stat. Appl. 10 (2023), 271–295.
Deep hedging Buehler, H.; Gonon, L.; Teichmann, J.; Wood, B.
Quant. Finance 19 (2019), no. 8, 1271–1291.
Gestion de bases de données (Postgresql) et le langage associé SQL. Différents aspects du langage SQL seront abordés :
langage de définition de données,
langage de contrôle de données, et enfin le langage de manipulation de données. Spark
Objectifs d'apprentissage
Gestion de bases de données (Postgresql) et le langage associé SQL. Différents aspects du langage SQL seront abordes :
langage de définition de données,
langage de contrôle de données, et enfin le langage de manipulation de données. Spark.
algorithmique: Connaître les bases de la programmation R. Connaître quelques algorithmes de Machine Learning
Objectifs d'apprentissage
Algorithmique:
Savoir identifier les grandes classes d'algorithmes (récursif, programmation dynamique, exacts, gloutons, approchés...)
Connaître quelques heuristiques pour la résolution des algorithmes d'optimisation discrète
Comprendre la notion de complexité algorithmique et savoir la calculer (à la main)
Savoir construire un package Rcpp testant des algorithmes de Data Science et retrouver leur complexité par simulations numériques
GPU: Programmation Cuda :
Principe de la programmation CUDA (programmation par kernels,
organisation des threads). Interfaçage Python/cuda sous pycuda.
Exemples : opérations simples sur les vecteurs, tracé de la fonction
zeta. Grille de thread en dimension 2, tracé de l'ensemble de Julia.
Méthode de Monte-Carlo sous GPU.
Organisation de la mémoire GPU. Utilisation de la mémoire
'shared'. Exemple : simulation d’équation de McKean-Vlasov
NLP: Objectif :* Offrir une introduction aux concepts fondamentaux et aux
outils modernes du traitement automatique du langage naturel, en partant
des représentations vectorielles classiques jusqu’aux modèles de grande
taille (LLMs).
Le cours aborde les méthodes classiques comme la pondération TF-IDF,
l’analyse sémantique latente (LSA), les modèles probabilistes (LDA), ainsi
que les modèles d’embedding tels que Word2Vec. Il introduit également les
architectures récentes basées sur les *transformers* (comme BERT) et les
*LLMs* (Large Language Models) qui transforment aujourd’hui la manière de
traiter, comprendre et générer du texte.
Les étudiants apprendront à manipuler des corpus, représenter le sens des
mots et des textes, mesurer des similarités, extraire des thématiques, et
exploiter des modèles préentraînés pour diverses tâches.