Une erreur est survenue. Merci de réessayer ultérieurement
Le mail de partage a bien été envoyé.
M2 Data Science : Health, Insurance and Finance
Master's degree
Specialisation Mathematics and applications
Full-time academic programmes
English
French
The Master 2, Data Science: Health, Insurance, Finance is a master's degree designed to train students from mathematics and applied mathematics backgrounds in data science (mathematical and computer science aspects) and advanced statistics.
Year organized into 5 blocks that can be compensated for each other, except for the internship
+ Train students from mathematics and applied mathematics programs in
data science (mathematical and computer science aspects) and
advanced statistics.
+ Understand and know how to use machine learning and deep learning algorithms
with a focus on three
areas of application (health, insurance, finance).
+ Enable students to acquire in-depth knowledge
of complex signals (data) from these
fields
Career Opportunities
Career prospects
Après un Master ou Master + Doctorat : ingénieur (R&D, contrôle, production…)
Après un Master ou Master + Doctorat : chercheur ou enseignant-chercheur
Après un Master ou Master + Doctorat : ingénieur (recherche-développement, contrôle, production…) dans les domaines santé, pharmacie, agroalimentaire, biotechnologies, instruments et réactifs, cosmétique, dépollution et environnement
Après un Master ou Master + Doctorat : ingénieur (recherche et développement, contrôle, production…)
Après un Master : Ingénieur (analyste financier, économiste, statisticien)
Après un Master : Data scientist
Après un Master : Spécialiste en intelligence artificielle (IA)
Après un master : Chargé(e) d’études
ingénieur étude conception
Ingénieur d'études industrie / recherche publique
Ingénieur.e recherche & développement
Enseignant.es dans le secondaire
Fees and scholarships
The amounts may vary depending on the programme and your personal circumstances.
Pratique régulière d’anglais dans sa vie culturelle, académique et/ou professionnelle, un auto-test de positionnement se fera à la rentrée
Learning objectives
Développer une autonomie dans son apprentissage de langue pour permettre une amélioration constante. Approfondir ses capacités de lecture et écoute. Soigner la prononciation.
Savoir parler de soi-meme et échanger avec d'autres dans un contexte formel, respectueux et coopératif. Comprendre le langage de ressources humaines et de recrutement. Savoir décrire et mettre en avant ses connaissances, compétences et qualités.
Savoir raconter et discuter l’histoire de statistiques et l’apparition de la discipline de « data science ». Savoir exprimer son avis et débattre des questions sociétales liant « data science » à la santé et l’assurance.
Être à l’aise et précis en décrivant des concepts techniques (y compris des chiffres, des notions mathématiques et informatiques, des tendances).
Présenter à l’oral et à l’écrit un projet suivant rigoureusement la méthode scientifique, tout en adaptant son langage à son audience.
Anglais : pratique régulière d’anglais dans sa vie culturelle, académique et/ou professionnelle, un auto-test de positionnement se fera à la rentrée
Learning objectives
Autonomie dans son apprentissage pour une amélioration constante. Approfondir ses capacités de lecture et écoute. Soigner la prononciation. Savoir parler de soi-même et échanger avec d'autres dans un contexte formel, respectueux et coopératif. Comprendre le langage de ressources humaines et de recrutement. Savoir décrire et mettre en avant ses connaissances, compétences et qualités. Savoir raconter et discuter l’histoire de statistiques et l’apparition de la discipline de « data science ». Savoir exprimer son avis et débattre des questions sociétales liant « data science » à la santé et l’assurance. Être à l’aise et précis en décrivant des concepts techniques mathématiques et informatiques. Présenter à l’oral et à l’écrit un projet suivant la méthode scientifique, en adaptant son langage à son audience.
Cours de statistique inférentielle, de régression linéaire et de processus stochastiques de niveau M1 de mathématiques
Programme/contents
• Nonparametric statistic (Tests non paramétriques, estimation de densité et estimation de fonction de répartition)
• Asymptotic statistic ( Inférence, exhaustivité, admissibilité, famille exponentielle, tests basés sur la vraisemblance, modèles GLM
• Statistics for stochastic processes :
(I) Processus de Poisson : définitions, caractérisation des temps d’arrivées, processus de Poisson inhomogène, estimation de l’intensité, exemples d’applications en assurance et en sciences de la vie.
II) Processus de comptage : définition, éléments de calcul stochastique pour les processus de comptage (intégrale stochastique et compensateur),
intensité, vraisemblance, applications (modèle de dynamique de population, modèle SIR, modèle de durée, données censurées, processus de
Hawkes)
Overall organisation
• Nonparametric Statistics (2ECTS) (9h CM +9h TD pour les FA) et (15CM+15TD pour les FI)
• Asymptotic Statistics (2 ECTS) (9h CM +9h TD pour les FA) et (15CM+15TD pour les FI)
• Statistics for stochastic processes (2ECTS) (9h CM+ 9h TD)
Bibliography
nonparametric statistic:
[1] Sinda Ammous, Olivier Bouaziz, Jerome Dedecker, Jonathan El Methni, Mohamed Mellouk, et al.
[2] F. Comte Nonparametric Estimation
Spartacus-Idh 2017
[3] L. Wasserman. All of nonparametric statistics. Springer Texts in Statistics. Springer-Verlag, 2006.
[4] E.L. Lehmann. Elements of large sample theory.
[5] A. B. Tsybakov.
Introduction à l’estimation non paramétrique
Asymptotic statistic
Rivoirard and Stoltz 2012
Cadre and Vial 2012
Fourdrinier 2002
Gaudouin Polycopiés de cours
Bickel and Doksum 2016
Agresti 2015 : GLM
Fahrmeir and Kaufmann 1985) : GLM
James, Witten, Hastie, and Tibshirani 2013 : GLM
Lindsey 2000 : GLM
McCullagh and Nelder 1989 : GLM
Statistic for stochastic processes
« Statistical Models Based on Counting Processes », *Andersen *P.K.,
Borgan, O., Gill, R.D., Keiding, N., Springer series in Statistics.
« Non life Insurance mathematics . An introduction with the Poisson
process », T. Mikosch, Universitext.
Optimisation: Reconnaître un problème d'optimisation convexe sous forme simple
Etre en mesure d'écrire les conditions d'optimalité en étant conscient des hypothèses pour que ces dernières soient suffisantes/nécessaires.
Savoir écrire un algorithme itératif d'optimisation, en particulier
algorithme proximal
Overall organisation
Optimisation 3 ECTS (9h CM + 12 h TD )
Graphical models 3 ECTS (9h CM + 9h TD)
Statistique Robuste (6h CM+6h TD)
Bibliography
Optimisation:
Boyd and Vandenberghe, Convex Optimization (Cambridge University Press) (voir: http://stanford.edu/~boyd/)
Borwein and Lewis, Convex Analysis and Nonlinear Optimization, Theory and Examples (Canadian Mathematical Society)
N. Parikh and S. Boyd, Proximal Algorithms (Foundations and Trends in Optimization, 1(3):123-231, 2014)
Modèles graphiques: "Machine Learning: A Probabilistic Perspective" (MLAPP) de Kevin P. Murphy, notamment (
Chapitre 10 : Modèles graphiques dirigés (réseaux Bayésiens)
Chapitre 19 : Modèles graphiques non-dirigés (champs aléatoires de Markov)
Chapitre 20 : Inférence exacte pour les modèles graphiques
Chapitre 26 : Apprentissage de la structure des modèles graphiques.)
Statistique bayésienne et variables latentes discrètes
ECTS :
2.5
Semester:
Semestre 1
Detail
Lecture:12
Directed study:15
Language(s) of instruction
Français
Remote teaching
non
Learning objectives
Statistique bayésienne et Variables discrètes latentes: Base conceptuelles de l’inférence Bayésienne, Choix de priors
Comparaison de modèles Méthodes Monte Carlo, Monte Carlo Markov Chain, langages de programmation probabilistes pour l’inférence Bayésienne (Stan, JAGS, Nimble); probabilités discrète et continues, statistique paramétrique & maximum de vraisemblance, optimisation sous contraintes : convexité, contraintes d'(in)égalités, lagrangien
Overall organisation
12h CM+ 15 TD, 2.5 ECTS
Bibliography
Hoff, Peter D. A first course in Bayesian statistical methods. Vol. 580. New York: Springer, 2009.
Gelman, Andrew, et al. Bayesian data analysis. CRC press, 2013.
Jaynes, Edwin T. Probability theory: The logic of science. Cambridge university press, 2003.
Kruschke, John. "Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan." (2014).
McGrayne, Sharon Bertsch. The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, & Emerged Triumphant from Two Centuries of C. Yale University Press, 2011.
Robert, Christian P. The Bayesian choice: from decision-theoretic foundations to computational implementation. Vol. 2. New York: Springer, 2007.
Bernardo, José M., and Adrian FM Smith. Bayesian theory. Vol. 405. John Wiley & Sons, 2009.
Gelman, Andrew, Jennifer Hill, and Aki Vehtari. Regression and other stories. Cambridge University Press, 2020.
McElreath, Richard. Statistical rethinking: A Bayesian course with examples in R and Stan. CRC press, 2020.
Méthodes numériques de pricing et calibration de modèles
ECTS :
6
Semester:
Semestre 1
Detail
Lecture:42
Language(s) of instruction
Anglais
Remote teaching
non
Prerequisites
Probabilities at a good master 1 level, discrete and continuous time stochastic processes, Derivative products and contracts in Finance and programming with Python at a good master 1 level.
Programme/contents
I Stochastic analysis prerequisites.
II Monte Carlo methods and variance reduction techniques.
III Hedging financial options.
IV Advanced computation of Greeks.
V Advanced numerical methods for pricing exotic and path dependent of options .
VI Analysis of discretization schemes for stochastic differential equations.
VII Model calibration techniques.
Learning objectives
The aim of this course is to introduce advanced numerical methods needed for quantitative work in finance. To this avail, the course will provide a detailed study for calibrating models, pricing and hedging financial options.
Overall organisation
42 hours of lectures
Blackboard course, homework coding with Python
Special teaching arrangements
L'UEVE prend en charge 31,5 HETD, le reste est à la charge de l'ENSIIE.
Bibliography
Mainly:
Lamberton, D. and Lapeyre P., Introduction to Stochastic Calculus Applied to Finance. Chapman & Hall, 2nd revised edition, 2007. Hull, J., Options, Futures, and Other Derivative Securities, Prentice-Hall, last edition. Glasserman P., Monte Carlo Methods in Financial Engineering, Springer, 2004. Shreve, S.: Stochastic Calculus for Finance II: Continuous—Time Models, Springer, 2004 or later. Cont R. et P. Tankov, Modelling with Jump Processes, Chapman & Hall, 2003.
In this course, we will study time series models related to financial data. We are specifically interested in estimation problems for these models.
Course program :
Short recap on time series. Basic empirical facts of financial time series.
GARCH models : existence, properties, estimation of parameters (pseudo-likelihood estimator), volatility forecast. VaR computation, pricing with GARCH, connection with the high frequency sampling of a stochastic volatility model.
Duration models and trading time modeling (Autoregressive Conditional Duration models, Lo and MacKinlay model).
Volatility estimation with high frequency data.
Bibliography
[1] Analysis of Financial Time Series (Anglais) Relié – 10 septembre 2010 de Ruey S. Tsay
[2] Statistics of Financial Markets: An Introduction (2015) by Jürgen Franke (Author), Wolfgang Karl Härdle (Author), Christian Matthias Hafner (Author)
[3] Time Series: Time Series: Theory and Methods (Springer Series in Statistics) (Anglais) Broché – 28 avril 2009 Peter J. Brockwell
[4] Lecture on "The econometrics of high frequency data" by Per Mykland and Lan Zhang, http://tigger.uic.edu/~lanzhang/LaManga022209.pdf
Statistique pour la génétique et la génomique (option Santé)
ECTS :
2.5
Semester:
Semestre 2
Detail
Lecture:9
Directed study:9
Language(s) of instruction
Anglais
Remote teaching
non
Prerequisites
Pré-requis pour statistique pour la génétique et la génomique : Bases statistiques ; Notions de génétique moléculaire
Learning objectives
Objectifs pour statistique pour la génétique et la génomique:
Comprendre les développements statistiques actuels pour l’analyse de données génétiques dans le cadre d’études d’associations pangénomiques. Savoir mettre en œuvre une analyse standard et savoir interpréter les résultats.
Overall organisation
Statistique pour la génétique et la génomique (9h CM + 9h TD) 2.5 ECTS
Bibliography
Bibliographie pour statistique pour la génétique et la génomique:
Uffelmann E, Huang QQ, Munung NS et al. Genome-wide association studies. Nat Rev Methods Primers. 2021;
Dehghan A. Genome-Wide Association Studies. Methods Mol Biol. 2018;
Wang MH, Cordell HJ, Van Steen K. Statistical methods for genome-wide association studies. Semin Cancer Biol. 2019
Hayes B. Overview of Statistical Methods for Genome-Wide Association Studies
(GWAS). Methods Mol Biol. 2013
Marees AT, de Kluiver H, Stringer S, Vorspan F, Curis E, Marie-Claire C, Derks EM. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int J Methods Psychiatr Res. 2018
Uitterlinden AG. An Introduction to Genome-Wide Association Studies: GWAS for Dummies. Semin Reprod Med. 2016
Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P. Use of linkage analysis, genome-wide association studies, and next-generation sequencing in the identification of disease-causing mutations. 2013
Analyse des données de survie et longitudinales (options santé et assurance)
ECTS :
5
Semester:
Semestre 1
Detail
Lecture:10.5
Directed study:10.5
Independant learning:20
Language(s) of instruction
Anglais
Remote teaching
non
Prerequisites
Pré-requis pour survival and longitudinal data : analysis: M1-level statistical inference and statistical modeling course in mathematics. Familiarity with computing in R
Programme/contents
Survival and longitudinal data analysis: Analyse de la séquence d'événements observés au fil du temps. Ces types de données sont contraints d'être positifs et sont souvent incomplets en raison de la censure. Ignorer ces caractéristiques dans l'analyse peut sérieusement biaiser les résultats et conduire à des conclusions trompeuses. Dans ce cours, nous introduisons des méthodes statistiques développées dans l'analyse des données de survie et des données longitudinales pour traiter correctement de tels problèmes.
Learning objectives
Objectifs: À l'issue de ce cours, les étudiants seront capables de
de comprendre comment construire des modèles statistiques pour des applications
d'apprécier comment la censure peut affecter l'analyse et les résultats
de choisir les méthodes statistiques appropriées pour analyser les temps de survie
d'évaluer et de comparer différents modèles à l'aide de méthodes d'inférence statististique
Overall organisation
• survival and longitudinal data analysis (10.5 CM+ 10.5 TD) 2.5 ECTS
Bibliography
Bibliographie: survival and longitudinal data analysis:
Andersen, P.K., Borgan, O., Gill, R.D. and Keiding, N. (2012) Statistical models based on counting processes
Klein, J.P. and Moeschberger, M.L. (2003) Survival analysis: Techniques for censored and truncated data, Springer.
Moore, D.F. (2016) Applied survival analysis using R
Singer, J.D. and Willett, J.B. (2003) Applied longitudinal data analysis: Modeling change and event occurrence. Oxford university press.
Pawitan, Y. (2001) In All Liikelihood: Statistical modeling and inference using likelihood
Pré-requis pour bioinformatique: Statistique inférentielle, Deep learning, notions de génétique et biologie moléculaire
Programme/contents
Bioinformatique: Analyse statistiques du transcriptome : détermination des gènes co-exprimés, enrichissement fonctionnel et inférence de réseaux de co-expression.
Intégration de données hétérogènes.
Médecine prédictive : Prédiction d'une pathologie ou de la réponse à traitement par deep learning et par apprentissage statistique de données génomiques, transcriptomiques et protéomiques.
Learning objectives
Savoir analyser des données d’expression de gènes, c’est à dire savoir identifier et corriger les biais dans les données de NGS, savoir identifier des gènes différentiellement exprimés entre deux conditions, savoir identifier des gènes coexprimés, savoir identifier des groupes de gènes corégulés.
Savoir construire un arbre phylogénétique par différentes approches et savoir l’analyser
Savoir prédire des interactions protéine-protéine et construire et analyser un réseau d’interactions protéine-protéine
Machine Learning pour l'assurance et la finance (Options Assurance et Finance)
ECTS :
5
Semester:
Semestre 2
Detail
Lecture:18
Directed study:18
Independant learning:20
Language(s) of instruction
Français
Remote teaching
non
Prerequisites
MACHINE LEARNING TECHNIQUES FOR OPTION PRICING, CALIBRATION, AND HEDGING APPLICATIONS: Financial modeling and numerical knowledge and skills, such as provided by the first semester course “Pricing and calibration methods in finance” General “machine learning” and “deep learning” knowledge and skills, such as provided by the eponymous first semester courses.
Programme/contents
MACHINE LEARNING TECHNIQUES FOR OPTION PRICING, CALIBRATION, AND HEDGING APPLICATIONS:
In recent years, machine learning techniques have emerged as a generic, model-free, financial derivative numerical paradigm. This course module will be devoted to the option pricing, calibration, and hedging applications of machine learning, with a focus on deep neural networks (mainly), and also Gaussian process regression technique
Learning objectives
Introducing the main relevant applications of very recent machine learning technics in quantitative finance
Overall organisation
Machine Learning pour la finance (18hCM+18hTD) 5 ECTS:
MACHINE LEARNING TECHNIQUES FOR OPTION PRICING, CALIBRATION, AND HEDGING APPLICATIONS: beamer slides course, tutorials in python / tensorflow (local jupyter notebooks, after local installation of the required packages including anaconda and tensorflow, or notebooks executed online on the google collaborative platform).
Bibliography
Statistical machine learning for quantitative finance
Ludkovski, M. Annu. Rev. Stat. Appl. 10 (2023), 271–295.
Deep hedging Buehler, H.; Gonon, L.; Teichmann, J.; Wood, B.
Quant. Finance 19 (2019), no. 8, 1271–1291.
Gestion de bases de données (Postgresql) et le langage associé SQL. Différents aspects du langage SQL seront abordés :
langage de définition de données,
langage de contrôle de données, et enfin le langage de manipulation de données. Spark
Learning objectives
Gestion de bases de données (Postgresql) et le langage associé SQL. Différents aspects du langage SQL seront abordes :
langage de définition de données,
langage de contrôle de données, et enfin le langage de manipulation de données. Spark.
algorithmique: Connaître les bases de la programmation R. Connaître quelques algorithmes de Machine Learning
Learning objectives
Algorithmique:
Savoir identifier les grandes classes d'algorithmes (récursif, programmation dynamique, exacts, gloutons, approchés...)
Connaître quelques heuristiques pour la résolution des algorithmes d'optimisation discrète
Comprendre la notion de complexité algorithmique et savoir la calculer (à la main)
Savoir construire un package Rcpp testant des algorithmes de Data Science et retrouver leur complexité par simulations numériques
GPU: Programmation Cuda :
Principe de la programmation CUDA (programmation par kernels,
organisation des threads). Interfaçage Python/cuda sous pycuda.
Exemples : opérations simples sur les vecteurs, tracé de la fonction
zeta. Grille de thread en dimension 2, tracé de l'ensemble de Julia.
Méthode de Monte-Carlo sous GPU.
Organisation de la mémoire GPU. Utilisation de la mémoire
'shared'. Exemple : simulation d’équation de McKean-Vlasov
NLP: Objectif :* Offrir une introduction aux concepts fondamentaux et aux
outils modernes du traitement automatique du langage naturel, en partant
des représentations vectorielles classiques jusqu’aux modèles de grande
taille (LLMs).
Le cours aborde les méthodes classiques comme la pondération TF-IDF,
l’analyse sémantique latente (LSA), les modèles probabilistes (LDA), ainsi
que les modèles d’embedding tels que Word2Vec. Il introduit également les
architectures récentes basées sur les *transformers* (comme BERT) et les
*LLMs* (Large Language Models) qui transforment aujourd’hui la manière de
traiter, comprendre et générer du texte.
Les étudiants apprendront à manipuler des corpus, représenter le sens des
mots et des textes, mesurer des similarités, extraire des thématiques, et
exploiter des modèles préentraînés pour diverses tâches.