M2 Data Science : Health, Insurance and Finance

Master's degree

Specialisation Mathematics and applications

Full-time academic programmes

English

French

The Master 2, Data Science: Health, Insurance, Finance is a master's degree designed to train students from mathematics and applied mathematics backgrounds in data science (mathematical and computer science aspects) and advanced statistics.

Year organized into 5 blocks that can be compensated for each other, except for the internship

Apply Now

Université Paris-Saclay / Christophe Peus

Université Paris-Saclay / Corinne Hameau

Information

Présentation

Objectives

+ Train students from mathematics and applied mathematics programs in
data science (mathematical and computer science aspects) and
advanced statistics.
+ Understand and know how to use machine learning and deep learning algorithms
with a focus on three
areas of application (health, insurance, finance).
+ Enable students to acquire in-depth knowledge
of complex signals (data) from these
fields

Career Opportunities

Career prospects

Après un Master ou Master + Doctorat : ingénieur (R&D, contrôle, production…)

Après un Master ou Master + Doctorat : chercheur ou enseignant-chercheur

Après un Master ou Master + Doctorat : ingénieur (recherche-développement, contrôle, production…) dans les domaines santé, pharmacie, agroalimentaire, biotechnologies, instruments et réactifs, cosmétique, dépollution et environnement

Après un Master ou Master + Doctorat : ingénieur (recherche et développement, contrôle, production…)

Après un Master : Ingénieur (analyste financier, économiste, statisticien)

Après un Master : Data scientist

Après un Master : Spécialiste en intelligence artificielle (IA)

Après un master : Chargé(e) d’études

ingénieur étude conception

Ingénieur d'études industrie / recherche publique

Ingénieur.e recherche & développement

Enseignant.es dans le secondaire

Fees and scholarships

The amounts may vary depending on the programme and your personal circumstances.

Calendar

Start of programme (indicative date)

01/09/2026

End of programme (indicative date)

30/11/2027

Admission

Capacity

Available Places

Application Period(s)

Inception Platform

From 05/01/2026 to 10/07/2026

Supporting documents

Compulsory supporting documents

Letter of recommendation or internship evaluation.

Detailed description and hourly volume of courses taken since the beginning of the university program.

Additional supporting documents

Document indicating the list of local M2 choices available here : https://urlz.fr/i3Lo.

Programme

Subjects	ECTS	Semester	directed study
Anglais semestre 2	2	Semestre 2	10
Anglais semestre 2 ECTS : 2 Semester: Semestre 2 Detail Directed study: 10 Language(s) of instruction Anglais Remote teaching non Prerequisites Pratique régulière d’anglais dans sa vie culturelle, académique et/ou professionnelle, un auto-test de positionnement se fera à la rentrée Learning objectives Développer une autonomie dans son apprentissage de langue pour permettre une amélioration constante. Approfondir ses capacités de lecture et écoute. Soigner la prononciation. Savoir parler de soi-meme et échanger avec d'autres dans un contexte formel, respectueux et coopératif. Comprendre le langage de ressources humaines et de recrutement. Savoir décrire et mettre en avant ses connaissances, compétences et qualités. Savoir raconter et discuter l’histoire de statistiques et l’apparition de la discipline de « data science ». Savoir exprimer son avis et débattre des questions sociétales liant « data science » à la santé et l’assurance. Être à l’aise et précis en décrivant des concepts techniques (y compris des chiffres, des notions mathématiques et informatiques, des tendances). Présenter à l’oral et à l’écrit un projet suivant rigoureusement la méthode scientifique, tout en adaptant son langage à son audience. Type of assessment Evaluation Continue non Intégrale
Anglais semestre 1	2	Semestre 1	10
Anglais semestre 1 ECTS : 2 Semester: Semestre 1 Detail Directed study: 10 Language(s) of instruction Anglais Remote teaching non Prerequisites Anglais : pratique régulière d’anglais dans sa vie culturelle, académique et/ou professionnelle, un auto-test de positionnement se fera à la rentrée Learning objectives Autonomie dans son apprentissage pour une amélioration constante. Approfondir ses capacités de lecture et écoute. Soigner la prononciation. Savoir parler de soi-même et échanger avec d'autres dans un contexte formel, respectueux et coopératif. Comprendre le langage de ressources humaines et de recrutement. Savoir décrire et mettre en avant ses connaissances, compétences et qualités. Savoir raconter et discuter l’histoire de statistiques et l’apparition de la discipline de « data science ». Savoir exprimer son avis et débattre des questions sociétales liant « data science » à la santé et l’assurance. Être à l’aise et précis en décrivant des concepts techniques mathématiques et informatiques. Présenter à l’oral et à l’écrit un projet suivant la méthode scientifique, en adaptant son langage à son audience. Overall organisation 10h TD 2 ECTS Type of assessment Evaluation Continue non Intégrale

Subjects	ECTS	Semester	Lecture	directed study
Statistique	6	Semestre 1	27	27
Statistique ECTS : 6 Semester: Semestre 1 Detail Lecture: 27 Directed study: 27 Language(s) of instruction Français Remote teaching non Prerequisites Cours de statistique inférentielle, de régression linéaire et de processus stochastiques de niveau M1 de mathématiques Programme/contents • Nonparametric statistic (Tests non paramétriques, estimation de densité et estimation de fonction de répartition) • Asymptotic statistic ( Inférence, exhaustivité, admissibilité, famille exponentielle, tests basés sur la vraisemblance, modèles GLM • Statistics for stochastic processes : (I) Processus de Poisson : définitions, caractérisation des temps d’arrivées, processus de Poisson inhomogène, estimation de l’intensité, exemples d’applications en assurance et en sciences de la vie. II) Processus de comptage : définition, éléments de calcul stochastique pour les processus de comptage (intégrale stochastique et compensateur), intensité, vraisemblance, applications (modèle de dynamique de population, modèle SIR, modèle de durée, données censurées, processus de Hawkes) Overall organisation • Nonparametric Statistics (2ECTS) (9h CM +9h TD pour les FA) et (15CM+15TD pour les FI) • Asymptotic Statistics (2 ECTS) (9h CM +9h TD pour les FA) et (15CM+15TD pour les FI) • Statistics for stochastic processes (2ECTS) (9h CM+ 9h TD) Bibliography nonparametric statistic: [1] Sinda Ammous, Olivier Bouaziz, Jerome Dedecker, Jonathan El Methni, Mohamed Mellouk, et al. [2] F. Comte Nonparametric Estimation Spartacus-Idh 2017 [3] L. Wasserman. All of nonparametric statistics. Springer Texts in Statistics. Springer-Verlag, 2006. [4] E.L. Lehmann. Elements of large sample theory. [5] A. B. Tsybakov. Introduction à l’estimation non paramétrique Asymptotic statistic Rivoirard and Stoltz 2012 Cadre and Vial 2012 Fourdrinier 2002 Gaudouin Polycopiés de cours Bickel and Doksum 2016 Agresti 2015 : GLM Fahrmeir and Kaufmann 1985) : GLM James, Witten, Hastie, and Tibshirani 2013 : GLM Lindsey 2000 : GLM McCullagh and Nelder 1989 : GLM Statistic for stochastic processes « Statistical Models Based on Counting Processes », Andersen P.K., Borgan, O., Gill, R.D., Keiding, N., Springer series in Statistics. « Non life Insurance mathematics . An introduction with the Poisson process », T. Mikosch, Universitext. Type of assessment Détail renseigné au niveau Élément Constitutif
Statistique et machine learning avancés	6	Semestre 2	24	27
Statistique et machine learning avancés ECTS : 6 Semester: Semestre 2 Detail Lecture: 24 Directed study: 27 Language(s) of instruction Français Remote teaching non Prerequisites Optimisation: Algèbre matricielle et linéaire, espaces euclidiens, produits scalaires, normes, Fonctions de plusieurs variables: différentielle, Hessien Modèles graphiques: statistiques multivariées (Loi normale multivariées, famille exponentielle, ...) optimisation, Statistique bayésienne Learning objectives Optimisation: Reconnaître un problème d'optimisation convexe sous forme simple Etre en mesure d'écrire les conditions d'optimalité en étant conscient des hypothèses pour que ces dernières soient suffisantes/nécessaires. Savoir écrire un algorithme itératif d'optimisation, en particulier algorithme proximal Overall organisation Optimisation 3 ECTS (9h CM + 12 h TD ) Graphical models 3 ECTS (9h CM + 9h TD) Statistique Robuste (6h CM+6h TD) Bibliography Optimisation: Boyd and Vandenberghe, Convex Optimization (Cambridge University Press) (voir: http://stanford.edu/~boyd/) Borwein and Lewis, Convex Analysis and Nonlinear Optimization, Theory and Examples (Canadian Mathematical Society) N. Parikh and S. Boyd, Proximal Algorithms (Foundations and Trends in Optimization, 1(3):123-231, 2014) Modèles graphiques: "Machine Learning: A Probabilistic Perspective" (MLAPP) de Kevin P. Murphy, notamment ( Chapitre 10 : Modèles graphiques dirigés (réseaux Bayésiens) Chapitre 19 : Modèles graphiques non-dirigés (champs aléatoires de Markov) Chapitre 20 : Inférence exacte pour les modèles graphiques Chapitre 26 : Apprentissage de la structure des modèles graphiques.) Type of assessment Détail renseigné au niveau Élément Constitutif
Deep Learning	4	Semestre 2	15	15
Deep Learning ECTS : 4 Semester: Semestre 2 Detail Lecture: 15 Directed study: 15 Language(s) of instruction Français Remote teaching non Prerequisites Connaissances de base en apprentissage automatique et en statistiques / probabilités Overall organisation 15 h CM+ 15h TD, 4ECTS Type of assessment Evaluation Continue non Intégrale
Statistique bayésienne et variables latentes discrètes	2.5	Semestre 1	12	15
Statistique bayésienne et variables latentes discrètes ECTS : 2.5 Semester: Semestre 1 Detail Lecture: 12 Directed study: 15 Language(s) of instruction Français Remote teaching non Learning objectives Statistique bayésienne et Variables discrètes latentes: Base conceptuelles de l’inférence Bayésienne, Choix de priors Comparaison de modèles Méthodes Monte Carlo, Monte Carlo Markov Chain, langages de programmation probabilistes pour l’inférence Bayésienne (Stan, JAGS, Nimble); probabilités discrète et continues, statistique paramétrique & maximum de vraisemblance, optimisation sous contraintes : convexité, contraintes d'(in)égalités, lagrangien Overall organisation 12h CM+ 15 TD, 2.5 ECTS Bibliography Hoff, Peter D. A first course in Bayesian statistical methods. Vol. 580. New York: Springer, 2009. Gelman, Andrew, et al. Bayesian data analysis. CRC press, 2013. Jaynes, Edwin T. Probability theory: The logic of science. Cambridge university press, 2003. Kruschke, John. "Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan." (2014). McGrayne, Sharon Bertsch. The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, & Emerged Triumphant from Two Centuries of C. Yale University Press, 2011. Robert, Christian P. The Bayesian choice: from decision-theoretic foundations to computational implementation. Vol. 2. New York: Springer, 2007. Bernardo, José M., and Adrian FM Smith. Bayesian theory. Vol. 405. John Wiley & Sons, 2009. Gelman, Andrew, Jennifer Hill, and Aki Vehtari. Regression and other stories. Cambridge University Press, 2020. McElreath, Richard. Statistical rethinking: A Bayesian course with examples in R and Stan. CRC press, 2020. Type of assessment Evaluation Continue non Intégrale
Machine Learning/ IA fiable	2.5	Semestre 1	10.5	10.5
Machine Learning/ IA fiable ECTS : 2.5 Semester: Semestre 1 Detail Lecture: 10.5 Directed study: 10.5 Independant learning: 20 Language(s) of instruction Français Remote teaching non Prerequisites Bases de l'apprentissage supervisé Type of assessment Evaluation Continue non Intégrale
Réduction de dimension (FA+FI)	2.5	Semestre 1	9	9
Réduction de dimension (FA+FI) ECTS : 2.5 Semester: Semestre 1 Detail Lecture: 9 Directed study: 9 Independant learning: 20 Language(s) of instruction Français Remote teaching non Type of assessment Détail renseigné au niveau Élément Constitutif

Subjects	ECTS	Semester	Lecture	directed study
Méthodes numériques de pricing et calibration de modèles	6	Semestre 1	42
Méthodes numériques de pricing et calibration de modèles ECTS : 6 Semester: Semestre 1 Detail Lecture: 42 Language(s) of instruction Anglais Remote teaching non Prerequisites Probabilities at a good master 1 level, discrete and continuous time stochastic processes, Derivative products and contracts in Finance and programming with Python at a good master 1 level. Programme/contents I Stochastic analysis prerequisites. II Monte Carlo methods and variance reduction techniques. III Hedging financial options. IV Advanced computation of Greeks. V Advanced numerical methods for pricing exotic and path dependent of options . VI Analysis of discretization schemes for stochastic differential equations. VII Model calibration techniques. Learning objectives The aim of this course is to introduce advanced numerical methods needed for quantitative work in finance. To this avail, the course will provide a detailed study for calibrating models, pricing and hedging financial options. Overall organisation 42 hours of lectures Blackboard course, homework coding with Python Special teaching arrangements L'UEVE prend en charge 31,5 HETD, le reste est à la charge de l'ENSIIE. Bibliography Mainly: Lamberton, D. and Lapeyre P., Introduction to Stochastic Calculus Applied to Finance. Chapman & Hall, 2nd revised edition, 2007. Hull, J., Options, Futures, and Other Derivative Securities, Prentice-Hall, last edition. Glasserman P., Monte Carlo Methods in Financial Engineering, Springer, 2004. Shreve, S.: Stochastic Calculus for Finance II: Continuous—Time Models, Springer, 2004 or later. Cont R. et P. Tankov, Modelling with Jump Processes, Chapman & Hall, 2003. Type of assessment Evaluation Continue non Intégrale
Econométrie financière	3	Semestre 1	18
Econométrie financière ECTS : 3 Semester: Semestre 1 Detail Lecture: 18 Language(s) of instruction Anglais Remote teaching non Prerequisites probability, stochastic processes, time series Programme/contents In this course, we will study time series models related to financial data. We are specifically interested in estimation problems for these models. Course program : Short recap on time series. Basic empirical facts of financial time series. GARCH models : existence, properties, estimation of parameters (pseudo-likelihood estimator), volatility forecast. VaR computation, pricing with GARCH, connection with the high frequency sampling of a stochastic volatility model. Duration models and trading time modeling (Autoregressive Conditional Duration models, Lo and MacKinlay model). Volatility estimation with high frequency data. Bibliography [1] Analysis of Financial Time Series (Anglais) Relié – 10 septembre 2010 de Ruey S. Tsay [2] Statistics of Financial Markets: An Introduction (2015) by Jürgen Franke (Author), Wolfgang Karl Härdle (Author), Christian Matthias Hafner (Author) [3] Time Series: Time Series: Theory and Methods (Springer Series in Statistics) (Anglais) Broché – 28 avril 2009 Peter J. Brockwell [4] Lecture on "The econometrics of high frequency data" by Per Mykland and Lan Zhang, http://tigger.uic.edu/~lanzhang/LaManga022209.pdf Type of assessment Evaluation Continue non Intégrale
Statistique pour la génétique et la génomique (option Santé)	2.5	Semestre 2	9	9
Statistique pour la génétique et la génomique (option Santé) ECTS : 2.5 Semester: Semestre 2 Detail Lecture: 9 Directed study: 9 Language(s) of instruction Anglais Remote teaching non Prerequisites Pré-requis pour statistique pour la génétique et la génomique : Bases statistiques ; Notions de génétique moléculaire Learning objectives Objectifs pour statistique pour la génétique et la génomique: Comprendre les développements statistiques actuels pour l’analyse de données génétiques dans le cadre d’études d’associations pangénomiques. Savoir mettre en œuvre une analyse standard et savoir interpréter les résultats. Overall organisation Statistique pour la génétique et la génomique (9h CM + 9h TD) 2.5 ECTS Bibliography Bibliographie pour statistique pour la génétique et la génomique: Uffelmann E, Huang QQ, Munung NS et al. Genome-wide association studies. Nat Rev Methods Primers. 2021; Dehghan A. Genome-Wide Association Studies. Methods Mol Biol. 2018; Wang MH, Cordell HJ, Van Steen K. Statistical methods for genome-wide association studies. Semin Cancer Biol. 2019 Hayes B. Overview of Statistical Methods for Genome-Wide Association Studies (GWAS). Methods Mol Biol. 2013 Marees AT, de Kluiver H, Stringer S, Vorspan F, Curis E, Marie-Claire C, Derks EM. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int J Methods Psychiatr Res. 2018 Uitterlinden AG. An Introduction to Genome-Wide Association Studies: GWAS for Dummies. Semin Reprod Med. 2016 Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P. Use of linkage analysis, genome-wide association studies, and next-generation sequencing in the identification of disease-causing mutations. 2013 Type of assessment Evaluation Continue non Intégrale
Introduction à la génétique (option santé)	2.5	Semestre 1	9	9
Introduction à la génétique (option santé) ECTS : 2.5 Semester: Semestre 1 Detail Lecture: 9 Directed study: 9 Language(s) of instruction Français Remote teaching non Prerequisites Aucun pré-requis en génétique Learning objectives Comprendre les notions de bases moléculaires en génétique Reconnaitre les modes de transmission génétique classiques Calculer et interpréter un déséquilibre de liaison Savoir faire la différence entre analyse de liaison génétique et analyse d’association Savoir calculer les statistiques de base pour les analyses de liaison génétique et d’association Savoir interpréter les résultats des analyses de liaison génétique et d’association Utiliser certains logiciels standards en analyse de données génétiques Overall organisation • Introduction to genetics (9h CM + 9h TD) 2.5 ECTS Bibliography Laird N. M., Lange C. The Fundamentals of Modern Statistical Genetics. Springer. Hardcover, 2011, 226 p. ISBN 978-1-4419-7338-2 Snustad D. P., Simmons M. J. Principles of Genetics, 7th Edition. Wiley, 2015, 648p. ISBN: 978-1-119-14228-7 Type of assessment Evaluation Continue non Intégrale
Analyse des données de survie et longitudinales (options santé et assurance)	5	Semestre 1	10.5	10.5
Analyse des données de survie et longitudinales (options santé et assurance) ECTS : 5 Semester: Semestre 1 Detail Lecture: 10.5 Directed study: 10.5 Independant learning: 20 Language(s) of instruction Anglais Remote teaching non Prerequisites Pré-requis pour survival and longitudinal data : analysis: M1-level statistical inference and statistical modeling course in mathematics. Familiarity with computing in R Programme/contents Survival and longitudinal data analysis: Analyse de la séquence d'événements observés au fil du temps. Ces types de données sont contraints d'être positifs et sont souvent incomplets en raison de la censure. Ignorer ces caractéristiques dans l'analyse peut sérieusement biaiser les résultats et conduire à des conclusions trompeuses. Dans ce cours, nous introduisons des méthodes statistiques développées dans l'analyse des données de survie et des données longitudinales pour traiter correctement de tels problèmes. Learning objectives Objectifs: À l'issue de ce cours, les étudiants seront capables de de comprendre comment construire des modèles statistiques pour des applications d'apprécier comment la censure peut affecter l'analyse et les résultats de choisir les méthodes statistiques appropriées pour analyser les temps de survie d'évaluer et de comparer différents modèles à l'aide de méthodes d'inférence statististique Overall organisation • survival and longitudinal data analysis (10.5 CM+ 10.5 TD) 2.5 ECTS Bibliography Bibliographie: survival and longitudinal data analysis: Andersen, P.K., Borgan, O., Gill, R.D. and Keiding, N. (2012) Statistical models based on counting processes Klein, J.P. and Moeschberger, M.L. (2003) Survival analysis: Techniques for censored and truncated data, Springer. Moore, D.F. (2016) Applied survival analysis using R Singer, J.D. and Willett, J.B. (2003) Applied longitudinal data analysis: Modeling change and event occurrence. Oxford university press. Pawitan, Y. (2001) In All Liikelihood: Statistical modeling and inference using likelihood Type of assessment Evaluation Continue non Intégrale
Bioinformatique (Option Santé)	2.5	Semestre 2	9	9
Bioinformatique (Option Santé) ECTS : 2.5 Semester: Semestre 2 Detail Lecture: 9 Directed study: 9 Language(s) of instruction Français Remote teaching non Prerequisites Pré-requis pour bioinformatique: Statistique inférentielle, Deep learning, notions de génétique et biologie moléculaire Programme/contents Bioinformatique: Analyse statistiques du transcriptome : détermination des gènes co-exprimés, enrichissement fonctionnel et inférence de réseaux de co-expression. Intégration de données hétérogènes. Médecine prédictive : Prédiction d'une pathologie ou de la réponse à traitement par deep learning et par apprentissage statistique de données génomiques, transcriptomiques et protéomiques. Learning objectives Savoir analyser des données d’expression de gènes, c’est à dire savoir identifier et corriger les biais dans les données de NGS, savoir identifier des gènes différentiellement exprimés entre deux conditions, savoir identifier des gènes coexprimés, savoir identifier des groupes de gènes corégulés. Savoir construire un arbre phylogénétique par différentes approches et savoir l’analyser Savoir prédire des interactions protéine-protéine et construire et analyser un réseau d’interactions protéine-protéine Type of assessment Evaluation Continue non Intégrale
Machine Learning pour l'assurance et la finance (Options Assurance et Finance)	5	Semestre 2	18	18
Machine Learning pour l'assurance et la finance (Options Assurance et Finance) ECTS : 5 Semester: Semestre 2 Detail Lecture: 18 Directed study: 18 Independant learning: 20 Language(s) of instruction Français Remote teaching non Prerequisites MACHINE LEARNING TECHNIQUES FOR OPTION PRICING, CALIBRATION, AND HEDGING APPLICATIONS: Financial modeling and numerical knowledge and skills, such as provided by the first semester course “Pricing and calibration methods in finance” General “machine learning” and “deep learning” knowledge and skills, such as provided by the eponymous first semester courses. Programme/contents MACHINE LEARNING TECHNIQUES FOR OPTION PRICING, CALIBRATION, AND HEDGING APPLICATIONS: In recent years, machine learning techniques have emerged as a generic, model-free, financial derivative numerical paradigm. This course module will be devoted to the option pricing, calibration, and hedging applications of machine learning, with a focus on deep neural networks (mainly), and also Gaussian process regression technique Learning objectives Introducing the main relevant applications of very recent machine learning technics in quantitative finance Overall organisation Machine Learning pour la finance (18hCM+18hTD) 5 ECTS: MACHINE LEARNING TECHNIQUES FOR OPTION PRICING, CALIBRATION, AND HEDGING APPLICATIONS: beamer slides course, tutorials in python / tensorflow (local jupyter notebooks, after local installation of the required packages including anaconda and tensorflow, or notebooks executed online on the google collaborative platform). Bibliography Statistical machine learning for quantitative finance Ludkovski, M. Annu. Rev. Stat. Appl. 10 (2023), 271–295. Deep hedging Buehler, H.; Gonon, L.; Teichmann, J.; Wood, B. Quant. Finance 19 (2019), no. 8, 1271–1291. Type of assessment Détail renseigné au niveau Élément Constitutif

Subjects	ECTS	Semester	Lecture	directed study	practical class	Lecture/directed study	Lecture/practical class	directed study/practical class	distance-learning course	Project	Supervised studies
Stage	15	Semestre 2
Stage ECTS : 15 Semester: Semestre 2 Detail Tutored project 15 Language(s) of instruction Français Remote teaching non Type of assessment Evaluation Continue non Intégrale

Subjects	ECTS	Semester	Lecture	directed study
Base de l'informatique	2	Semestre 1	9	9
Base de l'informatique ECTS : 2 Semester: Semestre 1 Detail Lecture: 9 Directed study: 9 Language(s) of instruction Français Remote teaching non Programme/contents Gestion de bases de données (Postgresql) et le langage associé SQL. Différents aspects du langage SQL seront abordés : langage de définition de données, langage de contrôle de données, et enfin le langage de manipulation de données. Spark Learning objectives Gestion de bases de données (Postgresql) et le langage associé SQL. Différents aspects du langage SQL seront abordes : langage de définition de données, langage de contrôle de données, et enfin le langage de manipulation de données. Spark. Overall organisation 9h CM+9h TD 2 ECTS Type of assessment Evaluation Continue non Intégrale
Informatique avancée	4	Semestre 2	13.5	22.5
Informatique avancée ECTS : 4 Semester: Semestre 2 Detail Lecture: 13.5 Directed study: 22.5 Language(s) of instruction Français Remote teaching non Prerequisites algorithmique: Connaître les bases de la programmation R. Connaître quelques algorithmes de Machine Learning Learning objectives Algorithmique: Savoir identifier les grandes classes d'algorithmes (récursif, programmation dynamique, exacts, gloutons, approchés...) Connaître quelques heuristiques pour la résolution des algorithmes d'optimisation discrète Comprendre la notion de complexité algorithmique et savoir la calculer (à la main) Savoir construire un package Rcpp testant des algorithmes de Data Science et retrouver leur complexité par simulations numériques GPU: Programmation Cuda : Principe de la programmation CUDA (programmation par kernels, organisation des threads). Interfaçage Python/cuda sous pycuda. Exemples : opérations simples sur les vecteurs, tracé de la fonction zeta. Grille de thread en dimension 2, tracé de l'ensemble de Julia. Méthode de Monte-Carlo sous GPU. Organisation de la mémoire GPU. Utilisation de la mémoire 'shared'. Exemple : simulation d’équation de McKean-Vlasov NLP: Objectif :* Offrir une introduction aux concepts fondamentaux et aux outils modernes du traitement automatique du langage naturel, en partant des représentations vectorielles classiques jusqu’aux modèles de grande taille (LLMs). Le cours aborde les méthodes classiques comme la pondération TF-IDF, l’analyse sémantique latente (LSA), les modèles probabilistes (LDA), ainsi que les modèles d’embedding tels que Word2Vec. Il introduit également les architectures récentes basées sur les transformers (comme BERT) et les LLMs (Large Language Models) qui transforment aujourd’hui la manière de traiter, comprendre et générer du texte. Les étudiants apprendront à manipuler des corpus, représenter le sens des mots et des textes, mesurer des similarités, extraire des thématiques, et exploiter des modèles préentraînés pour diverses tâches. Overall organisation Algorithmique et GPU (9hCM+18h TD) 2 ECTS Impact de l'IA 0 ECTS Natural Language Processing (4.5 CM+4.5 TD)2 ECTS Bibliography Algorithmique: [ https://www.dunod.com/sciences-techniques/algorithmique-cours-avec-957-exercices-et-158-problemes https://www.dunod.com/sciences-techniques/algorithmique-cours-avec-957-exercices-et-158-problemes ] Algorithmique, par Cormen, Leiserson, Rivest & Stein GPU: https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html Mark Giles lecture on Cuda https://people.maths.ox.ac.uk/gilesm/cuda/ Pycuda web https://mathema.tician.de/software/pycuda/ Type of assessment Evaluation Continue non Intégrale
Data Camp	4	Semestre 2		9
Data Camp ECTS : 4 Semester: Semestre 2 Detail Directed study: 9 Language(s) of instruction Anglais Remote teaching non Type of assessment Evaluation Continue non Intégrale

Teaching Location(s)

EVRY

Training campus

Evry

Bus 9105, 4504

RER D Evry Courcouronnes

Student restaurant (CROUS)

Library

Student residence

Sports facilities

Contact

Marie-Luce Taupin

Contact