Les grands acteurs du monde économique ont aujourd’hui une conscience de plus en plus précise du potentiel que recèlent leurs données et recherche les moyens d’exploiter et d’en tirer le maximum d’informations utiles. Pour les aider dans cette tâche, les datascientists (littéralement les scientifiques des données) sont les personnes en charge de récupérer, stocker, organiser, traiter cette masse d’informations afin d’en tirer de la valeur et de créer des outils d’aide à la décision automatisés avec des techniques d’intelligence artificielle.
L’objectif du M2 "Data Sciences - Intelligence Artificielle" est de préparer les étudiant.e.s à devenir les datascientists de demain aussi bien dans le monde académique que dans le monde industriel.
Le programme d’enseignement souhaite combler le déficit en experts dans ce secteur aujourd’hui stratégique. Il couvre toutes les facettes du Big Data et les connexions avec l’intelligence artificielle : mathématiques, en particulier statistique et optimisation, machine learning et intelligence artificielle, informatique des grandes structures de données. De nombreux modules sont issus de recherches en cours.
Pour plus d'informations, vous pouvez consulter le site web de cette formation M2 Data Sciences.
Lieu(x) d'enseignement
PALAISEAU
Pré-requis, profil d’entrée permettant d'intégrer la formation
Le M2 "Data Sciences - Intelligence Artificielle" est ouvert aux étudiant.e.s ayant un master 1 en mathématiques ou informatique de l'université Paris Saclay, et en particulier aux étudiant.e.s ayant suivi le M1 Mathématiques Appliquées ou le M1 Mathématiques Fondamentales. Les étudiants hors Paris Saclay doivent candidater au master Data Science de l'Institut Polytechnique de Paris avec lequel le M2 "Data Sciences - Intelligence Artificielle" est co-accrédité.
Compétences
Maîtriser et mettre en oeuvre des outils et méthodes mathématiques de haut niveau, en particulier dans le domaine du machine learning et de l'intelligence artificielle.
Comprendre et modéliser mathématiquement un problème afin de le résoudre.
Maîtriser des outils numériques et langages de programmation de référence, en particulier dans le cadre de données volumineuses.
Analyser des données et mettre en oeuvre des simulations numériques.
Analyser un document de recherche en vue de sa synthèse et de son exploitation.
Expliquer clairement une théorie et des résultats mathématiques.
Profil de sortie des étudiants ayant suivi la formation
Les étudiant.e.s issu.e.s de la formation sont des Datascientists doté.e.s d'un profil issu de la convergence des statistiques et de l’informatique, caractérisé par la variété des compétences maîtrisées. Il s’agit d’un profil hybride, disposant d’un solide bagage en mathématiques, statistiques, optimisation, mais aussi maîtrisant les outils informatiques ou les infrastructures nécessaires à la gestion et au traitement des données.
Ils sont à la pointe des méthodes de machine learning et d'intelligence artificielle pour l'aide à la décision et savent prendre du recul sur leurs utilisations tout en suivant leur rapide évolution.
Débouchés de la formation
Datascientist dans le monde industriel ou dans le monde académique.
Une partie des étudiant.e.s s’oriente vers une thèse en entreprise ou académique
Collaboration(s)
Laboratoire(s) partenaire(s) de la formation
Laboratoire de mathématiques d'Orsay.
Centre de Mathématiques Appliquées (IPP)
Laboratoire Traitement et Communication de l'Information
Centre de recherche en économie et statistique.
Programme
Le S3 est dédié à la mise en place des outils et concepts de l'apprentissage et du machine learning. Le seul module obligatoire est le Data Camp. Les autres modules sont à la carte.
You will put your basic machine learning and data analysis knowledge to test by
- solving practical data science problems in scientific or industrial applications and by
- designing data science workflows.
To achieve the first objective, you will participate in a data challenge at the RAMP site. The particularity of RAMPs (vs Kaggle) is that you will submit code, not predictions. Your code will be inserted into a predictive workflow, trained and tested. A public cross-validation score will be available on a public leaderboard, real time. Your grade will be a function of the private test score of your best submission, obtained on a hidden test set. The challenge will also include a collaborative phase in which you can access all the submitted solutions, and you will be allowed and encouraged to reuse each other’s code. Part of your grade will come from your activities from this collaborative phase.
You will be able to choose from two to five problems coming from scientific or industrial applications (e.g., brain imaging, astrophysics, biology/chemistry, ad placement, insurance pricing). You can participate in more than one challenges: we will grade you based on your best performance.
Goal of the lectures:
- to draw your attention to some issues in data analysis, and some proposals to handle them;
- to learn to read a research paper, to catch the take home message and to identify the limits;
- to favor your own critical analysis.
The lecture will be based on some recent research papers.
The main purpose of this course is to introduce the mathematical formalism of the learning theory and to showcase its relations with more classical statistical theory of nonparametric estimation.
Presentation of 3 central problems: regression, binary classification, clustering or density estimation. Connection between these problems.
Universal consistency. Overfitting and underfitting. The Hoeffding inequality and empirical risk minimisation. Rademacher complexities.
Density estimation by histograms. Bias-variance decomposition and the rate of convergence over Holder classes.
Adaptive choice of the bandwidth by the method of estimated unbiased risk minimization. Local choice of the bandwidth by the Lepski method.
Nonparametric regression and sparsity. Thresholding Fourier coefficients.
Ce cours de 20h propose une introduction à l’apprentissage par renforcement. Il est basé sur la nouvelle édition du livre “Reinforcement Learning: An Introduction” de R. Sutton et A. Barto
Plan
1. Introduction à l’apprentissage par renforcement et processus de décision markovien
2. Le cas des bandits
3. Méthodes tabulaires: prédiction par programmation dynamique, méthode de Monte Carlo et TD
Learning
4. Planification et apprentissage pour les méthodes tabulaires
5. Méthodes approchées: prédiction, planification et apprentissage.
Partially observed Markov chains in signal and image
Langues d’enseignement :
FR
ECTS :
2.5
Détail du volume horaire :
Cours :20
Modalités d'organisation et de suivi :
Coordinateur :
Objectifs pédagogiques visés :
Contenu :
Les modèles de Markov partiellement observés (MMPO) admettent de multiples applications dans des domaines très divers. Les modèles de Markov cachés (MMC), qui sont des MMPO de base, apparaissent comme les modèles parmi les plus simples permettant une recherche des réalisations des processus cachés à partir des processus observés dans les cas de grandes masses de données. Les calculs séquentiels – donc explicites et rapides - sont permis par la nature markovienne du couple (processus caché, processus observé).
- processus cachés discrets : modèles classiques (chaînes, arbres, champs de Markov cachés) et traitements bayésiens correspondants, estimation des paramètres permettant des traitements non supervisés. Diverses extensions: semi-Markov cachés, Markov couples, Markov triplets, Markov évidentiels. Illustrations en segmentation statistique d’images, qui est un problème important en traitement d’images.
- processus cachés continus. L’exposé des systèmes gaussiens classiques, rendant possible les filtrages optimaux de type Kalman, sera suivi par les descriptions des modélisations plus complexes de type Markov couple et Markov triplet. En particulier, on étudiera les systèmes à sauts permettant de faire un lien avec la première partie du cours. L’intérêt des notions traitées sera illustré par des applications en poursuite.
- notions sur les machines de Boltzmann et des réseaux de connaissances profonds, qui peuvent être vues comme des modèles de Markov partiellement observés particuliers.
Modern machine learning heavily relies on optimization tools, typically to minimize the so called loss functions on training sets. The objective of this course is to cover the necessary theorical results of convex optimization as well as the computational aspects. This course contains a fair amount of programming as all algorithms presented will be implemented and tested on real data. At the end of the course, students shall be able to decide what algorithm is the most adapted to the machine learning problem given the size the data (number of samples, sparsity, dimension of each observation).
Période(s) et lieu(x) d’enseignement :
Période(s) :
Septembre - Octobre - Novembre - Décembre - Janvier.
Dans un problème statistique en grande dimension nous avons recours principalement à des méthodes non paramétriques, c'est-à-dire qui permettent que la dimension du modèle augmente avec le nombre de données disponibles.
L'objet de ce cours est de donner un aperçu de quelques méthodes d'estimation non paramétrique et leur usage pour les tests statistiques et les intervalles de confiance (quantification de l'incertitude). Le choix des paramètres de réglage est fait de manière adaptative aux données, pour un choix très général de la loi sous-jacente aux
données.
Les méthodes seront illustrées sur des modèles issus des applications, comme des modèles de mélange de populations (clustering), modèles graphiques ou modèles qui assurent la confidentialité des données.
Plan
- Estimateurs à noyaux et par projection d'une densité. Validation croisée. Vitesses de convergence et optimalité.
- Estimation non-paramétrique de la fonction de régression. Estimateurs par polynômes locaux, par projection (bases de Fourier, bases d'ondelettes). Vitesses de convergence et adaptation.
- Estimation de fonctionnelles et tests non paramétriques. Vitesses de convergence et de tests, principes des intervalles de confiance non paramétriques.
Les modèles dits à chaîne de Markov cachée (ou à espace d’état), sont des modèles de séries temporelles faisant intervenir un ’signal’ (un processus X_t markovien décrivant l’état d’un système) observé de
façon imparfaite et bruitée sous forme de données, par ex. Y_t f(X_t) + U_t.
Ces modèles sont très utilisés dans de nombreuses disciplines :
Finance : volatilité stochastique (X_t est la volatilité non-observée)
Ingénierie : pistage de cible (X_t est la position d’un mobile dont on essaie de retrouver la trajectoire ; reconnaissance de la parole ( X_t est un phonème)
Biostatistique : Ecologie (X_t taille de la population)
Epidémiologie (X_t nombre de personnes infectées)
Le but de ce cours est de présenter les méthodes modernes d’analyse séquentielle de tels modèles,
basés sur des algorithmes particulaires (Monte Carlo séquentiel). On traitera notamment les problèmes du
filtrage, du lissage, de prédiction, et d’estimation des paramètres. A la fin du cours, nous évoquerons
aussi rapidement l’extension de tels algorithmes à des problèmes non-séquentiels, notamment en
Statistique Bayésienne.
Le cours de Machine Learning est un cours dédié à la mise en place de projet complet de Data Science :
Lors de cet UE, vous développerez en groupe des applications de Machine Learning pour répondre à des préoccupations Business des entreprises : cadrage du Business Case, exploration et nettoyage des données, choix de l’approche scientifique, implémentation numérique d’algorithmes d’apprentissage, analyse des performances, interprétation des travaux, pitch des résultats, etc.
L’animation du cours suscite et encourage la participation de tous les étudiants, le travail en équipe et l’intelligence collective.
This course is an introduction to Bayesian methods for machine learning. As a first go, the main ingredients of Bayesian thinking are presented and typical situations where a Bayesian treatment of the learning task is useful are exemplified. Particular attention is payed to the links between regularization methods and specification of a prior distribution.
The second part of this course concerns the computational challenges of Bayesian analysis. Major approximation methods such as variational Bayes, Monte-Carlo-Markov-Chain sampling and sequential sampling schemes are introduced and implemented in lab session.
Deep Learning (machine learning based on deep articial neural networks) has become extremely popular over the last years due to the very good results it allows for regression, classication or generation. The objective of this course is to cover the three main types of networks (multi-layer-perceptron, recurrent-neural-network and con-
volutional neural network). This course range from the perceptron to the generation of adversarial images.
Each lesson is followed by a corresponding lab where student learn to implement these networks using the currently most popular frameworks (tensorflow, pytorch and keras).
In several high-dimensional problems, the information of interest take the form of a high-dimensional matrix with a low statistical complexity structure. In multivariate regression applications such as multitask collaborative filtering and recommender systems, we can measure the statistical complexity of the information matrix through group sparsity or the rank. In Principal Component Analysis, the goal is to learn the covariance structure of a high-dimensional random vector. In this problem, the statistical complexity is better quantified by the effective rank.
The goal of this course is to highlight how the complexity structure of a matrix conditions the design and the theoretical analysis of an estimation procedure. To this end, we will introduce several tools: oracle inequalities, minimax theory and concentration inequalities.
Program:
- Multi-task regression
- Trace regression and matrix completion
- Covariance matrix estimation and Principal Component Analysis.
La majorité des problèmes d'apprentissage sont formulés comme des problèmes d'optimisation, à partir de l'observation d'un échantillon de données (ensemble d'entraînement). L'optimisation d'un objectif défini à partir de cet échantillon permet de proposer un estimateur qui a une bonne performance sur l'ensemble d'apprentissage.
Cependant, on s'intéresse généralement à la capacité de généralisation de cet estimateur, ie sa performance sur une nouvelle observation. Avec l'émergence des grandes quantités de données depuis les années 2000, le lien entre l'algorithme utilisé et la capacité de généralisation de l'estimateur associé est devenu un sujet majeur.
Aujourd'hui, la question de la généralisation est encore une problématique de recherche majeure, tant pour ses aspects théoriques que pratiques.
Dans ce cours, on s'intéresse à l'ensemble des résultats tant théoriques que heuristiques qui permettent d'aborder ce problème.
Plus précisément, on étudiera dans un premier temps les différentes approches qui permettent d'obtenir des garanties théoriques quant à la généralisation des algorithmes, en particulier les approches liées à la complexité, à la stabilité et aux méthodes d'arrêt anticipé (Early stopping, approximation stochastique). Dans une seconde partie, on étudiera les approches heuristiques et les différences (expliquées ou constatées) dans le cadre du deep
learning (non convexe et over-parametrized).
Prérequis :
Connaissances élémentaires en optimisation convexe et statistiques. Avoir suivi
le cours d'optimisation pour les data-sciences permettra de mieux cerner les différents
algorithmes en jeu.
Objectifs
– Maîtriser les outils mathématiques pour la construction d’algorithmes d’optimisation convexe.
– Savoir démontrer la convergence des itérées.
– Savoir résoudre numériquement des problèmes d’optimisation comportant des termes de régularisation non dérivables et structurés.
– S’initier à l’optimisation distribuée et la programmation sous Hadoop Spark.
Descriptif du cours
Le cours n’a PAS vocation à fournir un répertoire d’algorithmes le plus abondant possible. Il s’agit de prendre du recul afin de comprendre les fondements mathématiques pour la construction d’une vaste classe de méthodes itératives. Après une introduction à la théorie de l’analyse convexe, nous verrons les conditions sous lesquelles on peut démontrer la convergence d’un algorithme du point fixe. Cette approche générale permet de d’obtenir, comme corollaire, la convergence de l’emblématique algorithme du gradient proximal. Elle permet également de construire d’autres algorithmes plus généraux : les méthodes primales-duales.
Ces méthodes permettent de résoudre des problèmes d’optimisation se rencontrant fréquemment en apprentissage statistique, traitement du signal, et traitement de l’image.
Sur le plan pédagogique, un juste compromis entre fondements théoriques et applications est visé. Deux TP permettront de mettre en application les méthodes numériques vues en cours. Ils incluent une initiation à l’optimisation distribuée et grande échelle, sous Hadoop Spark.
Période(s) et lieu(x) d’enseignement :
Période(s) :
Septembre - Octobre - Novembre - Décembre - Janvier.
Bootstrap and resampling methods in machine learning
Langues d’enseignement :
AN
ECTS :
2.5
Détail du volume horaire :
Cours :20
Modalités d'organisation et de suivi :
Coordinateur :
Objectifs pédagogiques visés :
Contenu :
The purpose of this course is (i) to present the original Bootstrap theory (this shall include application in parameter estimation, regression and functional estimation) and (ii) to study different bootstrap methods that are employed in some Machine learning algorithms. The content of the course will be mostly theoretical and students must have a strong background in mathematical statistics (basic probabilistic tools such as density, distribution, variance as well as convergence concepts including almost-sure and weak convergence).
Course 1. Nonparametric bootstrap (Efron’s method). Confidence interval for the empirical mean. Edgeworth development.
Course 2. Weighted bootstrap and Bayesien bootstrap. Prove the CLT in exercise.
Course 3. Bootstrap in regression. Parametric bootstrap.
Course 4. Empirical processes. Application to semiparametric model such as the Cox model. Local estimation (Nadaraya-Watson and k-NN).
Course 5. Cross validation.
Course 6. Bagging. Boosting.
Big Data avec Hadoop:
Apache Hadoop has been evolving as the Big Data platform on top of which multiple building blocks are being developed. This course presents the Hadoop ecosystem, Hadoop Distributed File System (HDFS) as well as many of the tools developed on it:
MapReduce and YARN, Hive and HBase, Kafka, Flume, NiFi, Flink, Oozie, etc.
Students will also discover various subjects such as security, resource allocation and data governance in Hadoop
Data Science avec Spark
Data Science with Spark:
Apache Spark is rapidly becoming the computation engine of choice for big data. This course presents:
Spark’s architecture and Spark Core: RDDs (Resilient Distributed Datasets), Transformations, and Actions
Spark and Structured Data: explore Spark SQL and Spark Data Frames
Spark Machine Learning libraries (MLLIB and ML)
Spark Streaming.
Prérequis :
Java, Python, Machine Learning and basic knowledge in Linux system administration and SQL.
Période(s) et lieu(x) d’enseignement :
Période(s) :
Septembre - Octobre - Novembre - Décembre - Janvier.
Bayesian Learning in partially observerd evolving graphical models
Langues d’enseignement :
AN
ECTS :
2.5
Détail du volume horaire :
Cours :20
Modalités d'organisation et de suivi :
Coordinateur :
Objectifs pédagogiques visés :
Contenu :
Objectives:
- Master the statistical learning framework and its challenges with dependent data.
- Know the inner mechanism of some classical Markovian models with missing data.
- Know how to implement (Python) the most classical Markov chain Monte Carlo algorithms: Metropolis-Hastings, Gibbs, particle-based MCMC.
- Understand some theoretical tools used to prove some convergence properties of Machine learning for such models (maximum likelihood inference, ergodicity of MCMC algorithms).
Objectifs
– Connaître le cadre des bandits stochastiques à nombre fini de bras, et le cadre de la prévision de suites arbitraires par agrégation de prédicteurs
– Maîtriser les techniques de preuves de bornes inférieures sur le regret
– Maîtriser les techniques de preuves de bornes supérieures sur le regret
Descriptif
Ce cours est un cours très technique, centré sur les preuves mathématiques sans programmation d’algorithmes . L’objectif est d’apprendre à poser et modéliser un problème d’apprentissage séquentiel, d’exhiber des algorithmes si possible computationnellement efficaces pour majorer le regret, et de montrer ensuite l’optimalité des bornes obtenues, en prouvant qu’aucun autre algorithme ne peut faire mieux en un sens à préciser.
Cette démarche (modélisation, algorithme pour la borne supérieure, borne inférieure universelle) est la démarche canonique pour publier des résultats sur un problème donné. Nous verrons également comment rédiger élégamment des preuves. Ce cours est donc fort intéressant pour ceux qui se destinent à une thèse de mathématiques.
Période(s) et lieu(x) d’enseignement :
Période(s) :
Septembre - Octobre - Novembre - Décembre - Janvier.
Lieu(x) :
ORSAY
Le S4 permet l'approfondissement théorique et la mise en oeuvre applicative. Le stage est obligatoire, les autres modules sont à la carte.
Many real-world applications involve objects with an explicit or implicit structure. Social networks, protein-protein interaction networks, molecules, DNA sequences and syntactic tags are instances of explicitly structured data while texts, images, videos, biomedical signals are examples with implicit structure. The focus of the course is solving learning and prediction tasks, estimation of dependency measures, and hypothesis testing under this complex/structured assumption.
The first part of the course provides a transversal and comprehensive overview on the recent advances and tools for this exploding field of structured output learning, including graphical models, max margin approaches as well as deep learning. The covered methods can be categorized into two sub-classes: scoring and energy-based techniques, and structured output regression algorithms.
The second part of the course gives an alternative view on the structured problem family, dealing with topics on dependency estimation and hypothesis testing. We are going to construct features of probability distributions which will enable to define easy-to-estimate independence measures and distances of random variables. As a byproduct, we will get nonparametric extensions of the classical t-test (two-sample test) and the Pearson correlation test (independence test).
Stochastic approximation and reinforcement learning
Langues d’enseignement :
AN
ECTS :
2.5
Détail du volume horaire :
Cours :20
Modalités d'organisation et de suivi :
Coordinateur :
Objectifs pédagogiques visés :
Contenu :
We first recall some fundamental results in probability theory (martingales, markov chains, etc.). Next, we use these results to study the asymptotic behavior of iterative stochastic algorithms i.e., algorithm for which each iteration depends on the realization of a random variable. This covers many applications (stochastic optimization for machine learning, reinforcement learning, game theory, etc.). We especially emphasize two applications : in optimization, we focus on the analysis of the stochastic gradient descent and its variants; in reinforcement learning, we analyze the convergence of temporal difference learning and Q-learning algorithms.
Program:
- Applicative context and mathematical foundations.
- The ODE method and almost sure convergence techniques in the decreasing step case.
- Weak convergence techniques and the constant step case.
- Fluctuations and saddle point avoidance.
- Applications: Convex and non-convex optimization, Reinforcement learning, Temporal Difference learning, Q-learning.
Première partie : Introduction à la recherche opérationnelle (2,5 ECTS, obligatoire pour les étudiants n’ayant pas suivi de cours de programmation linéaire en nombres entiers) :
– Algorithmique des graphes – Programmation linéaire – Programmation linéaire en nombres entiers
Seconde partie : RO et données massives (2,5 ECTS)
I – Approche d’optimisation discrète pour la classification associative
Présentation et implémentation d’une méthode de classification basée sur la résolution exacte de problèmes d’optimisation discrète permettant l’obtention d’un classifieur performant et interprétable.
II – Algorithmes pour les grands graphes de terrain
Comment classer des pages web par popularité ? Comment constituer des listes d’amis automatiquement sur Facebook ? Quels produits recommander à un utilisateur sur Amazon ? Nous verrons quelques algorithmes de graphe et comment les implémenter pour qu’ils passent à l’échelle (1G liens sur un laptop).
Methods for estimating multiple objects from sensor data are in increasing demand and are critically important for national security. For example, the increasing use of space for defence and civil applications makes it imperative to protect space-based infrastructure. Advanced surveillance capabilities are needed to be able to identify and monitor activities in earth’s orbit from a variety of different sensing platforms and modalities.
Considering systems of multiple objects with point process models adopted from the applied probability literature enables advanced models to be constructed in a simple way. This course draws together mathematical concepts from diverse domains to provide a strong grounding for developing new algorithms for practical applications.
This course will investigate mathematical concepts in multiobject estimation to enable prospective researchers to better understand and contribute to innovations in this field. The goal is to develop a broad mathematical perspective for mathematical modelling for multi-object estimation and explore the literature in spatial statistics and point processes to aid new advances in sensor fusion for the development of future technologies for autonomous systems.
Mixed effects models: methods, algorithms and applications in life sciences
Langues d’enseignement :
AN
ECTS :
2.5
Détail du volume horaire :
Cours :20
Modalités d'organisation et de suivi :
Coordinateur :
Objectifs pédagogiques visés :
Contenu :
Population models describe biological and physical phenomena observed in each of a set of individuals, and also the variability between individuals. This approach finds its place in domains like pharmacometrics when we need to quantitatively describe interactions between diseases, drugs and patients. This means developing models that take into account that different patients react differently to the same disease and the same drug. The population approach can be formulated in statistical terms using mixed effects models.
Such framework allows one to represent models for many different data types including continuous, categorical, count and time-to-event data. This opens the way for the use of quite generic methods for modeling these diverse data types. In particular, the SAEM (Stochastic Approximation of EM) algorithm is extremely efficient for maximum likelihood estimation and has been proven to converge in quite general settings. SAMBA (Stochastic Approximation for Model Building Algorithm) allows to automatically build a mixed effects model by optimizing a penalized likelihood criterion in an iterative way. Once the model is built, it must be validated, i.e. each of the hypotheses made on the model must be tested. We will see how to construct unbiased hypothesis tests in the framework of mixed effects models.
All these algorithms are implemented in software tools (R packages, Monolix) that will be used for modelling and simulating pharmacokinetics and pharmacodynamics, infectious disease or tumor growth processes.
In machine learning, there has been great progress in obtaining powerful predictive models, but these models rely on correlations between variables and do not allow for an understanding of the underlying mechanisms or how to intervene on the system for achieve a certain goal. The concepts of causality are fundamental to have levers for action, to formulate recommendations and to answer the following questions: "what would happen if" we had acted differently?
The questions of causal inference arise in many areas (socio-economics, politics, psychology, medicine, etc.): depending on the context which drug to use to improve the patient's health? what marketing strategy for product placement should be used to influence consumer buying behavior, etc. The formalism of causal inference makes it possible to study these questions as a problem of classical statistical inference. The gold standard for estimating the effect of treatment is a randomized controlled trial (RCT) which is, for example, mandatory for the authorization of new drugs in pharmaceutical and medical research. However, RCTs are generally very expensive in terms of time and financial costs, and in some areas such as economics or political science, it is often not possible to implement an RCT, for example to assess the effectiveness of a given policy.
The aim of this course is to present the available methods to perform causal inference from observational data. We focus on both the theoritical framework and practical aspects (available software solution).
Kernel Techniques with Information Theoretical Applications
Langues d’enseignement :
AN
ECTS :
2.5
Détail du volume horaire :
Cours :20
Modalités d'organisation et de suivi :
Coordinateur :
Objectifs pédagogiques visés :
Contenu :
The objective is to master the mathematical tools of learning with kernels, with particular focus on the estimation of divergence and statistical independence measures, hypothesis testing on structured domains, and their applications.
1- The first part is dedicated to the construction of kernels, the associated reproducing kernel Hilbert space (RKHS), and their fundamental properties. We will cover more classical applications of these tools in kernel based dimensionality reduction and supervised learning such as kernel (i) principal component analysis (KPCA), (ii) ridge regression, (iii) classification, or (iv) (structured) sparse coding.
2- The second part of the class is geared towards applications of kernel techniques in divergence/dependency estimation and hypothesis testing. We are going to construct features of probability distributions which will enable us to define easy-to-estimate distances of random variables and independence measures. As a byproduct, we will get non-parametric extensions of the classical t-test (two-sample test), the Pearson correlation test (independence test), and goodness-of-fit test. We will cover both quadratic-time and recent accelerated (linear-time) techniques. In this part we are going to learn about kernel canonical correlation analysis (KCCA), mean embedding, maximum mean discrepancy (MMD), integral probability metrics, characteristic and universal kernels, Hilbert-Schmidt independence criterion (HSIC), Stein discrepancy, energy distance and distance covariance.
Ce cours abordera le paradigme de la statistique en grande dimension principalement autour de trois thématiques:
- Compressed sensing: problème de reconstruction exacte et approchée d’un signal de grande dimension à partir d'un petit nombre de mesures linéaires de ce vecteur sachant qu'il a un petit support;
-complétion de matrice / système de recommandation: comment compléter une matrice à partir de l’observation d’un petit nombre de ses entrées sachant que cette matrice est de faible rang;
-détection de communauté dans les graphes: trouver les sous-graphes de forte densité dans des ’grands’ graphes.
Intitulé de l’UE en anglais :
Geometric methods in machine learning
ECTS :
2.5
Détail du volume horaire :
Cours :20
Modalités d'organisation et de suivi :
Coordinateur :
Objectifs pédagogiques visés :
Contenu :
This course will present recent methodological advances in machine learning that all have in common that they rely on geometric principles, and particularly on the idea that data analysis can be carried out using pairwise comparisons between data points. We will cover in particular the cases where such pairwise comparisons are distances or kernel similarities. The course will answer the following questions:
1. Visualization of metric data: how can we represent and visualize data that is available under the form of a matrix of pairwise distances or similarities?
2. Learning metrics: Given a task at hand (notably classification), how can we choose a "good" metric or kernel to improve the performance on that task?
3. Metrics and kernels for exotic data-types (e.g. text, sequences, time-series, shapes, histograms): how can we choose a metrics or a kernel that performs well in supervised tasks? How can we ensure that they can be seamlessly used in a learning problem (e.g. auto-differentiated with modern frameworks such as tensorflow or pytorch)?.