Publié le 12 février 2019
Bourse Jean d'Alembert
image-test-scientifique

Pierre Zweigenbaum est directeur de recherche au Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (CNRS-Limsi). En 2018, grâce à la bourse d’Alembert, il invite Kevin Cohen, linguiste à l’Université du Colorado, spécialiste comme lui du traitement automatique du langage. Leur collaboration a permis de modéliser des programmes d’analyse automatique des causes de décès et de les évaluer à l’échelle de plusieurs pays.

« Entre informatique et linguistique, le traitement automatique des langues est une des branches de l’intelligence artificielle » explique Pierre Zweigenbaum. L’enjeu principal consiste à transformer l’utilisation d’une langue, dans un article par exemple, en données numériques, exploitables par de l’informatique. La machine devra lever les ambiguïtés de certains mots liées aux contextes d’énonciation. Les domaines applicatifs sont nombreux mais font appel aux fondamentaux combinés des deux disciplines : la linguistique identifie les contextes et l’informatique trouve l’algorithme qui « désambiguïse » l’usage des mots dans ce contexte.

Une machine à lire plus vite

Cibler un corpus pour en faire une analyse sémantique à grande échelle de manière automatique est la principale activité de l’équipe (ILES Information Langue Écrite et Signée) de Pierre Zweigenbaum. « Tout ce qui se dit sur un sujet donné à l’état naturel de la langue est porteur de connaissances. Nous extrayons des informations disponibles sous une forme informatisée (presse écrite, articles scientifiques, réseaux sociaux, forums, etc.) pour les convertir en une forme structurée, « lisible » par un ordinateur. Venant de l’APHP, Pierre Zweignebaum s’est fait une spécialité du secteur biomédical qui selon lui « produit énormément de connaissances. Avec la course à la publication, dans le secteur de la génomique par exemple, les articles sont publiés plus vite que les spécialistes ne peuvent les lire pour mettre à jour leurs connaissances. » L’enjeu est alors de créer des « machines à lire » pour extraire rapidement des corpus des informations-clés. « A chaque fois il y a un schéma qu’on veut instancier : on définit un type de tâche dont on cible précisément l’information à collecter, comme par exemple les circonstances de l’influence d’un gène sur une protéine. Nous délimitons le corpus puis nous mettons au point un algorithme. »

Des méthodes réplicables

« En sciences, nous nous demandons constamment comment rendre les recherches reproductibles. Or nous nous sommes rendu compte que les mêmes algorithmes appliqués à des corpus identiques ne produisaient pas toujours les mêmes résultats », constate Pierre Zweigenbaum. Ce sujet de la « réplicabilité » des méthodes d’analyse utilisées sur les mêmes corpus intéresse particulièrement Kevin Cohen, linguiste reconnu à l’Université du Colorado. Le chercheur américain a fait sa spécialité du traitement automatique des langues, appliqué au domaine médical. Elle est très complémentaire de celles de l’équipe ILES. « J’ai tout de suite pensé à lui lorsque j’ai répondu à l’appel d’offres d’Alembert, raconte Pierre Zweigenbaum, car il existe peu de compétences linguistiques à Saclay ». Dans le cadre d’un projet du Centre d'épidémiologie sur les causes médicales de décès (CépiDC - Centre d'épidémiologie sur les causes médicales de décès est une unité l'Inserm chargée, depuis 50 ans, de la production de la statistique sur les décès en France.), le binôme décide de travailler sur les causes de décès dont les statistiques doivent correspondre aux standards de la classification des maladies de l’OMS. L’enjeu est d’aller plus vite dans la tâche qui consiste à passer des écrits des médecins sur les causes des décès à leur encodage informatique (actuellement, le délai est de 18 mois), puis de comparer et d’évaluer les différents algorithmes mis au point par une quarantaine d’équipes sur des certificats de décès français, américains, italiens et hongrois. En trois ans, une centaine de chercheurs ont travaillé sur des centaines de milliers de certificats de décès. « Nous avons fait le tour des méthodes utilisées au travers de quatre langues ». Les résultats ont fait l’objet de la publication de trois articles dont Kevin Cohen est co-auteur.

FOCUS Kevin Bretonnel Cohen

Appréciant la France et en particulier son environnement de la recherche, Kevin Cohen a bénéficié d’une bourse d’Alembert pour séjourner à l’Université Paris-Saclay en 2017 et 2018. Chercheur au département de linguistique de l’Université du Colorado à Denver, il a publié de nombreux articles sur ses travaux en extraction d’information dans les textes biomédicaux. « Très heureux » d’avoir collaboré avec les équipes du Limsi dont il a particulièrement apprécié « l’ouverture du débat scientifique ». Ayant à cœur d’être « intégré » complètement, il s’est fait un point d’honneur à progresser en français et a ainsi pu animer dans cette langue des séminaires pour les doctorants du laboratoire.

FOCUS Pierre Zweigenbaum

Laboratoire de recherche en Informatique pluridisciplinaire, le Limsi rassemble des chercheurs et enseignants-chercheurs relevant des sciences de l’ingénieur et des sciences de l’information ainsi que des sciences du vivant et des sciences humaines et sociales.  Le champ scientifique ainsi couvert est celui des sciences et technologies de la langue au sens large, l’interaction homme-machine, la réalité virtuelle et augmentée ainsi que la mécanique des fluides et des transferts, et l’énergétique. Au sein du Limsi, deux équipes travaillent sur le traitement automatique des langues, TLP (Traitement du Langage Parlé) et ILES (Information Langue Écrite et Signée) dont Pierre Zweigenbaum est responsable.  « Il existe de nombreuses compétences dans tous les domaines de l’analyse automatique des langues au Limsi sur lesquelles je peux m’appuyer pour monter des projets de recherche, c’est une des forces de l’Université Paris-Saclay ».