Le langage sera-t-il décrypté par les nouvelles technologies ?

Recherche Article publié le 21 juillet 2022 , mis à jour le 21 juillet 2022

Comment fonctionne le langage ? D'abord saisie par les linguistes et les philosophes, puis par les neuroscientifiques, la question fascine depuis toujours les scientifiques de toutes les disciplines. Aujourd'hui, la recherche sur ce sujet progresse à pas de géant grâce à l'apport de nouvelles technologies : imagerie cérébrale, génomique, intelligence artificielle, traduction automatique... Dans les laboratoires de l’Université Paris-Saclay, chercheurs et chercheuses décortiquent chaque aspect du langage pour en comprendre l'essence profonde et développer des outils pour la société.

La plupart des êtres vivants sont capables de communiquer entre eux par des messages d'alerte ou des signaux affectifs. Mais seul l'être humain possède les fonctions cognitives nécessaires pour exprimer des concepts complexes et abstraits grâce au langage. Une singularité que les biologistes cherchent à expliquer à l’aide du génome humain : pour elles et eux, cette capacité à dialoguer trouve son origine dans l’ADN du noyau des cellules, support de l'information génétique qui façonne le corps, ses organes et leurs capacités.

Quels sont les gènes du langage ?

Si les scientifiques ont identifié l'emplacement sur les chromosomes de la plupart des gènes humains, ils n’en connaissent pourtant pas toutes les fonctions, en particulier celles liées au langage. Pour combler cette lacune, l’équipe Brainomics du laboratoire NeuroSpin (Univ. Paris-Saclay, CEA) exploite une technique très récente : l’imagerie génétique. Elle traque les caractéristiques morphologiques et fonctionnelles du cerveau, et les lie à des variations du génome présentes dans la population humaine.

On sait depuis longtemps que les tâches du langage mobilisent des zones bien particulières du cerveau. Par exemple, selon la région touchée, certaines lésions cérébrales entraînent des difficultés à lire, comprendre ou encore parler. Ces zones sont désormais cartographiées avec une résolution spatiale et temporelle très fine grâce à l’imagerie cérébrale. L’une des techniques d’imagerie les plus célèbres, l’imagerie par résonance magnétique fonctionnelle (IRMf), détecte les variations d'oxygène dans le cerveau grâce à des ondes électromagnétiques. Les neurones situés dans les régions qui travaillent consomment plus d’oxygène, ce qui met en évidence l’activité cérébrale.

Le cerveau n’arrête jamais de bavarder

Dans des travaux récents, Cathy Philippe et Yasmina Mekki de Brainomics ont observé par IMRf les régions du cerveau qui sont connues pour être associées au langage. Mais elles l’ont fait dans un cadre un peu particulier : chez des personnes au repos. « Même lorsqu’on ne demande pas au cerveau de réaliser une tâche cognitive, on observe des activations du réseau neuronal. Ces activations sont plus faibles et plus fugaces en IRMf de repos qu’en IRMf classique, mais le cerveau a toujours une activité résiduelle », explique Cathy Philippe. Les chercheuses ont exploité des enregistrements de l'activité neuronale de 30 000 individus britanniques au repos accompagnés de données génomiques, et mis à la disposition des scientifiques du monde entier.

Leur étude statistique explore les connectivités fonctionnelles : des régions, telles que des zones impliquées dans la syntaxe et la phonologie, qui travaillent en collaboration. Les chercheuses ont passé au crible les variations individuelles des 300 connectivités connues liées au langage. En croisant ces éléments avec des mutations génomiques présentes chez les participantes et les participants, celles liées au polymorphisme nucléotidique (SNPs), elles ont identifié les positions chromosomiques d'une vingtaine de gènes impliqués dans le langage. « Le langage étant un processus très complexe, de nombreux gènes lui sont associés », signale Yasmina Mekki. Leur travail va même plus dans les détails : « Nous avons relié la régulation du gène EPHA3 à la composante sémantique du langage », annoncent les chercheuses.

Comment deviner la fin d'une phrase ?

Or ces connectivités fonctionnelles sont d’une grande importance : elles mettent en évidence les capacités incroyables du cerveau. Syntaxe, phonologie ou sémantique, l’organe traite une multitude de tâches complexes en un éclair, sans que l’être humain n’ait l'impression de faire le moindre effort. C'est donc tout naturellement que l'intelligence artificielle (IA) cherche, dès les années 1940, à reproduire l'architecture du cerveau via la construction de réseaux de neurones artificiels.

Le langage étant considéré comme un marqueur de l'intelligence, la société le perçoit comme un indicateur des progrès de l’intelligence artificielle. Et le fantasme d'une machine douée de parole perdure ainsi depuis les balbutiements de l’informatique et l'invention du test d'imitation d'Alan Turing, jusqu'à la popularisation récente des smartphones et des enceintes connectées. Cet engouement est d’ailleurs à l’origine de nombreuses avancées de l’IA dans le domaine du langage : traitement automatique des langues, reconnaissance vocale, synthèse de texte ou encore traduction.

Pour opérer ces évolutions, il est commun de prendre comme point de départ un modèle préexistant, capable d'analyser des textes de langage naturel. Conçu pour mimer plus ou moins fidèlement les performances linguistiques humaines, ce modèle (BERT ou GPT-2, par exemple) passe ensuite par une phase d'apprentissage non supervisé. En utilisant un large corpus de textes, comme ceux présents sur Wikipédia, il devine la fin d'une phrase en n'ayant accès qu'aux premiers mots. Petit à petit, la machine établit des liens entre les mots et améliore sa capacité de prédiction. L'avantage de cette démarche est qu’il est directement possible de comparer les performances de la machine à celles d'un être humain. Si on ne fournit que peu de mots, par exemple « Le chien... », la mission se révèle compliquée à réaliser à la fois pour la machine et l’être humain. En revanche, plus ils reçoivent d'information, plus le taux de succès devient élevé. Avec une phrase commençant par « Le chien poursuit le... », un modèle performant et assez entraîné est en capacité d'établir que la combinaison des mots « chien » et « poursuivre » se trouve très souvent liée au mot « chat ».

Un dialogue productif entre humains et machines

Tout n’est pas résolu pour autant. « Même si les êtres humains et les machines arrivent à des résultats comparables, peut-on dire qu’ils ont utilisé les mêmes mécanismes intermédiaires pour y arriver ? », s’interrogent Charlotte Caucheteux et Alexandre Gramfort. Au sein de l'équipe MIND (Univ. Paris-Saclay, Inria, CEA) intégrée à NeuroSpin, ces deux chercheurs comparent cerveaux humains et réseaux de neurones artificiels. Grâce à l'IRMf, ils établissent une cartographie spatiale du cerveau et la complètent avec une analyse temporelle apportée par la magnétoencéphalographie (MEG), qui capte les champs magnétiques générés par les neurones. « Nous ne connaissons pas encore parfaitement les représentations intermédiaires effectuées par le cerveau lors du traitement des langages, expliquent les deux scientifiques. Mais nous avons divisé le processus cognitif en trois étapes d'abstraction croissante. »

Lors de la lecture d'une phrase, le niveau visuel s'active en premier, dans les cent premières millisecondes. Puis le niveau lexical identifie le mot qui vient d'être lu. Enfin, le niveau compositionnel replace le mot dans le contexte de la phrase. « Nous montrons que ces trois niveaux de représentation correspondent également à trois types d’algorithmes : les algorithmes convolutionnels de traitement d’image, les algorithmes lexicaux de traitement de mots isolés, et les modèles de langage comme GPT-2 », révèle Charlotte Caucheteux.

Et c’est pour concevoir des algorithmes encore plus semblables au cerveau que les scientifiques de l’équipe MIND modifient les architectures des réseaux de neurone et les tâches d'entraînement de prédiction à long terme. Alexandre Gramfort résume : « L'interaction entre neurosciences et IA est un processus bidirectionnel. L'IA peut modéliser le cerveau humain, ce qui diminue la dépendance aux acquisitions longues et coûteuses d'imagerie cérébrale. En retour, une meilleure compréhension du cerveau nous aide à améliorer l'IA. »

Trouver le bon accord

Les interactions et l’analogie entre machine et être humain ne s’arrêtent pas là. « Tout comme ces algorithmes, le cerveau humain essaye en permanence de prédire le futur : la fin d'une phrase, le reste d'une histoire... », commente Yair Lakretz, de l'équipe UNICOG de NeuroSpin et qui étudie les similarités entre humains et machines. Il estime que l’observation des algorithmes les plus performants lèverait le voile sur ce qui se passe dans les têtes humaines. « Pour comprendre la circulation sanguine ou le diabète, les biologistes étudient des souris de laboratoire. Mais il n'existe pas de modèle animal du langage. Dans ce cas, pourquoi ne pas créer un modèle de neurones artificiels ? », suggère le chercheur.

Après avoir lui aussi entraîné ses modèles à compléter des phrases, Yair Lakretz les confronte à un autre défi : des quiz d'accords grammaticaux. Les modèles qu’il étudie sont généralement assez bons pour des phrases contenant une seule dépendance. Ils choisissent par exemple « Les clés que l'homme tient sont... » plutôt que « Les clés que l'homme tient est... », et réussissent à identifier le sujet avec lequel s’accorde le verbe, même si plusieurs mots les séparent.

Selon les chercheurs et les chercheuses de NeuroSpin, les réseaux de neurones artificiels gardent en mémoire les mots rencontrés en début de phrase, de façon similaire au cerveau humain quand un individu parcourt un texte. Mais si on leur fournit une phrase plus complexe, telle que « Les clés que l'homme qui est près de la table tient... », les modèles donnent alors tous leur langue au chat. En effet, ils ne possèdent que deux unités de mémorisation, rapidement surchargées, ce qui les rend très instables. Chez les humains, la perte d'efficacité est au contraire plus graduelle. Ils commettent des erreurs, mais répondent toujours juste dans plus de la moitié des cas.

« Même si le modèle est une bonne approximation, il y a potentiellement quelque chose de très différent dans la façon qu’ont les algorithmes et les humains de traiter le langage, nuance le chercheur. S'il est étonnant de constater les ressemblances entre réseaux neuronaux artificiels et humains, il est tout aussi passionnant de s'intéresser à leurs différences. »

La récursivité de la pensée humaine

Dans la phrase « Elle faisait partie d’une de ces deux moitiés de l’humanité chez qui la curiosité qu’a l’autre moitié pour les êtres qu’elle ne connaît pas est remplacée par l’intérêt pour les êtres qu’elle connaît », un être humain est apte à comprendre cette syntaxe complexe en la relisant, si besoin, plusieurs fois. Chose que les modèles ne sont pas prêts à faire : il leur faudra encore attendre avant de s'attaquer à des textes de Marcel Proust !

« La compréhension du langage par le cerveau humain repose sur sa capacité à être récursif », annonce Yair Lakretz de NeuroSpin. La récursivité est la faculté de répéter une structure à l'intérieur de cette même structure. Par exemple, la proposition « La voiture est rouge » peut en contenir une deuxième : « La voiture qui est garée devant la maison est rouge ». « La récursivité est constitutive des langues humaines, même si elle est plus apparente dans certaines de ces langues que dans d’autres, comme dans la langue des signes française », explique Michael Filhol, de l’équipe Information, langue écrite et signée (ILES) du Laboratoire interdisciplinaire des sciences du numérique (LISN - Univ. Paris-Saclay, CNRS, CentraleSupélec, Inria).

C’est là toute la différence entre humains et machines. « Les humains ont la compétence de comprendre une phrase très récursive, mais sont limités par la capacité de leur mémoire de travail à court terme », avance Yair Lakretz de NeuroSpin. Au contraire, les contre-performances des modèles s’expliquent par leur incapacité à gérer la récursivité. Si un jour l'IA parvenait à acquérir cette compétence, elle deviendrait sûrement plus performante. Et assimilerait peut-être les textes littéraires.

Langage, langues et traduction

Autre fait marquant : chez les êtres humains, la capacité cognitive universelle du langage s'exprime sous la forme d’une multitude de langues qui ont émergé au gré des nécessités et des cultures locales. À défaut de toutes les étudier, les scientifiques font le choix d’une langue ou d’une poignée de langues sur laquelle mener leurs travaux. Ainsi, Charlotte Caucheteux et Alexandre Gramfort entraînent leurs algorithmes en néerlandais, et Yair Lakretz les siens en anglais et en italien. « Même si la plupart des études portent sur l'anglais, la langue internationale de la recherche, il est intéressant d'étudier les particularités linguistiques, telles que le genre, en français, ou les mots composés, en allemand », explique-t-il.

Tout un pan de la recherche porte d’ailleurs sur la traduction, et grâce aux avancées technologiques, ce travail ne repose plus uniquement sur les épaules d’interprètes, de traducteurs et de traductrices. Le traitement automatique des langues a permis de développer des outils de traduction en ligne utilisés par des millions de personnes. En parallèle des grandes entreprises de la Silicon Valley telles que celles du GAFAM, les scientifiques de l'Université Paris Saclay apportent également leur pierre à l'édifice. « L'objectif final est de créer des algorithmes auxquels soumettre n’importe quel texte écrit ou extrait sonore, et qu’ils soient en mesure de le traduire pour le restituer à l'oral ou à l'écrit. Au LISN, nous évaluons la qualité des algorithmes existants, en nous intéressant en particulier à des tâches de traduction et d'alignement automatique de textes parallèles. Nous concevons également de nouvelles architectures neuronales pour des tâches multilingues », explique François Yvon, membre de l’équipe Traitement du langage parlé (TLP) au LISN et spécialiste de ce type de problématiques.

En « voix » de disparition

François Yvon s'intéresse tout particulièrement à la sauvegarde de langues menacées d'extinction. Informaticiens, informaticiennes et linguistes travaillent main dans la main pour documenter ces langues peu connues et pour lesquelles il n'existe souvent que des fragments de traduction. Les linguistes savent repérer leurs similarités et leurs régularités afin de décrypter leur fonctionnement global, mais ce travail s’avère long et fastidieux. Les algorithmes viennent désormais assister les spécialistes dans leur mission : ils retranscrivent un enregistrement en notation phonétique, puis délimitent des unités sémantiques. Chaque algorithme transcrit ainsi un document audio en mots écrits porteurs de sens, plus faciles à analyser. L'IA ne travaille pas seule mais facilite le travail du ou de la linguiste, qui n'a plus qu'à vérifier la validité des annotations automatiques produites par la machine.

Un avatar qui parle par signes

Dans le cas de la langue des signes française (LSF), bien plus utilisée que ces langues menacées, aucun système de notation écrite n’a pourtant été adopté par la communauté. « Si l'on souhaite prendre en note un discours de LSF, trois options coexistent aujourd’hui. On peut le rédiger en français écrit mais cela requiert une gymnastique de traduction, et les caractéristiques de la LSF, telles que sa syntaxe ou sa récursivité, sont perdues. Il est aussi possible d’utiliser l'un des systèmes existants d’écriture pour la langue des signes, toutefois peu employés en pratique. La troisième option est de se servir d’une notation personnelle », soulève Michael Filhol. Le chercheur a compilé de nombreux exemples de notes individuelles et spontanées. Alors que les systèmes existants sont uniquement phonographiques et retranscrivent les mouvements de bras, main ou visage en pictogrammes, les notes personnelles intègrent une part significative de représentations logographiques, c’est-à-dire liées à la signification des mots.

Forts de cette observation, le chercheur et son équipe construisent une nouvelle formalisation graphique, en collaboration avec des locuteurs et locutrices de LSF. À terme, elle s’utilisera dans des logiciels comparables à ceux de traitement de texte ou pour produire une lecture par un avatar animé. Michael Filhol travaille déjà en collaboration avec une équipe de recherche de Chicago pour le développement d'un avatar prénommé Paula, qui produit de la langue des signes la plus naturelle possible.

En mêlant langues et technologies, les recherches réalisées entendent satisfaire bien des demandes sociétales. Elles continueront à offrir des réponses aux mécanismes cognitifs humains, et de nouveaux outils pour mieux appréhender le langage.

Publications :

Yasmina Mekki et al. "The genetic architecture of language functional connectivity." NeuroImage vol. 249 (2022): 118795.
Caucheteux, C., King, JR. Brains and algorithms partially converge in natural language processing. Communications Biology 5, 134 (2022).
Charlotte Caucheteux, Alexandre Gramfort, and Jean-Remi King. Disentangling syntax and semantics in the brain with deep networks. International Conference on Machine Learning. PMLR, (2021).
Yair Lakretz, Dieuwke Hupkes, Alessandra Vergallito, Marco Marelli, Marco Baroni, Stanislas Dehaene. Mechanisms for handling nested dependencies in neural-network language models and humans. Cognition, Volume 213, 2021, 104699, ISSN 0010-0277.
Gilles Adda, Sebastian Stüker, Martine Adda-Decker, Odette Ambouroue, Laurent Besacier, David Blachon, Hélène Bonneau-Maynard, Pierre Godard, Fatima Hamlaoui, Dmitry Idiatov, Guy-Noël Kouarata, Lori Lamel, Emmanuel-Moselly Makasso, Annie Rialland, Mark Van de Velde, François Yvon, Sabine Zerbian. Breaking the Unwritten Language Barrier: The BULB Project. Procedia Computer Science, Volume 81, 2016, Pages 8-14, ISSN 1877-0509.
McDonald, J., Filhol, M. Natural synthesis of productive forms from structured descriptions of sign language. Machine Translation 35, 363–386 (2021).