Cirphles
�cole normale sup�rieure CNRS
> CIEPFC > Publications > Patrice Maniglier > Parlez-vous connexionniste ?

Paru dans la revue "Minotaure", n°1, printemps 2003.

« Intelligent comme un ordinateur » : venant de la part d’un informaticien, ce compliment devrait paraître aussi flatteur que venant de la part d’un routier : « belle comme un camion ». Pourtant, il semble bien que nombreux soient ceux qui aient fini par considérer l’ordinateur non plus seulement comme la métaphore du cerveau, mais bien comme sa mesure. De la thèse (tout à fait défendable) selon laquelle « toute machine capable de simuler un comportement que nous jugerions intelligent, est effectivement intelligente », on est passé à la suivante : « tout ce qui n’est pas susceptible d’être simulé par une machine n’est pas intelligent ». Le champ des « sciences cognitives » est né avec cette métaphore inversée. « Comprendre » un processus intelligent, cela revenait dans le fond à montrer qu’on était capable de le faire reproduire par un ordinateur.

Les linguistes n’ont pas échappé à l’injonction. Il faut dire que depuis Descartes au moins, le langage est le critère de la pensée, la meilleure preuve que les hommes ont (contrairement aux machines et aux animaux) une âme capable de diriger les mouvements de leur corps. Non pas (ajoutait le philosophe) que les animaux ne puissent exprimer une situation concrète par des signes, mais ils ne font alors que réagir ; les hommes en revanche peuvent composer ces signes, et ainsi s’émanciper tout à fait des situations immédiates pour produire des significations originales. La liberté combinatoire du langage, c’est la preuve de la liberté tout court.

L’aubaine, c’est que l’ordinateur est précisément capable de simuler un tel comportement. A deux conditions : l’une portant sur la conception de la machine, l’autre sur celle du langage.

Les ordinateurs que nous connaissons dérivent en effet d’un concept de machine, qui met en parallèle d’un côté les propositions de la logique et de l’autre les états d’un mécanisme. Démontrer, c’est substituer, à une proposition donnée sous la forme d’une séquence de symboles, une autre, en vertu de règles strictes, et répéter l’opération jusqu’à ce qu’elle soit identique à une séquence que l’on tient elle pour vraie, ou que l’on a posée comme telle (axiome). A chacune des étapes correspond, du côté de la machine, un état, et ceux-ci s’enchaînent de manière linéaire jusqu’à un état final, où elle s’arrête. On voit que la machine peut penser, mais uniquement si l’on fait abstraction de toute interprétation de ces états, de même que la logique se contente de préserver la valeur de vérité des propositions, sans pouvoir statuer sur leur vérité finale.

Or il se trouve que Chomsky a précisément attribué au langage ces deux caractères (linéaire et syntaxique) en le définissant non comme un moyen de communication, mais comme un système de règles permettant d’obtenir, à partir d’un nombre fini de représentations données, un nombre infini d’autres représentations imprévues. On dispose d’un côté d’un lexique, où l’on mémorise les formes verbales sous une représentation particulière, et de l’autre des règles, qui les transforment pour leur attribuer certaines valeurs syntaxiques. Par exemple le verbe « être » en latin donne au présent : sum, es, est, sumus, estis, sunt. Le jeu consiste à montrer qu’il est stocké dans la mémoire sous la forme « S », qu’une première règle générale (syntaxique) stipule que la première personne du singulier est construite par adjonction à tout radical d’un « M », et qu’une autre règle (phonologique celle-là) dit que doit s’intercaler un « U » (prononcé « ou ») entre tout « S » et tout « M ». Il faut bien entendu que ces règles soient valables en latin en toutes les occasions, ou que les exceptions s’expliquent par d’autres règles. On a gagné de la place dans la mémoire, et de la simplicité dans le modèle. On a aussi, par la même occasion, rapproché l’image du langage de celle du calculateur symbolique. Le paradigme cognitiviste est né.

Or, voilà que, depuis maintenant une quinzaine d’années, la métaphore est remise en question. Certes, cela ne signifie pas que le projet de faire des « machines à penser » soit abandonné. Tout au contraire. Mais ce qui est mis en question, c’est la représentation de la pensée comme processus enchaînant des états considérés comme des séquences de symboles, non interprétées mais transformées en vertu de règles. La contestation vient aussi bien du côté de la neurologie que de la linguistique.

De la neurologie d’abord : ce qu’on sait sur le cerveau ne l’apparente pas le moins du monde à un ordinateur. D’abord, et sans jeu de mots, comparé aux calculateurs électroniques, on a le cerveau lent. De plus, il est organisé non pas de manière linéaire, mais par réseaux de neurones, et même activation d’aires multiples, qui opèrent « en parallèle » (et non pas l’une après l’autre en se refilant des configurations comme dans une usine). Enfin les processus neuronaux ne paraissent pas binaires (cellule activée ou non), mais au contraire continus (plus ou moins). C’est pour être fidèle à cette représentation du cerveau que se sont construits des concepts de machine alternatifs, connus sous le nom de « réseaux connexionnistes », et des tentatives pour simuler un calcul par ces réseaux. Le réseau « apprend » à calculer, en comparant les résultats obtenus d’abord par une activation au hasard de ses neurones avec les résultats souhaités, et en reconfigurant en conséquence les liens entre les neurones : il renforce certains (l’activation des unes entraînera celle des autres et réciproquement) et affaiblit les autres (inhibitions). Ce n’est que dans les années 80 que l’on a pu montrer que de tels réseaux pouvaient apprendre à calculer des fonctions vraiment intéressantes, à condition qu’ils contiennent plusieurs couches.

Mais le coup décisif est venu de la phonologie. Cette discipline s’occupe de phénomènes comme celui-ci : comment se fait-il que l’on dise « inutile » avec un « i » et « infâme » avec une nasale ? En grammaire générative, on procède comme toujours : on postule qu’il y a une représentation sous-jacente commune aux deux « in- », et une règle qui dit que l’ensemble (I+N) devient une nasale devant une consonne. En l’occurrence, la règle ne pose aucun problème en français. Ce n’est pas toujours le cas.

Les phénomènes d’accentuation par exemple sont redoutables. Disons seulement que le caractère séquentiel de l’application des règles marche très mal. On a plutôt l’impression d’une bouillie de règles, d’une application simultanée et même contradictoire. On ne peut plus se représenter une dérivation tranquille allant de la forme sous-jacente à la performance, transformant mécaniquement chaque étape en fonction de règles prédéterminées : il semble parfois qu’une règle s’applique à un état de la dérivation comme si elle se souvenait que la représentation s’était trouvée dans le contexte qui lui aurait permis de s’appliquer quelques étapes plus haut…

Au contraire, on a pu montrer qu’un réseau connexionniste est capable d’apprendre en un temps bref à placer correctement l’accent. Il procède en attribuant une valeur d’accentuation à chaque position de la chaîne sonore, définie par la valeur absolue du son (selon qu’elle est une voyelle ou une consonne, ouverte ou fermée, etc.), puis une valeur relative en fonction des positions antérieure et postérieure. Au commencement de l’apprentissage, elles sont égales, et l’apprentissage consiste précisément à les rectifier. Par exemple, si une suite de trois positions (A-B-C) donne en valeur absolue : A=O,2, B=0,8 et C=1, mais qu’une position accentuée diminue celle qui la précède, l’accent se trouvera être non pas uniformément montant, mais descendant puis remontant (par exemple avec A=0,7, B=0,1, C=1,1). De tels réseaux sont aussi capables de reconnaître la distinction voyelle-consonne, puis entre les voyelles elles-mêmes.

Il faut remarquer que le comportement de ces réseaux est statistique : il n’y a pas une règle univoque sur des éléments discontinus, mais des principes régulateurs plus ou moins contradictoires sur des masses interconnectées. D’où une toute autre image du langage : parler ne consiste plus à ramener le flux sonore à des représentations discrètes qui sont des séquences de catégories d’éléments (ainsi aba, c’est la catégorie a, suivie de la catégorie b, etc.), mais à retrouver à chaque fois une position d’équilibre à l’occasion d’excitations de nature diverses. Du coup, ce modèle permet de rendre compte d’une propriété essentielle des langues : leur variabilité.

Car les langues changent, et c’est bien là une chose inexplicable si l’on se représente une langue comme un calculateur symbolique. Vous aurez beau le faire marcher, votre ordinateur peut se détraquer, mais non pas inventer de nouveaux logiciels. Au contraire, un modèle connexionniste s’adapte, indifférent à toute règle générale, fournissant à chaque fois la solution la plus simple. Si par exemple dans une région on prononce les sons autrement (on dit « fôcher » au lieu de « fâcher »), l’accentuation varie en conséquence. De plus, il est en relation directe avec son environnement, autrement dit le problème du rapport entre la « représentation » que l’on manipule et son « sens » ne se pose plus. L’esprit n’est plus « parallèle » à la machine : il en est, si l’on peut dire, une propriété émergente. Ce n’est pas nous qui la trouvons intelligente : elle l’est tout autant que vous et moi.

Peut-être parce qu’être intelligent n’est pas être cohérent, mais être pertinent, c’est-à-dire extraire du monde infini des nuances qui nous entourent juste ce qu’il faut de régularité pour percevoir la singularité de chaque situation.

Applications industrielles

Les réseaux connexionnistes sont des machines à calculer, ou plutôt des machines qui sont susceptibles d’apprendre n’importe quel algorithme, à une condition : avoir plusieurs « couches » entre l’entrée et la sortie, et une fonction de rétropropagation du gradient d’erreur, qui permet de rectifier l’organisation des connexions, couche après couche, afin de réduire l’écart entre résultats escomptés et résultats obtenus. Leur domaine d’application est donc aussi vaste que celui de la machine universelle de Turing. Leurs propriétés les rendent cependant plus pertinents pour simuler certains comportements. On sait par exemple que la machine n’a battu l’homme aux échecs qu’en augmentant la puissance de calcul des architectures classiques, du fait de l’amélioration de la vitesse des composants. Au contraire, tout ce qui concerne la reconnaissance des formes est mieux assuré par des réseaux connexionnistes. Par exemple la lecture des chiffres manuscrits sur les codes postaux, les chèques bancaires ou n’importe quel formulaire sont réalisés désormais par des réseaux. C’est encore un réseau qui vous accueille sur le répondeur de votre banque, et qui reconnaît le chiffre que nous choisissez parmi les différentes options, voire certains mots. Deux exemples historiques. Une des premières grandes applications industrielles des réseaux fut un logiciel d’interprétation des échos Sonar utilisé dans les sous-marins, qui permet de trancher entre deux formes très similaires, mais qui n’ont pas la même valeur : un autre sous-marin nucléaire ou un cachalot… Une autre s’appelle Net Talk : le réseau apprend à lire à voix haute des textes écrits, en reproduisant des voix et des types de lectures différents. On utilise aussi les réseaux dans certains aéroports pour détecter les métaux et les explosifs dans les valises. Pourquoi sont-ils plus efficaces que les modèles classiques dans ce domaine ? Tout simplement parce que ces derniers obligent à donner une représentation explicite de chaque catégorie. Reprenons l’exemple canonique de reconnaissance des pièces d’un appartement formulé en 1986 par Rumelhardt, Smolensky, McClelland et Hinton. Pour la catégorie de « salle à manger » dans un appartement, il existera un représentant singulier dans la machine, à une adresse particulière. De même, le verbe « être » sera codé à une adresse particulière. Au contraire, pour les réseaux connexionnistes, la catégorie n’est jamais qu’un certain pattern d’organisation neuronale. Les « concepts » de salle à manger et de salon ne correspondent pas à deux « adresses » différentes dans la machine, mais à des schémas d’activation neuronale légèrement différents. Alors qu’une machine classique sera bloquée dans le cas d’un studio, si on n’a pas préalablement introduit le concept, le réseau trouvera une solution stable pour cette situation nouvelle. Par ailleurs, tous les phénomènes complexes, dynamiques, à caractère statistique, sont mieux traités par des réseaux, qui ont un fonctionnement semblable. Cela va du calcul des trajectoires d’une particule élémentaire comme le boson, jusqu’à celui du temps qu’il fera demain. On peut cependant se demander si la puissance technique des réseaux ne va pas au-delà de la technique : celle-ci veut des machines capables de réaliser des tâches précises. Mais l’intérêt des réseaux n’est-il pas précisément d’être capable d’apprendre à réaliser un nombre indéterminé de tâches, et même des tâches inouïes ?

Modèles du cerveau

Le connexionnisme ne sert pas seulement à remplacer l’homme dans certaines tâches, mais aussi à le comprendre. Son intérêt n’est pas seulement technique, mais aussi théorique : nous permettre d’approcher le fonctionnement du cerveau. Il ne fait aucun doute que les architectures classiques ne sont pas crédibles du point de vue « neuromimétique ». D’un autre côté, « si l’on devait faire l’inventaire de toutes les connexions neuronales, à supposer qu’il faille une seconde pour compter chacune d’entre elles, le temps pour accomplir cette tâche serait plus long que la durée de vie de l’Univers », rappelle Bernard Laks, professeur au département de Sciences du langage à Nanterre. Le connexionnisme n’est pas pour lui simplement une nouvelle technique d’intelligence artificielle, mais peut-être le seul espoir que nous avons de décrire les processus « cognitifs » réalisés par le cerveau. C’est ainsi qu’il a construit un logiciel de syllabation en français, dont l’ambition est de donner une représentation crédible du processus effectivement effectué par les locuteurs français pour découper un flux de phonèmes en syllabes. D’autres font des logiciels de phonologie, d’inférence logique, de catégorisation, etc., ou encore élaborent de nouveaux modèles connexionnistes, les réseaux à oscillateurs temporels. Les neurones formels sont ici, comme dans le cerveau, des oscillateurs électriques. Ce que le réseau doit apprendre, c’est à synchroniser les pics de décharge afin d’aboutir à des configurations stables. L’espoir qui soutient ces travaux est qu’un jour les réseaux connexionnistes donnent aux neurologues des modèles permettant d’orienter les recherches sur les activités cérébrales à l’œuvre dans telle ou telle tâche. On analyse d’abord le comportement en le modélisant sur un réseau, puis on l’utilise comme hypothèse sur les processus neuronaux. Il est probable qu’il faudra encore longtemps pour que les modèles connexionnistes participent à de véritables protocoles expérimentaux en neurobiologie. Mais on peut espérer que ce sera avant la mort de l’Univers.

Compléments d’information

1. Les « sciences cognitives » en quelques dates :

1936 : Turing imagine sa « machine universelle ».

1946 : von Neumann invente les « architectures » qui portent son nom, en séparant la représentation des données et des programmes (voir John von Neumann, L’ordinateur et le cerveau, Paris, La découverte, 1992).

1957 : Chomsky écrit Structures syntaxiques (rééd. Points-Seuil).

1986 : Rumelhart et McClelland publient la « bible » du connexionnisme : Parallel Distributed Processing : Explorations in the micro-structure of cognition (Bradford MIT Press).

2.Bibliographie complémentaire :

Sur le cerveau : Jean-Pierre Changeux, L’homme neuronal, Fayard, 1968 (rééd. Pluriel).

Sur les sciences cognitives : Jean Delacour, Le cerveau et l’esprit, « Que sais-je ? », 1995.

Sur la linguistique « connexionniste » : Bernard Laks, Langage et cognition, Paris, Hermès, 1996.

  |   Contacts & Plans  |   Mentions légales  |   Plan du site  |   Suivre la vie du site RSS