Prenons un dictionnaire de synonymes extrêmement simple:
une liste de
mots-entrées et pour chacun d’eux une liste d’équi-
valents possibles. Le
dictionnaire est fermé, ou, si l’on préfère,
circulaire: seuls les mots-entrées,
et aucun autre, peuvent appa-
raître dans les listes de synonymes. Même si un mot
a plusieurs
acceptions, il n’apparaît qu’une seule fois comme entrée et les
termes de la liste qui lui est associée ne sont pas subdivisés en
groupes
correspondant à ses différentes acceptions.
Il y a toutefois dans ce dictionnaire une distinction impli-
cite des sens que
nous pouvons rendre explicite à travers une
traduction «géométrique». Nous
pouvons, en effet, nous repré-
senter le dictionnaire comme un graphe,
c’est-à-dire un ensemble
de points (sommets) et de lignes les reliant (arêtes),
dans lequel
les sommets représentent les mots et les arêtes les rapports de
synonymie. Il y a au moins deux types de sous-graphes dans
lesquels il est
possible de reconnaître des unités de sens.
Le premier est constitué par les composantes complètes ma-
ximales, les cliques.
On appelle composante complète un sous-
graphe où chaque sommet est relié à tous
les autres. Une com-
posante complète est maximale si elle n’est contenue dans
aucune
autre; c’est-à-dire si aucun autre sommet du graphe n’est relié
à
tous ceux qui lui appartiennent. Les cliques du dictionnaire
représentent des
unités minimales de sens. En effet si deux termes
sont synonymes, ils ont en commun un sens X; si les deux ter-
mes sont synonymes
d’un troisième, il est fort probable qu’ils le
soient au niveau de ce sens commun;
si les trois termes synony-
mes sont tous synonymes d’un quatrième il est encore
très pro-
bable qu’ils le soient au niveau de leur sens commun et ainsi
de
suite, de sorte qu’il est assez naturel de considérer comme
unités élémentaires de
sens les arêtes qui ne font partie d’aucun
triangle, les triangles qui ne sont pas
compris dans des «carrés»
munis des deux diagonales, etc.... en un mot les cliques
du
graphe.
Ainsi peut-on attribuer à chaque entrée du dictionnaire
autant de sens
élémentaires que de cliques auxquelles elle appar-
tient. Celles-ci ne sont pas
nécessairement disjointes: deux cli-
ques peuvent avoir en commun un ou plusieurs
sommets; les
unités de sens correspondantes peuvent représenter des spéci-
fications, des variantes d’une acception plus vaste que nous essaie-
rons de
cerner à l’aide d’un deuxième type de sous-graphe.
En voilà la définition. Un graphe est connexe si chacun
de ses sommets peut être
rejoint par chacun des autres à travers
un chemin (une séquence alternée d’arêtes
et de sommets). Une
composante connexe d’un graphe est un sous-graphe connexe ma-
ximal. Pour chaque sommet du graphe (qui pour nous est une
entrée du
dictionnaire), considérons le sous-graphe formé par tous
les sommets qui lui sont
reliés et par les arêtes qui les relient
entre eux. Dans ce sous-graphe relevons
les composantes connexes:
ce sont elles qui nous fournissent le deuxième type
d’unité de
sens que nous cherchions. En effet, si la liste des synonymes
associée à une entrée du dictionnaire est constituée par des grou-
pes de mots
tels qu’à l’intérieur de chaque groupe il y a, entre
deux termes quelconques, au
moins un chemin, tandis qu’il n’y
a pas de chemins entre termes appartenant à des
groupes diffé-
rents, alors nous pouvons raisonnablement identifier dans ces
groupes des sens nettement distincts. Nous attribuerons donc
à chaque entrée du
dictionnaire autant de sens (unité «amples»
de sens) qu’il y a de composantes connexes, que nous pouvons
appeler «fibres»,
dans sa liste de synonymes.
Contrairement aux cliques, les fibres d’un mot, nécessaire-
ment disjointes,
dépendent des entrées considérées. Par exemple,
si pour une entrée A nous prenons
une fibre X composée par les
sommets B, C, D, à l’entrée B nous trouverons une
seule fibre
contenant A mais celle-ci pourra avoir des termes en plus ou
en
moins par rapport à X.
En substance, nous avons isolé dans le dictionnaire des
unités élémentaires de
sens (les cliques) et d’autres plus amples
(les fibres), autrement dit nous avons
donné une description plus
fine mais avec des superpositions, et une autre moins
fine mais
avec des démarcations nettes, de la polysémie de chaque terme
du
dictionnaire. Naturellement il s’agit toujours de polysémies
et unités de sens
relatives au dictionnaire considéré, aux infor-
mations qu’il contient, mais, et
c’est là l’aspect essentiel, ces
polysémies et unités de sens proviennent de
structures dotées
de bonnes propriétés formelles et de définitions précises qui
sai-
sissent sans distorsions excessives une partie de notre «intuition
sémantique». Nous savons que l’un des principaux obstacles à
l’emploi de méthodes
statistiques en linguistique est dû à la
polysémie et à la synonymie; le fait,
donc, de considérer comme
données non plus les mots mais des unités du type de
celles
que nous avons définies plus haut, devrait constituer un avantage
appréciable.
J’ai expérimenté les procédés que je viens de décrire sur
un dictionnaire de
synonymes un peu particulier, puisque formé
de couples de mots indiqués comme
équivalents, dans un échan-
tillon de recherches, par les usagers du système
automatique
de documentation de la Cour de Cassation italienne. L’échantil-
lon, alimenté par des recherches de jurisprudence civile, comprend
5551 entrées et
13610 équivalences. Le graphe correspondant
présente une composante connexe de
3724 sommets, toutes les
autres ayant moins de six sommets chacune: un décalage,
lié
sans doute au concept de percolation, que j’ai toujours constaté
sur ce type de
données.
La recherche, pour chaque entrée, des fibres correspondantes,
a donné des
résultats très satisfaisants: sauf de très rares excep-
tions les fibres d’un mot
discriminent effectivement des accep-
tions différentes de celui-ci. Il s’agit
bien sûr de polysémies et
synonymies relatives non pas à la totalité de la langue
mais à
un corpus de recherches sur des documents de droit civil. Une
fois
que l’on a distingué les différentes fibres d’une entrée, l’on
passe de 5551 à
10035 entrées, et en reconstituant avec les
nouvelles entrées le graphe des
synonymes on obtient une com-
posante connexe de 2330 sommets, une de 79, une de
26, les
autres ayant chacune moins de 14 éléments.
Dans le même dictionnaire les cliques ont donné des résul-
tats moins
satisfaisants: ceci, je pense, à cause des limites quan-
titatives et qualitatives
de l’échantillon. En revanche, une cir-
constance particulière est apparue: le
nombre des cliques (5890)
est très proche du nombre (5551) des entrées du
dictionnaire.
Même si ce fait, que j’avais déjà rencontré dans d’autres échan-
tillons, pourrait trouver une explication purement statistique
en fonction
du nombre d’arêtes et de sommets du graphe en
question, il n’en reste pas moins
singulier. Il suggère en effet
la conjecture, qui peut être confirmée ou démentie
par le trai-
tement d’autres dictionnaires, que le nombre d’unités élémen-
taires de sens dans un corpus linguistique tend à coïncider avec
le nombre de
mots. Mais, s’il en était ainsi, quelle interpré-
tation donner? On peut se
demander, comme à propos de la
distribution des composantes connexes du
dictionnaire: s’il s’agit
d’effets statistiques quels sont les modèles impliqués?
Quelles
conséquences peut-on en déduire sur la boîte d’où sortent les
mots?
Il faut enfin reconnaître une limite non négligeable des
procédures dont nous
avons parlé jusqu’à maintenant: elle pro-
vient du fait que même si nous essayons
avec elles de nous dé-
tacher des unités-mots, nous restons tout de même à l’intérieur
d’un univers
discret alors que les difficultés que tout auteur
de dictionnaire rencontre quand
il doit subdiviser ou regrouper
des classes de contextes correspondant aux entrées
suggéreraient
plutôt un continuum traversé par des clivages et des régions
d’instabilité, l’image d’un sens comme d’un «lieu» aux contours
indéterminés,
quelque chose dont, à la limite, on ne peut même
pas affirmer l’identité.
On pourrait envisager, il est vrai, des représentations plus
complexes que celles
que j’ai esquissées. Je pense par exemple
aux méthodes de la géométrie algébrique.
Mais, sans vouloir
négliger la valeur heuristique de ces méthodes en dehors de
leur
domaine propre, il me semble toutefois difficile, pour l’instant,
d’aller au-delà d’un simple changement de dictionnaire.