GRAPHES DE RELATIONS SÉMANTIQUES

Ugo Berni Canani

— 29 —

Prenons un dictionnaire de synonymes extrêmement simple:
une liste de mots-entrées et pour chacun d’eux une liste d’équi-
valents possibles. Le dictionnaire est fermé, ou, si l’on préfère,
circulaire: seuls les mots-entrées, et aucun autre, peuvent appa-
raître dans les listes de synonymes. Même si un mot a plusieurs
acceptions, il n’apparaît qu’une seule fois comme entrée et les
termes de la liste qui lui est associée ne sont pas subdivisés en
groupes correspondant à ses différentes acceptions.

Il y a toutefois dans ce dictionnaire une distinction impli-
cite des sens que nous pouvons rendre explicite à travers une
traduction «géométrique». Nous pouvons, en effet, nous repré-
senter le dictionnaire comme un graphe, c’est-à-dire un ensemble
de points (sommets) et de lignes les reliant (arêtes), dans lequel
les sommets représentent les mots et les arêtes les rapports de
synonymie. Il y a au moins deux types de sous-graphes dans
lesquels il est possible de reconnaître des unités de sens.

Le premier est constitué par les composantes complètes ma-
ximales, les cliques. On appelle composante complète un sous-
graphe où chaque sommet est relié à tous les autres. Une com-
posante complète est maximale si elle n’est contenue dans aucune
autre; c’est-à-dire si aucun autre sommet du graphe n’est relié
à tous ceux qui lui appartiennent. Les cliques du dictionnaire
représentent des unités minimales de sens. En effet si deux termes

— 30 —

sont synonymes, ils ont en commun un sens X; si les deux ter-
mes sont synonymes d’un troisième, il est fort probable qu’ils le
soient au niveau de ce sens commun; si les trois termes synony-
mes sont tous synonymes d’un quatrième il est encore très pro-
bable qu’ils le soient au niveau de leur sens commun et ainsi
de suite, de sorte qu’il est assez naturel de considérer comme
unités élémentaires de sens les arêtes qui ne font partie d’aucun
triangle, les triangles qui ne sont pas compris dans des «carrés»
munis des deux diagonales, etc.... en un mot les cliques du
graphe.

Ainsi peut-on attribuer à chaque entrée du dictionnaire
autant de sens élémentaires que de cliques auxquelles elle appar-
tient. Celles-ci ne sont pas nécessairement disjointes: deux cli-
ques peuvent avoir en commun un ou plusieurs sommets; les
unités de sens correspondantes peuvent représenter des spéci-
fications, des variantes d’une acception plus vaste que nous essaie-
rons de cerner à l’aide d’un deuxième type de sous-graphe.

En voilà la définition. Un graphe est connexe si chacun
de ses sommets peut être rejoint par chacun des autres à travers
un chemin (une séquence alternée d’arêtes et de sommets). Une
composante connexe d’un graphe est un sous-graphe connexe ma-
ximal. Pour chaque sommet du graphe (qui pour nous est une
entrée du dictionnaire), considérons le sous-graphe formé par tous
les sommets qui lui sont reliés et par les arêtes qui les relient
entre eux. Dans ce sous-graphe relevons les composantes connexes:
ce sont elles qui nous fournissent le deuxième type d’unité de
sens que nous cherchions. En effet, si la liste des synonymes
associée à une entrée du dictionnaire est constituée par des grou-
pes de mots tels qu’à l’intérieur de chaque groupe il y a, entre
deux termes quelconques, au moins un chemin, tandis qu’il n’y
a pas de chemins entre termes appartenant à des groupes diffé-
rents, alors nous pouvons raisonnablement identifier dans ces
groupes des sens nettement distincts. Nous attribuerons donc
à chaque entrée du dictionnaire autant de sens (unité «amples»

— 31 —

de sens) qu’il y a de composantes connexes, que nous pouvons
appeler «fibres», dans sa liste de synonymes.

Contrairement aux cliques, les fibres d’un mot, nécessaire-
ment disjointes, dépendent des entrées considérées. Par exemple,
si pour une entrée A nous prenons une fibre X composée par les
sommets B, C, D, à l’entrée B nous trouverons une seule fibre
contenant A mais celle-ci pourra avoir des termes en plus ou
en moins par rapport à X.

En substance, nous avons isolé dans le dictionnaire des
unités élémentaires de sens (les cliques) et d’autres plus amples
(les fibres), autrement dit nous avons donné une description plus
fine mais avec des superpositions, et une autre moins fine mais
avec des démarcations nettes, de la polysémie de chaque terme
du dictionnaire. Naturellement il s’agit toujours de polysémies
et unités de sens relatives au dictionnaire considéré, aux infor-
mations qu’il contient, mais, et c’est là l’aspect essentiel, ces
polysémies et unités de sens proviennent de structures dotées
de bonnes propriétés formelles et de définitions précises qui sai-
sissent sans distorsions excessives une partie de notre «intuition
sémantique». Nous savons que l’un des principaux obstacles à
l’emploi de méthodes statistiques en linguistique est dû à la
polysémie et à la synonymie; le fait, donc, de considérer comme
données non plus les mots mais des unités du type de celles
que nous avons définies plus haut, devrait constituer un avantage
appréciable.

J’ai expérimenté les procédés que je viens de décrire sur
un dictionnaire de synonymes un peu particulier, puisque formé
de couples de mots indiqués comme équivalents, dans un échan-
tillon de recherches, par les usagers du système automatique
de documentation de la Cour de Cassation italienne. L’échantil-
lon, alimenté par des recherches de jurisprudence civile, comprend
5551 entrées et 13610 équivalences. Le graphe correspondant
présente une composante connexe de 3724 sommets, toutes les
autres ayant moins de six sommets chacune: un décalage, lié

— 32 —

sans doute au concept de percolation, que j’ai toujours constaté
sur ce type de données.

La recherche, pour chaque entrée, des fibres correspondantes,
a donné des résultats très satisfaisants: sauf de très rares excep-
tions les fibres d’un mot discriminent effectivement des accep-
tions différentes de celui-ci. Il s’agit bien sûr de polysémies et
synonymies relatives non pas à la totalité de la langue mais à
un corpus de recherches sur des documents de droit civil. Une
fois que l’on a distingué les différentes fibres d’une entrée, l’on
passe de 5551 à 10035 entrées, et en reconstituant avec les
nouvelles entrées le graphe des synonymes on obtient une com-
posante connexe de 2330 sommets, une de 79, une de 26, les
autres ayant chacune moins de 14 éléments.

Dans le même dictionnaire les cliques ont donné des résul-
tats moins satisfaisants: ceci, je pense, à cause des limites quan-
titatives et qualitatives de l’échantillon. En revanche, une cir-
constance particulière est apparue: le nombre des cliques (5890)
est très proche du nombre (5551) des entrées du dictionnaire.
Même si ce fait, que j’avais déjà rencontré dans d’autres échan-
tillons, pourrait trouver une explication purement statistique
en fonction du nombre d’arêtes et de sommets du graphe en
question, il n’en reste pas moins singulier. Il suggère en effet
la conjecture, qui peut être confirmée ou démentie par le trai-
tement d’autres dictionnaires, que le nombre d’unités élémen-
taires de sens dans un corpus linguistique tend à coïncider avec
le nombre de mots. Mais, s’il en était ainsi, quelle interpré-
tation donner? On peut se demander, comme à propos de la
distribution des composantes connexes du dictionnaire: s’il s’agit
d’effets statistiques quels sont les modèles impliqués? Quelles
conséquences peut-on en déduire sur la boîte d’où sortent les
mots?

Il faut enfin reconnaître une limite non négligeable des
procédures dont nous avons parlé jusqu’à maintenant: elle pro-
vient du fait que même si nous essayons avec elles de nous dé-

— 33 —

tacher des unités-mots, nous restons tout de même à l’intérieur
d’un univers discret alors que les difficultés que tout auteur
de dictionnaire rencontre quand il doit subdiviser ou regrouper
des classes de contextes correspondant aux entrées suggéreraient
plutôt un continuum traversé par des clivages et des régions
d’instabilité, l’image d’un sens comme d’un «lieu» aux contours
indéterminés, quelque chose dont, à la limite, on ne peut même
pas affirmer l’identité.

On pourrait envisager, il est vrai, des représentations plus
complexes que celles que j’ai esquissées. Je pense par exemple
aux méthodes de la géométrie algébrique. Mais, sans vouloir
négliger la valeur heuristique de ces méthodes en dehors de leur
domaine propre, il me semble toutefois difficile, pour l’instant,
d’aller au-delà d’un simple changement de dictionnaire.