28e Journées de statistique:la stylométrie au programme
28e Journées de statistique
Des mots et des chiffres
«Le mariage de la littérature et de la statistique donne
quelque chose de très beau», fait valoir Joseph M. Gani
Les écrits de Zola contiennent un total de 2 874 755 mots dont 19
337 mots différents. Moins considérable, l'oeuvre de Corneille
renferme quelque 532 800 mots dont 4 606 termes différents. Quant
à Proust, la taille de son vocabulaire, si on en juge par ses écrits,
atteignait, au bas mot,
18 322 mots.
Des données de la sorte fascinent. D'une part, parce qu'elles rappellent
le véritable travail de moine que les pionniers de la stylométrie,
des amateurs de littérature, des linguistes et des statisticiens,
ont fait en comptant un à un les mots de l'oeuvre complète
de prolifiques auteurs. D'autre part, parce qu'elles soulèvent de
nombreuses questions sur la mécanique de l'écriture, notamment
sur l'existence d'une limite naturelle au vocabulaire de chaque auteur et
sur la valeur de la taille du vocabulaire actif comme indicateur de la richesse
du style. Enfin, par la force des choses, parce qu'elles conduisent tout
droit à une question encore plus fondamentale: le génie d'un
auteur peut-il se traduire en données statistiques aussi crues que
la taille de son vocabulaire ou la longueur des mots, des phrases et des
paragraphes qu'il emploie?
Voilà le genre de questions qui titillent l'esprit du professeur
Joseph M. Gani, statisticien émérite, expert en stylométrie
et conférencier invité à la séance inaugurale
des 28e Journées de statistique de l'Association pour la statistique
et ses utilisations, qui ont réuni sur le campus près de 500
statisticiens du monde entier, du 27 au 30 mai dernier. Présenté
pour la première fois à l'extérieur de l'Europe, cet
événement annuel, la plus importante manifestation scientifique
du monde statistique francophone, était organisé par le Département
de mathématiques et de statistique de l'Université Laval,
en collaboration avec le Bureau de la statistique du Québec et Statistique
Canada.
Le chiffre derrière la lettre
Né en Égypte dans une famille francophone, Joseph Gani a successivement
vécu au Japon, en Angleterre, aux États-Unis et en Australie,
où il est aujourd'hui professeur émérite à la
Australian National University. Homme de culture universelle, il trouve
plaisir à sonder les écrits des grands auteurs et à
traduire, en chiffres, le style de chacun. «Le mariage de la littérature
et de la statistique donne quelque chose de très beau», dit-il.
Et il n'est pas seul à percevoir la fécondité de cette
union.
Déjà, entre les années 500 à 1000 après
Jésus-Christ, les massorètes, des scribes juifs qui avaient
entrepris de recopier la Torah, comptaient la fréquence de lettres
et des mots dans les écrits originaux et dans les transcriptions
afin de s'assurer que «les mots de Dieu étaient rapportés
sans erreur», rappelle le professeur Gani. Au 19e siècle, les
études portant sur la fréquence des lettres ont servi à
l'élaboration du code Morse, utilisé en télégraphie,
et de l'alphabet Braille pour les non-voyants.
Même le clavier d'ordinateur répond à des impératifs
statistiques. En effet, les lettres sont disposées de façon
à ce que celles qui se suivent le plus fréquemment dans les
mots d'une langue soient distantes les unes des autres sur le clavier. La
raison? Ce clavier, transposé directement de la machine à
écrire, a été conçu pour éviter que les
tiges de métal qui portaient les lettres s'entrecroisent et demeurent
coincées ensemble.
Le cas W.S.
Plus que la longueur des mots et des phrases, le vocabulaire est la mesure
la plus caractéristique du style d'un auteur, résume Joseph
Gani. À partir d'études du vocabulaire employé dans
des textes connus, les chercheurs parviennent même à déterminer
la probabilité qu'un texte anonyme soit l'oeuvre d'un auteur donné.
D'ailleurs, l'une des plus célèbres controverses engendrées
par la stylométrie touche le cas d'un poème découvert
en 1985 à la bibliothèque Bodleyan d'Oxford et au bas duquel
figurent les lettres «W.S.». Avant de conclure qu'il s'agissait
bien d'une oeuvre inédite de William Shakespeare, des experts en
stylométrie ont analysé, sous toutes ses coutures, ce poème
de 429 mots, contenant 258 mots différents dont 9 ne se retrouvent
nulle part ailleurs dans l'oeuvre de Shakespeare. Conclusion? Les études
se suivent et se contredisent depuis maintenant dix ans sans parvenir à
tirer la question au clair.
Malgré tout, Joseph Gani a, au fond de lui, la ferme conviction que
le poème n'est pas l'oeuvre de William Shakespeare. Et cette conviction,
qu'aucune statistique ne parviendra à ébranler parce qu'elle
s'inspire de lois évanescentes qui échappent encore aux mathématiques,
repose sur un constat à la fois éminemment simple et infiniment
complexe: «Je crois que ce n'est pas Shakespeare parce que j'ai lu
le poème et que je l'ai trouvé médiocre.»
JEAN HAMANN
P.S. La taille du vocabulaire actif de Au fil des événements
, depuis que le journal est indexé sur Alérion (9 juin 1994),
est de 17 375 mots.