11 septembre 2023

L’intelligence artificielle peut-elle concurrencer Tolstoï, Zola et Dickens?

Les textes générés par intelligence artificielle investissent de plus en plus le champ littéraire, ce qui conduit à réfléchir autrement les concepts d’auteur et de littérature

Par : Manon Plante

Alors que le monde de l'éducation s'inquiète que des textes produits par ChatGPT s'immiscent parmi les dissertations scolaires, le monde de la littérature, de son côté, demeure plus ambivalent devant les nouvelles capacités d'écriture de l'intelligence artificielle (IA). Si certains auteurs y voient des occasions de renouveler les pratiques d'écriture et les possibilités artistiques, d'autres n'y accordent que peu de valeur littéraire ou encore craignent que cette tendance ne restreigne la place de l'humain dans la création. Qu'en est-il réellement?

Le doctorant Tom Lebrun a cherché à mieux comprendre la nature et la finalité des textes générés par ordinateur et s'est questionné sur les enjeux d'une telle littérature. Juriste de formation et titulaire d'une maîtrise en droit du numérique, ce spécialiste de la protection et de l'usage des données personnelles poursuivait déjà, avant d'entreprendre un doctorat en littérature, des travaux dans lesquels l'IA occupait une place centrale. «Toutefois, je souhaitais approfondir davantage cette nouvelle réalité et, surtout, ajouter une dimension plus culturelle à mes recherches», confie-t-il.

Après 6 ans de recherche sur le sujet, Tom Lebrun a soutenu à la fin août une thèse dans laquelle il s'intéresse particulièrement à la notion d'autorité, d'un point de vue tant littéraire que juridique.

«Qui est l'auteur d'un texte issu d'une génération par apprentissage, c'est-à-dire d'une intelligence artificielle entraînée à partir d'œuvres littéraires existantes? La question est complexe. Sous l'angle littéraire, l'“auctorialité” est partagée en trois. Selon les textes, elle relève, à divers degrés, de la personne qui utilise l'IA pour générer un texte, de l'algorithme employé et des sources littéraires sur lesquelles l'algorithme a été entraîné. Sous l'angle juridique, seule une personne physique peut être titulaire du droit d'auteur, mais tous les textes n'ont pas nécessairement un auteur reconnu par la loi», explique Tom Lebrun.

Les 3 phases de la littérature générative

Dans sa thèse, le chercheur a d'abord cherché à circonscrire ce qu'est la littérature générée par ordinateur. Historiquement, trois périodes peuvent être distinguées. La première, la génération combinatoire, peut se définir comme un agencement informatique aléatoire de fragments de textes déjà écrits. En d'autres mots, l'algorithme détermine l'ordre de phrases ou de bouts de phrase déjà construits, ou pige dans un vocabulaire présélectionné les mots pouvant remplir une structure syntaxique préétablie. «Bref, le texte a une autonomie relative par rapport à son auteur. Ce dernier, en basant l'écriture sur une programmation aléatoire, renonce à tout contrôle sur l'ordonnancement du texte», commente le chercheur.

La deuxième période est celle de la génération automatique, dans laquelle un système expert, spécifiquement programmé pour créer un texte avec une grammaire particulière génère une construction poétique qui peut être vue comme une œuvre à la fois de l'auteur et de la machine. Ces textes présentent souvent une cohérence minimale sur le plan syntaxique, mais moins sur le plan sémantique. «Comme dans la génération combinatoire, souligne Tom Lebrun, l'autonomie du processus est somme toute une autonomie de façade, puisque l'auteur gère la programmation informatique qui impose une certaine structure au sein du texte.»

« Le texte produit correspond à la moyenne statistique des données encodées. L'IA ne peut donc que reproduire le "texte" sans la "littérature". »

— Tom Lebrun

Avec la troisième période, soit celle de la génération par apprentissage, le texte acquiert une véritable autonomie par rapport à l'auteur. Reposant sur l'apprentissage de données à partir de sources déterminées, les technologies de l'IA sont entraînées à déceler statistiquement les corrélations entre les sources pour reproduire une «variation probabiliste» sur le plan autant sémantique que structural. Deux constats peuvent être tirés. D'une part, de prime abord, la contribution de l'auteur semble être limitée au choix du corpus sur lequel la machine est entraînée. D'autre part, le texte ainsi généré omet des éléments non négligeables de la littérature. «Le texte produit correspond à la moyenne statistique des données encodées. Les données minoritaires, pourtant parfois très importantes et évocatrices en raison précisément de leur caractère unique, sont forcément sous-représentées. De plus, le système n'analyse que les données. Ainsi, les ellipses ne seront pas représentées. Tout ce que le texte dessine en creux, tout ce qu'il exprime par le vide disparaîtra. D'un certain point de vue, l'IA ne peut donc que reproduire le “texte” sans la “littérature”», soutient le chercheur.

Les 3 types de textes générés par apprentissage

Parmi les textes générés par apprentissage, Tom Lebrun distingue trois catégories: le texte appropriant, le texte œuvre d'art et le texte édité.

Le premier s'approprie un certain nombre d'éléments textuels, comme le style et le champ lexical, à partir d'une source restreinte. Le but: que le lecteur fasse immédiatement le lien avec les sources littéraires. «Typiquement, ce sont les fan fictions. Par exemple, on entraîne l'algorithme à partir des romans de la série Harry Potter, puis on lui demande de produire une suite à la série», illustre le chercheur.

Le second se préoccupe peu de la narrativité. Ce qui compte ici, ce n'est pas le contenu du texte, mais le processus artistique par lequel il a été produit. «Ce type de texte doit s'analyser comme une œuvre d'art contemporaine. Le texte est avant tout présenté comme le fruit et la preuve d'une démarche», affirme Tom Lebrun.

Le dernier est un texte habituellement produit à partir d'un grand nombre de sources, où celles-ci sont méconnaissables. L'IA produit un premier jet, qui est par la suite retravaillé par un auteur.

«Trois agents sont à l'œuvre dans la génération par apprentissage: les sources, l'algorithme et l'auteur. Bref, de manière générale, si l'influence majeure est la source, on produit un texte appropriant; si l'influence majeure est l'algorithme, on produit un texte œuvre d'art; et si l'influence majeure est l'auteur, on produit un texte édité», déclare Tom Lebrun.

L'IA, une auteure?

«Lorsque j'ai commencé mon doctorat, il y a 6 ans, raconte Tom Lebrun, la technologie n'était pas aussi avancée. Peu de textes réussissaient le test de Turing, peut-être à peine 20%. Le test de Turing, c'est un exercice proposé par l'un des pères de l'informatique, Alan Turing. L'idée, c'est de demander à un être humain s'il peut distinguer ce qui a été produit par un humain et ce qui a été produit par un ordinateur. Si l'humain ne peut faire la distinction, la machine réussit le test de Turing. Aujourd'hui, j'estime à plus de 99% les textes qui réussissent ce test.»

Devant un tel succès de l'IA, quelle est désormais la place de l'être humain dans les textes générés par ordinateur? Peut-on considérer que la personne qui a lancé la génération est véritablement un auteur?

D'un point de vue juridique, le droit d'auteur protège une œuvre originale, c'est-à-dire dans laquelle un écrivain fait preuve de talent et de jugement. «La majorité des textes édités et des textes œuvres d'art démontrent une démarche artistique dans laquelle on peut reconnaître du talent et du jugement, ce qui leur permet de mériter une protection juridique. Par contre, les textes appropriants, qui relèvent davantage d'une création purement machinique, tombent habituellement dans le domaine public», affirme le chercheur.

D'un point de vue littéraire, la réponse est plus floue. Tom Lebrun, pour sa part, propose de recentrer la notion d'auteur autour de l'idée d'intention. C'est la posture que prendra l'écrivain par rapport au texte généré par l'IA qui le consacrera auteur ou non.

« Ce n'est pas parce qu'on a un téléphone intelligent avec lequel on prend des photos qu'on est photographe. De la même façon, ce n'est pas parce qu'on demande à l'IA de générer un texte qu'on est un auteur. »

— Tom Lebrun

«On peut faire un parallèle avec la photographie, indique-t-il. Ce n'est pas parce qu'on a un téléphone intelligent avec lequel on prend des photos qu'on est photographe. De la même façon, ce n'est pas parce qu'on demande à l'IA de générer un texte qu'on est un auteur. Selon, moi, il faut qu'il y ait une intention de produire de l'art.»

Les textes générés par l'IA sont-ils de la littérature?

La réponse à cette question dépendra forcément de la conception qu'on se fait de la littérature, explique Tom Lebrun. «Si on prend la définition la plus large, la moins ambitieuse de la littérature, qui serait un texte qui raconte une histoire, alors, oui, l'IA peut produire un tel texte. Elle peut produire un récit cohérent, un récit qui va d'une situation initiale à une situation finale. Par contre, si on considère la littérature comme quelque chose qui transforme notre rapport au monde, qui exprime quelque chose du phénomène d'être humain, alors, non, la machine ne peut pas y arriver.»

« Les textes générés par l'IA obligeront vraisemblablement la littérature à se recentrer autour de l’idée d’une communication interhumaine, à se redéfinir comme le partage d’une certaine vision du monde entre un auteur et un lecteur par l'intermédiaire du texte. »

— Tom Lebrun

Quoi qu'il en soit, les textes générés par apprentissage sont une réalité appelée à prendre de plus en plus de place dans la société, ne serait-ce que dans la presse ou le monde de l'éducation. Ils redéfinissent notre vision anthropocentrée de production de langage et de discours. «Quand on y pense, c'est une idée scandaleuse qu'une machine réussisse à produire, par un système calculatoire, par une étude quantitative du langage, un texte qui a toutes les apparences d'une pensée. Toutefois, les textes littéraires générés par l'IA ne sont qu'un simulacre. Ils n'ont que l'apparence de ce qu'ils prétendent être», soutient Tom Lebrun.

Leur avènement ne doit toutefois pas être pris à la légère. «Ils sont une percée culturelle majeure. Ces textes modifient notre appréhension de ce qu'est la création littéraire et la notion d'auteur. Ils obligeront vraisemblablement la littérature à se recentrer autour de l'idée d'une communication interhumaine, à se redéfinir comme le partage d'une certaine vision du monde entre un auteur et un lecteur par l'intermédiaire du texte», conclut le chercheur.