L’intelligence artificielle réécrit l’histoire de la littérature

Cette histoire commence sur un bureau et se termine sur scène, comme on pouvait s’y attendre, sous les applaudissements. Il y a deux professeurs, beaucoup de technologie et l’un des grands génies de la littérature espagnole.

Nous étions en 2021 et le chercheur Álvaro Cuéllar (1995) travaillait avec Germán Vega (1953) à la transcription d’œuvres de l’âge d’or de la Bibliothèque nationale espagnole (BNE). « Il fallait traiter mille formulaires et cinq cents manuscrits, ce qui était impensable avant la transcription automatique », se souvient le premier. Il s’agit de l’outil Transkribus, une intelligence artificielle capable de lire et de traiter des manuscrits, quelle que soit la complexité de la calligraphie. « Avec cette technologie, ce qui demandait auparavant des années d’efforts est accompli en quelques heures… Une fois toutes les œuvres retranscrites, je les soumets au programme d’attribution d’auteur. [Stylo], qui peut utiliser l’IA et l’analyse stylométrique pour identifier à qui appartient un texte, et soudain il s’est avéré qu’un manuscrit anonyme était en réalité de Lope de Vega. « De telles choses n’arrivent presque jamais… », dit-il.

Puis il a appelé Vega et ensemble ils ont commencé à analyser ce travail pour confirmer si l’hypothèse de la machine était vraie ou non. Elle s’intitulait « La Laura française » et est passée inaperçue pendant des siècles. C’est l’histoire d’une femme mariée qui rejette à plusieurs reprises le prince de France avec beaucoup d’insistance. Jeudi prochain, deux ans après sa découverte, elle sera créée au Teatros del Canal de Madrid comme une œuvre de Lope de Vega. Mais nous sommes en avance sur nous-mêmes. Tout est plus compliqué et en même temps plus intéressant. Et cela ne s’arrête pas à ce titre.

« C’est incroyable. « Nous passons toute notre vie entre les journaux et les écrans et soudain, on se rend compte que ce que l’on fait a un sens social, que cela touche le public », se réjouit Vega à l’autre bout du fil. « Mais qu’est-ce que l’IA ? Ce n’était qu’un indice, un fil à tirer. » « Nous avons dû recourir à des ressources traditionnelles pour prouver la paternité de Lope. » « Il nous a fallu deux ans pour publier l’article avec la découverte. C’était beaucoup de travail. Il a fallu vérifier la transcription et le manuscrit, le lire, faire la recherche philologique de parallèles entre ce titre et d’autres de Lope… Nous avons analysé le texte, les figures rhétoriques, la métrique, tout. « C’était très laborieux,  » ajoute Cuéllar. C’est le temps qu’il faut pour obtenir une nouvelle Lope. La technologie lance l’hypothèse. Mais la confirmation se fait toujours manuellement, de manière analogique.

Autres cas

Ce n’est pas la première fois que quelque chose de similaire leur arrive. Il y a quelques années, grâce à la même technologie, ils ont découvert que « La monja Alférez », qui raconte l’histoire vraie d’une femme qui combattait en tant qu’homme au XVIIe siècle, n’était pas de Juan Pérez de Montalbán, mais de Juan Ruiz. de Alarcón, un auteur de la Nouvelle-Espagne. Aujourd’hui, la pièce portant cette nouvelle attribution est jouée au Théâtre Círculo de New York.

Au-delà de Lope, confirment les chercheurs, il y a beaucoup de mouvement dans la paternité. Le cas le plus notable est El burlador de Sevilla, une œuvre historiquement attribuée à Tirso de Molina, mais notée comme étant celle d’Andrés de Claramonte. « Il est encore publié comme étant de Tirso de Molina, mais l’analyse stylistique montre qu’il ne pourrait en aucun cas être de lui.  » Il est probable qu’il ait été signé à l’époque pour des raisons commerciales, car il était plus attractif. « Il y a des années, Alfredo Rodríguez López-Vázquez a suggéré que le texte pourrait être d’Andrés de Claramonte, et c’est la même chose que ce que nous disent nos tests », explique Vega. En effet, dans le dernier article qu’ils ont publié chez Cuéllar, ils lui attribuent vingt nouvelles œuvres. « C’est un écrivain très intéressant, mais il n’a jamais été particulièrement apprécié par la critique, peut-être parce que Menéndez Pelayo méprisait son talent. »

L’IA reconnaît l’écriture de Lope lettre par lettre

L’intelligence artificielle a changé la façon d’explorer l’âge d’or de l’Espagne, réécrivant l’histoire d’une époque qui reste encore riche en actualités. « Nous avons vérifié tout ce qui est numérisé à la Bibliothèque nationale. Le fait est qu’il reste encore certains fonds à numériser. Et il y a certains documents qui peuvent surprendre », promet Cuéllar. Ils élargissent également leurs outils : ils entraînent actuellement une intelligence artificielle à dater un texte en fonction des usages du langage. « Nous avons fait des expériences et constaté que cela pouvait fonctionner, mais ce n’est pas encore prêt à être appliqué dans le monde réel », dit-il en riant.

L’autre grand projet qu’elle prépare est de faire en sorte qu’une IA soit capable de distinguer l’écriture de Lope de Vega de celle d’autres auteurs, un travail réalisé conjointement avec Sònia Boadas, de l’Université autonome de Barcelone, et Alejandro García Reidy, de Salamanque. L’idée est de chercher sa main dans tous les manuscrits de l’âge d’or. « Nous avons introduit l’écriture de Lope de Vega et celle de trois cents autres auteurs et pouvons déterminer si une écriture est celle de Lope ou non. » Et cela peut être étendu. Une fois que cela fonctionne, le but est de faire fonctionner la machine dans tous les fichiers possibles du BNE pour voir si ce texte de Lope de Vega apparaît à un moment donné dans un document inattendu. Et puis nous élargirions à d’autres copistes : Calderón, Cervantes… » Bref, il y a encore beaucoup à réviser.

Malgier-Favager

"Incurable troublemaker. Explorer. Student. Professional alcohol specialist. Internet geek."

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *