Introduction
Anne Rochebouet
Le texte médiéval à l’épreuve du numérique
Depuis les travaux de Roberto Busa qui commença à utiliser, à partir de 1949, le traitement automatique des données pour réaliser entre autres des concordances pour l’œuvre de Thomas d’Aquin1, les humanités seraient désormais devenues, du moins en partie, numériques. Si l’omniprésence du syntagme, ou de son équivalent anglo-saxon digital humanities, dans les projets de recherche comme dans le champ institutionnel de l’enseignement supérieur et de la recherche atteste autant d’une réalité des pratiques que d’un effet de mode, voire d’un certain opportunisme dans un contexte où toute la société est présentée comme en pleine et nécessaire mue numérique, il est indéniable que les dix dernières années ont vu fondamentalement changer le mode d’accès et d’exploitation des données de la recherche. Les études médiévales, quelle que soit leur discipline, ne font pas exception2 et les projets mettant en jeu des outils numériques se sont multipliés, comme les publications sur le sujet.
Face à ce champ en plein essor, l’objectif de la journée d’études qui a eu lieu en juin 2016 à l’Université de Versailles-Saint-Quentin, en partenariat avec l’Université Laval à Québec et avec le labex Patrima, était double. Il s’agissait d’une part de s’inscrire résolument dans une logique pragmatique et technique, en présentant des dispositifs numériques à partir des contraintes et objectifs ayant guidé leur élaboration, de l’autre de se situer dans un dialogue entre les disciplines, mais aussi entre chercheurs et professionnels de la conservation et de l’information. En effet, l’omniprésence aujourd’hui des outils et du medium numériques, tout comme les fortes incitations à les utiliser qui pèsent sur les chercheurs, rendent indispensables l’échange et les retours d’expérience sur les dispositifs techniques adoptés ou mis en place par les uns ou les autres, et ce afin de favoriser leur réutilisation, comme celle des données produites, dans le cadre d’autres projets. Cela est d’autant plus nécessaire que les chercheurs comme leurs équipes ne disposent pas toujours des moyens techniques, humains et/ou financiers pour élaborer de tels outils3.
Pérennité et interopérabilité se veulent donc ici autant techniques (prise en compte et réflexion sur les normes, qui visent à assurer la compatibilité des différents formats et protocoles, mais aussi à garantir l’accès, sur un temps long, aux données produites face à l’évolution des machines et des langages4) que disciplinaires : il s’agit alors pour chacun, dans la mesure du possible, de penser l’exploitation numérique de son objet d’étude de manière à ce qu’il puisse également être utilisé dans le cadre de recherches menées avec des méthodes et des objectifs différents. Les professionnels de la conservation et de l’information qui travaillent dans le monde des archives, des musées et des bibliothèques ont également développé une grande expertise dans ces domaines, qui touchent directement un certain nombre de leurs missions (accès aux collections et aux fonds, valorisation par le développement d’outils de signalement et de recherche, conservation, notamment par la création de supports de substitution). Ils sont ainsi partie prenante de nombreux projets et groupes de réflexion (en particulier sur la constitution de normes internationales), dans une perspective de mise à disposition des collections et d’archivage des données qui n’est pas celle des chercheurs, mais dont ces derniers bénéficient.
C’est ainsi en s’appuyant avant tout sur des études de cas variées, par les corpus étudiés (du point du vue chronologique, géographique, linguistique comme quantitatif), par les méthodes et champs disciplinaires sollicités (histoire, philologie, linguistique, paléographie, littérature, etc.) et enfin par les moyens humains, techniques et financiers mis en œuvre, que ce dossier voudrait croiser les différentes utilisations, pour l’étude et l’exploitation des textes médiévaux, du support numérique comme des outils développés grâce au traitement automatique des données.
Les huit contributions qui vont suivre ont également comme point commun d’être centrées sur l’analyse de données textuelles. Cette limitation au texte, soit à toute « chaîne linguistique [ici] écrite formant une unité communicationnelle »5, explique l’absence de projets relevant du traitement du matériau linguistique pour lui-même (par exemple ceux menés dans le cadre de recherches lexicographiques au sens strict) : c’est ici l’unité textuelle et les analyses qui portent sur cette dernière qui sont mises en jeu, et non l’exploitation de segments linguistiques, utilisés indépendamment de l’ensemble dans lequel ils ont été puisés.
Le choix de se limiter à l’exploitation des textes n’implique pas en revanche que seul le contenu sémantique transmis par ce dernier soit celui envisagé ; la forme et l’inscription du texte sur son support semblent également faire partie, même si c’est souvent de manière secondaire comme nous le verrons, d’une partie des dispositifs présentés, et au-delà de bon nombre de projets en cours. Ce lien entre le texte et sa matérialité pourrait paraître paradoxal, la numérisation étant par essence une dématérialisation. Force est de constater cependant que la plupart des projets de recherche impliquant un recours au numérique associent textes et images, contenu sémantique et visualisation ou prise en compte du ou des support(s) qui le conserve(nt) et qui l’informe(nt) : il est par exemple rare aujourd’hui de trouver une édition électronique de texte qui ne comporterait pas de renvois aux reproductions numérisées du ou des manuscrit(s) ou document(s) utilisés ; de même, dans le langage XML-TEI6, l’un des plus utilisés actuellement par la communauté scientifique pour les éditions et publications en ligne, les balises servant à décrire la mise en page et la forme du support sont parmi les plus développées7. La présence de l’image ou de la mémoire de la forme originelle du texte doit cependant être diversement interprétée8 : elle est notamment en partie significative de la façon dont le support numérique brouille, pour le lecteur qu’est le chercheur, les différents statuts du texte. En cela, ce support met à l’épreuve notre notion du texte comme les questions que nous lui posons, tout en étant un formidable révélateur de nos choix méthodologiques comme de nos paradigmes épistémologiques, et c’est sur cette labilité, exposée et renforcée par le numérique, que je voudrais m’arrêter ici.
Il n’est pas inutile de rappeler que l’emploi que nous faisons du terme numérique le place à la fois du côté de l’outil (il renvoie alors au traitement automatique, par la machine, de données9) et du côté du medium (moyen d’accès et, via l’écran, d’appréhension et de mise en forme des données). Le Digital Turn ou la « conversion numérique »10 implique ainsi toujours une migration des données qui, avec le développement de l’Internet, s’accompagne très souvent d’une publication, c’est-à-dire de leur mise à disposition, en accès libre ou restreint, sur le Web. Le travail de publication et d’édition en ligne qui en résulte consiste ainsi à traduire le texte, augmenté ou non d’un autre type de contenu, en du code informatique « destiné à être interprété par des systèmes techniques sur lesquels l’éditeur n’a pas de maîtrise »11 ; parmi ce code informatique doivent également figurer des métadonnées, qui identifient et décrivent, pour la machine, ce qui a été codé. Le producteur de texte ainsi numérisé, que ce dernier soit ensuite destiné à une lecture linéaire ou à une consultation par l’intermédiaire d’une base de données, est donc aussi et avant tout un méta-éditeur, c’est-à-dire qu’il ne fixe plus la forme du texte12 qu’il publie ou établit, mais lui donne une place dans un système de référencement en programmant les outils informatiques qui lui donneront forme à sa place. Cela est d’autant plus vrai à l’heure du Web sémantique, parfois appelé Web 3.0, où le lien est fait directement entre les données, et non plus entre les pages.
Dans le cas des textes médiévaux, les données de départ qui sont ainsi converties ont des statuts très différents, qu’uniformisent cependant une fois sur l’écran à la fois le manque de métadonnées (ou l’inadéquation de certains champs communément utilisés) et la mise en forme, souvent standardisée, appliquée par les logiciels, et notamment les logiciels de gestion de contenu13. Une édition critique de la seconde moitié du xixe siècle, tombée dans le domaine public et accessible via de grandes plate-formes de numérisation comme archive.org, n’obéit pas aux mêmes objectifs ni à la même méthodologie que la transcription directement effectuée sur un seul témoin dans le cadre d’un projet de recherche (ou d’une opération de crowdsourcing14), ou encore que l’océrisation15 d’une édition imprimée du xvie ou du xviiie siècle, numérisée en mode image et disponible sur Gallica. Le numérique brouille ainsi, bien davantage que la publication papier, la distinction entre transcription de travail, fac-similé et édition critique – quels que soient les critères méthodologiques qui guident cette dernière.
Mais cette labilité de statut du texte numérique ne relève pas d’une simple problématique de critique des sources, bien connue par ailleurs des médiévistes16. L’inventaire rapide, dressé plus haut, des différentes opérations que nécessite l’utilisation de données textuelles numériques (et qui conditionnent en partie l’exploitation qui peut en être faite) permet de voir que la difficulté est renforcée par les spécificités du medium numérique. Notre appréhension des textes y est en effet guidée par une double illusion mimétique, celle de l’écran et celle de la machine. Comme le soulignent nombre de travaux des sciences de l’information et de la communication, l’écran, notamment par l’usage extensif qu’il fait désormais de l’image17, est considéré implicitement comme garantissant un accès direct, non médié, entre l’utilisateur et les données, par exemple ici le manuscrit ; la machine quant à elle est perçue comme gage d’une « objectivité computationnelle »18 : instrument mécanique, elle apparaît comme un moyen d’appréhension neutre et objectif de ces mêmes données. Or toute migration de support implique une opération de transposition, qui ne peut être blanche, mais s’appuie au contraire sur une série de choix, et donc d’interprétations.
À ces illusions mimétiques, largement impensées, s’ajoute le poids des pratiques, qu’il ne faut pas négliger, car elles encouragent des usages en créant des horizons d’attente formels comme intellectuels. C’est ainsi d’abord comme formidable démultiplicateur d’accès libre et ouvert aux collections, aux fonds, et donc aux documents et aux objets qu’a été et qu’est toujours utilisé le numérique par les institutions de conservation : elles ont ainsi particulièrement développé, dans la dernière décennie notamment19, la numérisation de leurs collections (entendue ici comme la migration vers un support numérique permettant une visualisation en mode image, accompagnée d’un référencement et/ou d’un balisage plus ou moins fin). C’est en partie dans la suite de ce mouvement que les projets utilisant le numérique intègrent très souvent dans leurs objectifs premiers de donner accès aux document « primaires » sur lesquels sont basées leurs recherches. Cette problématique d’accès aux documents et aux sources entraîne un recours massif, mais finalement peu interrogé, à des types de traitement et de présentation perçus comme descriptifs ou documentaires, et à une appréhension du numérique et de l’Internet comme lieu de dépôt de données qui seraient, comme on l’a vu, non médiées. C’est ainsi une sorte de culture, visuelle et intellectuelle, du fac-similé qui est pour l’instant prégnante dans les projets numériques aux dépens de la réflexion sur les différents statuts du texte par rapport au document ou l’objet qui le contient. En s’appuyant ainsi sur l’idée que le passage au numérique est une opération neutre, favorisée par une forme de mimétisme technique (la reprise sans l’interroger du protocole technique proposé par un autre projet), c’est alors l’importance des choix effectués par tout transcripteur ou éditeur qu’on risque de gommer, comme la différence entre le texte, l’œuvre et le (ou les) documents.
C’est entre autres ce que souligne Frédéric Duval dans sa synthèse sur les pratiques actuelles de l’édition de textes numérique, qui ouvre le dossier. Dans le cas des éditions de textes médiévaux français, auxquels il se limite ici, il montre ainsi que c’est l’édition de type documentaire, celle qui veut donner accès à un témoin (document) et non au texte ou à l’œuvre (work), qui est pour l’instant largement répandue.
Les sept contributions qui suivent présentent des retours d’expérience sur des projets en cours ainsi que sur les outils informatiques développés ou adoptés dans leur cadre, comme sur les perspectives offertes par ces derniers. Du côté des outils conçus à partir d’éditions de texte nativement numériques ou de textes numérisés, c’est d’abord la gestion des données prosopographiques qui retient Graziella Pastore : à partir d’un corpus restreint, tiré de l’édition électronique d’une compilation juridique en français médiéval, le Livre de jostice et de plet, elle détaille comment constituer une base de données avec le logiciel libre Omeka. C’est également sur les entités nommées (personnages, institutions, lieux) que porte le travail de Sergio Torres Aguilar, qui, par l’automatisation de leur identification à l’intérieur des chartes latines préalablement numérisées au sein du Corpus Burgundiae Medii Aevi, vise à créer un outil d’interrogation, et au-delà de structuration de telles bases, tout en prenant en compte la spécificité des documents médiévaux et des questionnements qui leur sont appliqués. La confrontation de la machine aux manuscrits médiévaux est de même au centre du projet HIMANIS (HIstorical MANuscript Indexing for user-controlled Search) présenté ici par Dominique Stutzmann, Sébastien Hamel et Jean-François Moufflet ; l’objectif en est d’indexer les registres de la chancellerie royale française (1302-1483) conservés aux Archives nationales à partir des images numérisées des manuscrits, mais aussi des index et éditions imprimées existantes. Il s’agit autant de réfléchir à la manière pour la machine d’« apprendre » à déchiffrer des manuscrits qu’à la façon de donner accès aux données produites en fonction d’un modèle interprétatif pertinent. La gestion des données massives, les big datas, sont ainsi la toile de fond de ces différents projets.
Les contributions de Xavier-Laurent Salvador et Thibault Clerice présentent quant à elles deux types différents de gestionnaires de contenu numérique, en s’interrogeant notamment sur la modélisation et la structuration, permises par ce biais, des données textuelles. À partir de l’exemple de la Bible historiale de Guyart des Moulins, première traduction intégrale commentée en prose française médiévale, Xavier-Laurent Salvador décrit le principe de fonctionnement d’Isilex, outil de saisie et de mise en ligne de corpus automatisés couplant XML et logique REST XQuery. Thibault Clerice expose de son côté les différentes fonctionnalités de CapiTainS, outil qui fournit un ensemble de service et d’interfaces pour l’exploitation des publications numériques et de leurs données.
Les projets présentés peuvent enfin entrer dans la logique cumulative et collaborative de la plate-forme ou du portail dont l’objectif est de structurer des informations de statut et de types variés, réunies petit à petit, pour mieux appréhender les corpus d’études ainsi constitués. Anne Salamon fait la genèse de la mise au point du portail H(istoires) U(niverselles) 15, qui doit permettre d’étudier les histoires universelles du xve siècle, corpus historique de langue française particulièrement difficile d’accès du fait de sa taille mais aussi du caractère inédit et mal connu de la plupart des textes concernés. Davide Gherdevich expose de son côté le fonctionnement du site collaboratif POLIMA (POuvoirs de la LIste au Moyen Âge), basé sur MediaWiki et Semantic MediaWiki, qui vise à la fois à créer un corpus de travail et un moyen d’interroger, dans une perspective interdisciplinaire, ce dernier.
Tous ces projets interrogent les possibilités et les contraintes générées par le traitement numérique des données textuelles médiévales. Au-delà de l’intérêt spécifique de chaque étude de cas, leur réunion dans ce dossier thématique a enfin pour objectif de dépasser la simple revue des pratiques pour appréhender ce que le numérique fait au texte médiéval, ou, pour le dire autrement, comment les usages numériques actuels guident et influencent notre appréhension de ces textes comme de leurs supports, et informent donc en partie les questions que nous leur posons par le biais de ces dispositifs numériques.