Cluster 13

Projet Patrimoine et territoire

Exploitation des corpus numérisés : étude de faisabilité pour des ensembles de documents patrimoniaux médiévaux

2009
contact : Jean-Louis GAULIN, Nouvel auteur

La reproduction des fonds manuscrits médiévaux sous forme digitale est un mouvement massif : bibliothèques et archives offrent de plus en plus d’accès aux images numérisées de codices et dossiers. Ces nouveaux supports questionnent la pratique de l’historien : non seulement notre accès, immédiat ou à distance aux documents est facilité, mais encore nous sommes face à de nouvelles questions heuristiques. Comment exploiter ces fonds numérisés, si l’on souhaite dépasser la simple lecture et transcription à l’œil nu ?

Il y a quelques années encore on aurait évoqué des machines de reconnaissance automatique des textes. La démarche qui semble plus réaliste et plus prometteuse est celle qui va consister, pour un corpus donné, à concevoir et à élaborer une chaîne de numérisation dans le cadre d’une coopération entre les spécialistes du corpus et des experts du numérique. Cette démarche permettra de co-concevoir des outils et des méthodes correspondant aux pratiques et aux usages des spécialistes du Corpus ; de ce fait les outils et méthodes ne seront pas informatiquement parlant surdimensionnés par rapport à l’usage qui en sera fait. Cette démarche est aussi celle qui permettra de repérer et de mettre en relief le maximum de l’information portée par le document.

Dans les documents textuels comme les « Comptes des Châtellenie » ou les « Lettres papales » l’information à exploiter se situe à trois niveaux. a) Il y a d’abord l’information portée par les lignes de textes, c’est le contenu proprement dit. b) Il y a ensuite toutes les informations inhérentes à la mise en page du document ; conçue par les scripteurs, elle permet de mettre en relief le contenu, et de faciliter la lecture. c) Il y a enfin des informations présentes, de facto, mais qui ne correspondent pas à une volonté initiale du scripteur ; dans le cas des documents médiévaux les styles d’écritures, les changements de main, les traces de vieillissement relèvent de ce type d’information, au demeurant fort utile pour l’historien.

La potentialité d’extraction des informations dépend de la qualité de la numérisation ; les caractéristiques de cette numérisation (résolution, couleur ou niveaux de gris, etc.) ne doivent pas être choisies a priori, mais après une étude de faisabilité qui nous permettra de nous assurer que nous ne perdons pas d’information lors de la capture des images.

Le projet

La présente action est présentée par :
-  Une équipe de recherche en médiévistique, d’une part
-  Le LIRIS d’autre part, d’autre part

Ces équipes sont actives dans le Cluster 13, dans différents projets. Elles se proposent de mettre en commun leur expertise afin de conduire une étude de faisabilité et d’opportunité, et d’élaborer un cahier de charge pour l’exploitation scientifique de deux corpus présentés à titre d’exemples dans les lignes suivantes. Ce cahier de charges permettra de présenter un projet de recherche pertinent lors d’un prochain appel à projet de l’ANR (voire de l’Union Européenne).

Les Corpus

Deux ensembles documentaires pourront servir de base à cette étude ; quelques exemplaires ont été numérisés à partir de microfilms.

Des comptes de châtellenie savoyards : grâce à une collaboration avec les Archives départementales de Savoie, plusieurs centaines de comptes du XIIIe siècle ont été numérisés et sont en cours d’étude par le programme « Comptes de châtellenies savoyards », soutenu depuis 2006 par la région Rhône-Alpes, permettant de multiples enquêtes historiques (histoire de l’administration, de la justice, des terroirs, des châteaux ...), dans une optique à la fois locale, régionale et transfrontalière. Au-delà de cette première tranche de numérisation, cet ensemble documentaire comprend potentiellement plus de 20 000 comptes médiévaux savoyards (du XIIIe au XVe siècle). Alors qu’une transcription traditionnelle nécessiterait plusieurs générations de chercheurs, ce large fonds, composé de documents comptables très structurés (avec notamment des rubriques récurrentes), semble un excellent champ d’expérimentation d’outils créé ou à concevoir dans le LIRIS.

Des "lettres secrètes et curiales" des pontifes. Ces lettres concernent principalement les relations politiques du chef de l’Eglise avec les princes et le gouvernement du temporel. Elles se comptent par milliers, offrant un fascinant aperçu des méthodes de gouvernement exercé par la Curie pontificale, mais aussi des affaires auxquelles étaient confrontés ses correspondants à travers toute la Chrétienté. Ces lettres ont déjà fait l’objet d’entreprises éditoriales mais beaucoup reste à faire. Une méthode d’aide à la transcription assistée par ordinateur apporterait déjà une aide considérable, et cet ensemble constitue donc un champ d’expérimentation de premier ordre pour ces technologies.

Projet futur (ANR, UE)

Cette étude de faisabilité devra établir l’intérêt (s’il existe) de développer un programme plus ambitieux dans le cadre d’un projet d’ANR qui serait élaboré à la fin de l’année 2009. A cette date, les historiens auront aussi précisé le périmètre qu’ils souhaitent donner à l’enquête, d’un point de vue géographique (anciens Etats de Savoie, ou, plus largement Sud-Est de la France) et documentaire (limitation du projet à la comptabilité d’origine ou extension à la documentation produite par les établissements ecclésiastiques ou encore par les entreprises commerciales). Cette action conjointe « Comptes de châtellenies » et LIRIS est adressée au cluster 13 assortie d’une demande d’appui budgétaire destinée à financer des missions aux Archives (examen de la documentation originale et des conditions de numérisation), des réunions, et l’achat du matériel informatique nécessaire.

Premières pistes de travail à explorer

Pour les comptes des Châtellenie De nos premières réunions de travail, il est ressorti que le LIRIS peut découper les rouleaux en rubriques et peut indexer ces rubriques. La méthode permettant d’extraire les rubriques va s’appuyer sur les titres de ces rubriques qui sont positionnés de façon marginale par rapport aux rubriques.

Pour l’indexation, on élaborera une méthode de la famille du "word spotting" en s’appuyant sur les informations que fourniront les historiens quant aux contenus des rubriques et au degré de régularité de celles-ci.

Rappelons que le « Word Spotting » est un ensemble d’outils logiciels qui est capable de retrouver toutes les occurrences d’un mot dans un texte en mode image. On dispose de deux façons d’indiquer le mot qui nous intéresse à l’ordinateur :
-  On lui indique une occurrence du mot sur l’image avec la souris,
-  Si on a une bonne connaissance de l’écriture manuscrite du document étudié, on peut directement saisir le mot au clavier ; un logiciel que l’on aura préalablement élaboré en s’appuyant sur la connaissance de l’écriture construira l’image du mot et on sera ramené au cas précédent.

Pour les lettres secrètes Une première piste de travail consisterait à utiliser un produit de « reconnaissance à la volée » qui vient d’être mis au point au LIRIS et à l’adapter pour en faire un outil d’aide à la transcription. Cette approche tente de prendre en compte de la façon la plus intelligente et ergonomique possible une nécessaire intervention humaine pour corriger la reconnaissance. Après un apprentissage très réduit, le logiciel tente d’abord de reconnaitre les mots qui lui sont soumis en procédant par itérations successives, et ne demande de l’aide à l’historien que lorsqu’il ne trouve pas de solution. Cette solution d’aide à la transcription ne cherche donc pas à se substituer au chercheur, mais à optimiser ses interventions dans le processus de reconnaissance. Bilan de la recherche Nous conclurons l’année de travail par une dernière réunion avec tous les partenaires qui auront contribué à cette recherche. La présentation de ce bilan pour les membres du Cluster et pour les chercheurs intéressés donnera lieu à une journée organisée à Chambéry.



Établissements rhônalpins engagés :
— Université Lumière Lyon 2 (établissement porteur), ENS-LSH (établissement d’hébergement)
— INSA, Université Claude Bernard Lyon 1, Université Jean Moulin Lyon 3, Université de Savoie (Chambéry), Université Stendhal Grenoble 3, Université Pierre-Mendès France Grenoble 2, Université Jean Monnet Saint-Étienne

Le CNRS participe à travers ses chercheurs à temps plein et son rôle d’opérateur national auprès des unités de recherche ou de service dont il partage la tutelle avec les établissements précités, y compris l’Institut des Sciences de l’Homme.

Dans la seule limite de ses moyens, le cluster a naturellement vocation à faire bon accueil à toute proposition en rapport avec ses thématiques lorsqu’elle émane de collectivités territoriales, d’associations, d’institutions ou d’entreprises rhônalpines.