Cluster 13

Projet Corpus numériques

Numérisation et Reconnaissance de caractères : ouvrages et gazettes du 18e siècle.

5 mars 2008
contact : Mercier-Faivre Anne-Marie, Nouvel auteur

Ce projet d’une durée de trois ans a pour objet l’élaboration de méthodes et de logiciels innovants pour la reconnaissance des textes dans les ouvrages et gazettes du 18e . Il associe les compétences de deux laboratoires LIRE (plus précisément le groupe d’études du 18e pour ses connaissances des imprimés du 18e) et le LIRIS (pour son savoir faire dans la définition des outils de reconnaissance).

Le groupe d’études du 18e siècle dirigé par Anne-Marie Faivre-Mercier et Chantal Thomas est inscrit dans l’unité mixte de recherches LIRE (CNRS-LYON2) dirigée par Philippe Régnier. Il s’est spécialisé dans l’étude de la presse au 18e siècle et dans l’analyse des représentations (notamment politiques) à travers des textes d’origines variées : le dernier ouvrage paru publié par le groupe (Le Régent entre fable et histoire, CNRS éditions, 2003) exploite aussi bien des textes reconnus pour leur valeur littéraire (Saint-Simon par exemple) que des pamphlets, des manuscrits ou des documents d’archives. Le groupe a aussi travaillé sur le genre des « vies privées », collection d’œuvres entre le genre du pamphlet et celui de la biographie et publiées entre 1780 et 1820. Un ouvrage collectif est en cours d’achèvement et un colloque est prévu sur ce thème en 2008, intitulé « biographie et politique ».

Le groupe s’attache à l’ouverture de ses recherches à un public large : il a notamment dans ce but organisé autour de son dernier colloque (« écrire la catastrophe ») la venue de Jean-Pierre Dupuy pour une conférence à la bibliothèque de Lyon et une exposition sur le thème de la représentation et médiatisation de la catastrophe 17e-19e siècle) de janvier à mai 2005. Le groupe s’est aussi spécialisé dans le recensement, la reproduction et la numérisation de textes rares du 18e siècle. Un premier projet, celui de la numérisation de la collection complète de la Gazette d’Amsterdam sur CD-Rom a paru à la Voltaire foundation (P. Rétat pour la direction et P. Ferrand et D. Roux pour la réalisation technique). Depuis, le groupe explore les possibilités de poursuite de cette entreprise à travers la reconnaissance de caractères et des textes, en particulier dans le cas de numérisation de la gazette de Leyde et de la numérisation de la Vie privée de Louis XV.

Développement de méthodes et d’outils opérationnels Numérisation :

Pour les ouvrages tels que la Vie privée de Louis XV, la numérisation au sens de capture et création du fichier numérique pourra être réalisée dans des conditions que nous pourrons maîtriser puisque nous disposons d’un exemplaire de cet ouvrage à Lyon ; nous ferons des captures à haute définition (en évitant l’emploi de compression destructrices telles JPEG) puisque les fichiers ainsi créés sont destinés à des traitements informatiques qui exigent une résolution élevée.

Pour la Revue de Leyde, le problème de la numérisation se pose en d’autres termes. Nous bénéficions du travail considérable qui a consisté à microfilmer tous les exemplaires de la revue et à re-créer des collections complètes et disponibles en un même lieu. Malheureusement, la numérisation des microfilms n’a pas le même degré de qualité qu’une numérisation faite directement à partir de l’original. Les pertes d’informations (qui s’expliquent techniquement par des accentuations de contrastes faites au moment du microfilmage ) entraînent des dégradations qui posent des problèmes lors de l’emploi de logiciels.

Une étude préalable sera faite en comparant deux numérisations d’un exemplaire d’une même année, la numérisation directe et la numérisation du microfilm ; on essayera de dégager un modèle des dégradations pour ensuite pouvoir améliorer-restaurer les images numérisées obtenues à partir des microfilms, seule solution réaliste et réalisable aujourd’hui. L’intérêt de cette étude comparative n’est pas à démontrer, de nombreux textes ont été microfilmés depuis quelques dizaines d’années.

Reconnaissance de caractères et de textes imprimés Nous devons distinguer deux niveaux de reconnaissance, la reconnaissance du texte proprement dit, la reconnaissance de la structure logique associée à la mise en page de ce texte. Les logiciels dits d’O.C.R. (Optical Caracter Recognition) donnent des résultats fiables sur les textes de la deuxième moitié du vingtième siècle. Sur les autres textes imprimés les résultats sont d’autant plus aléatoires que l’on remonte davantage dans les siècles précédents. Peu de travaux de recherche originaux ont été faits, y compris dans le cadre des projets européens. Il convient de mentionner le projet Méta-@ qui a développé un moteur de reconnaissance pour les polices de la famille Fractur du 19e siècle et le projet DEBORA dans lequel les équipes lyonnaises des animateurs du présent projet ont réussi à mettre point une démarche originale pour la transcription des ouvrages de la Renaissance. Cette méthode est basée sur la recherche de composantes connexes dans le textes et la construction, par les spécialistes de la Renaissance, d’une table de correspondance.

Mise au point d’un moteur de transcription pour les imprimés du 18e siècle Nous allons nous inspirer de la méthode DEBORA en l’adaptant aux spécificités du texte imprimé du 18e siècle ; pour améliorer le fonctionnement du moteur créé (en fiabilité, rapidité, facilité de mise en œuvre) nous allons intégrer dans notre moteur l’utilisation d’un dictionnaire numérisé. Vaincre toutes les difficultés liées à ce couplage (elles sont nombreuses !) nous permettrait, au delà de l’outil ainsi créé d’acquérir une méthodologie applicable à des textes de périodes plus récentes, en particulier à ceux du 19esiècle. Il convient de préciser que l’élaboration des transcripteurs nécessite une coopération entre les informaticiens et les spécialistes des textes de 18e siècle, ce sont en particulier ces derniers qui doivent établir les tables de transcription. Une expérimentation immédiate serait faite, sur l’ouvrage Vie privée de Louis XV ; les caractéristiques éditoriales de cet ouvrage, édité pour la première fois en 1784 en feront un excellent "ballon d’essai". Des essais-validations seront faits sur d’autres ouvrages de la même époque, provenant de l’UMR LIRE et de la Bibliothèque municipale de Lyon qui s’associera à notre recherche.

Reconnaissance de particularités et restauration. Le cas des gazettes. Pour avoir une proposition de solution complète nous allons travailler sur des documents structurés du 18e et sur la reconnaissance des structures logiques, élaborer une solution sous forme d’un démonstrateur appliquée à des exemplaires des revues de Leyde (1667-1811). Cette revue est assez dégradée, notamment au niveau des caractères . On pourra élaborer et tester des méthodes de restauration des caractères (par lissage morphologique notamment) devant faciliter leur reconnaissance automatique, au niveau des images issues de la numérisation directe des originaux et au niveau des images provenant de la numérisation des microfilms. Par ailleurs on pourra adapter des méthodes dites de Wordspotting, développéess par le LIRIS pour l’investigation des textes manuscrits (les manuscrits du Moyen-Age de l’I.R.H.T., les manuscrits arabes sub-sahariens). Ces méthodes permettent de chercher des occurrences de mots (de symboles) dans des textes en utilisant une approche sémiotique. Il est clair que la réussite de la présente proposition concernant les imprimés du 18e ouvrira une possibilité d’accès à tous les documents imprimés plus récents.



Établissements rhônalpins engagés :
— Université Lumière Lyon 2 (établissement porteur), ENS-LSH (établissement d’hébergement)
— INSA, Université Claude Bernard Lyon 1, Université Jean Moulin Lyon 3, Université de Savoie (Chambéry), Université Stendhal Grenoble 3, Université Pierre-Mendès France Grenoble 2, Université Jean Monnet Saint-Étienne

Le CNRS participe à travers ses chercheurs à temps plein et son rôle d’opérateur national auprès des unités de recherche ou de service dont il partage la tutelle avec les établissements précités, y compris l’Institut des Sciences de l’Homme.

Dans la seule limite de ses moyens, le cluster a naturellement vocation à faire bon accueil à toute proposition en rapport avec ses thématiques lorsqu’elle émane de collectivités territoriales, d’associations, d’institutions ou d’entreprises rhônalpines.