Cluster 13

Projet Corpus numériques

La gazette de Leyde.

5 mars 2008
contact : Franck Lebourgeois, Mercier-Faivre Anne-Marie
Voir en ligne : Les Gazettes européennes au 18ème siècle

Cette action fait suite à l’action du projet Numérisation et Reconnaissance qui était intitulée Numérisation et Reconnaissance de caractères : ouvrages et presse du 18e siècle. Le titre est plus restreint mais les objectifs demeurent les mêmes.

Les gazettes européennes de langue française couvrent toute l’histoire du 18e siècle européen et tendent - pour reprendre le titre de l’ouvrage de P. Rétat sur la Gazette d’Amsterdam - un "miroir" à l’Europe de ce temps (ou du moins montrent l’image qu’elle se construit d’elle-même).

Ce matériau, capital pour la recherche, est souvent difficile d’accès :
- peu de collections complètes,
- des exemplaires dispersés dans toutes les bibliothèques du monde.

Pour cette raison, le groupe d’études du 18e siècle de Lyon a publié il y a quelques années à la Voltaire foundation (Oxford), un CD-Rom offrant, en mode image, la collection complète de la Gazette d’Amsterdam. Depuis, la réflexion se poursuit afin de compléter cette bibliothèque numérique de presse et d’améliorer son étude par le développement d’outils de recherches jusqu’ici inexistants. L’objectif des équipes lyonnaises est d’être moteur d’un vaste projet européen dédié aux gazettes européennes du 18esiècle (gazettes de Leyde, d’Utrecht, d’Avignon, des Deux-Ponts,...). Ce s’attaquerait à la numérisation des gazettes et les rendraient plus lisibles via des outils de recherche de mots (la mauvaise qualité d’impression de ces textes excluant une simple reconnaissance de caractères).

Le présent projet, limité à la gazette de Leyde a pour objet l’élaboration, le développement et l’évaluation d’un certain nombre de méthodes et d’outils permettant d’accéder totalement ou partiellement au contenu textuel. Il n’a pas pour objet l’exploitation des contenus mais uniquement la construction des outils qui favoriseront cette exploitation.

Trois voies sont envisagées :
- la transcription assistée pour les textes bien numérisés ou restaurés,
- la reconnaissance de la structure, au niveau de la page et de la revue dans son intégralité pour retrouver les différentes parties d’un même article,
- l’accès direct à des mots choisis (techniques de word spotting et de word retrieval).



Établissements rhônalpins engagés :
— Université Lumière Lyon 2 (établissement porteur), ENS-LSH (établissement d’hébergement)
— INSA, Université Claude Bernard Lyon 1, Université Jean Moulin Lyon 3, Université de Savoie (Chambéry), Université Stendhal Grenoble 3, Université Pierre-Mendès France Grenoble 2, Université Jean Monnet Saint-Étienne

Le CNRS participe à travers ses chercheurs à temps plein et son rôle d’opérateur national auprès des unités de recherche ou de service dont il partage la tutelle avec les établissements précités, y compris l’Institut des Sciences de l’Homme.

Dans la seule limite de ses moyens, le cluster a naturellement vocation à faire bon accueil à toute proposition en rapport avec ses thématiques lorsqu’elle émane de collectivités territoriales, d’associations, d’institutions ou d’entreprises rhônalpines.