Cluster 13

Projet Corpus numériques

Journées d’étude

Métadonnées et outils d’analyse des contenus des images de manuscrits

3 juillet 2007
Matinée d’étude et de démonstrations des travaux du LIRIS (Laboratoire d’InfoRmatique en Images et Systèmes d’information) en traitement informatique de l’image
contact : Véronique Eglin, Antony Mckenna

Interventions : Véronique Eglin, Guillaume Joutel, Yann Leydier - LIRIS, INSA Lyon

- ENS LSH, salle R20 (bâtiment Recherche), de 10h à 13h.

Merci de confirmer votre présence en remplisant le formulaire ci-dessous.

Depuis quelques années, une révolution majeure est en train de s’opérer dans le monde de la communication. Nous passons progressivement du commerce des outils logiciels et des services au commerce des savoirs et des connaissances. Cette évolution, largement entraînée par certains industriels comme Google, a permis aux bibliothèques et aux archives d’obtenir des moyens financiers pour numériser sur une grande échelle leurs fonds de façon à les promouvoir dans le monde.

Aujourd’hui les nombreux projets de numérisation en France, en Europe et dans le monde produisent quotidiennement une grande quantité d’images. Parmi ces ouvrages, les documents anciens et plus particulièrement les documents manuscrits autographes d’auteurs, les manuscrits de mains humanistes ou plus encore les documents manuscrits du Moyen Age ne peuvent être interprétés que par un très petit nombre d’experts. Or, les connaissances qu’ils renferment sont importantes pour la culture et l’enseignement, il est donc important de se préoccuper aujourd’hui de la manière de les exploiter au mieux en allant chercher au cœur des pages écrites les indices et les informations qui les contiennent.

Par ailleurs, il faut également constater que le développement d’outils informatiques pour le traitement automatique des grandes bases d’images de documents historiques a pris un retard considérable ces dix dernières années, sans doute lié à l’absence de collaboration entre chercheurs en informatique et historiens. De nombreux projets de coopération tentent aujourd’hui d’y remédier. A ce titre, le laboratoire LIRIS est impliqué dans différentes actions de sauvegarde, de valorisation et d’accès au contenu du patrimoine écrit ancien.

L’exploitation et la valorisation à venir de ces collections d’images n’ont pas encore trouvé de réponses satisfaisantes, du fait même de leur caractère faiblement structuré. La génération de ces entrepôts de données, présentés sous forme de collections de documents hétérogènes faiblement structurés soulève le problème de la recherche d’information et de la navigation au sein de ces corpus. L’accès à ces gros volumes de données visuelles comprend ainsi deux étapes essentielles sur lesquelles il faut se pencher :
- l’indexation des données : les données sont traitées en vue de l’identification et de l’extraction des traits caractéristiques spécifiques au contenu. Les primitives extraites sont organisées et structurées pour former des index d’images. Le rôle de ces index est d’aider à l’efficacité du processus de recherche et d’accès aux données originales, et pour réaliser notamment des outils de comparaisons entre images selon leur ressemblance.
- la recherche et l’accès aux données : une recherche se base la plupart du temps sur une requête constituée d’une ou de plusieurs primitives. La recherche consiste alors en une mise en correspondance à partir d’une mesure de similarité permettant d’apparier les images ou les portions d’images entre elles.

L’exposé présenté fera le tour des besoins exprimés en matière de valorisation et de recherche par le contenu dans les grandes bases de manuscrits. Il présentera les solutions logicielles actuellement développées au LIRIS pour permettre un accès facilité aux contenus, en proposant notamment la définition de nouveaux descripteurs de formes permettant de résoudre les étapes d’indexation et de recherche précédemment citées. Les applications visées sont :
- La recherche de documents dans de grandes bases d’images selon leur mise en page et l’agencement des données
- l’identification des scripteurs
- le repérage d’éléments de contenu (recherche d’occurrences de mots)

Pour décrire les données que nous traitons, il faut tout d’abord rappeler que les caractéristiques des images de manuscrits et leur contenu ne se limitent pas aux données écrites (le texte), et qu’il existe quantité de métadonnées (autres que celles liées au texte) susceptibles d’enrichir la description d’une page numérisée.

Les images numérisées du patrimoine écrit qui serviront d’exemples à ces démonstrations sont issues de différents corpus d’images. Les outils de caractérisation des formes qui seront proposés ont été imaginés pour résister au mieux à la grande diversité des formes présentes dans les images tout en gardant une forme de généricité pour continuer à évoluer.

Pour préparer la séance
- [en] Word Spotting for Handwritten Historical Document Retrieval http://ciir.cs.umass.edu/irdemo/hw-demo/wordspot_retr.html

Descriptif :

Inscription à la matinée d’étude et de démonstrations

Identifiants personnels
Lien hypertexte :

2493 Signatures

Date Nom Message
7 février 2013
18 janvier 2013
18 janvier 2013
15 janvier 2013
10 janvier 2013
10 janvier 2013
Bastien
10 janvier 2013
Noe
9 janvier 2013
8 janvier 2013
Lucas
4 janvier 2013
3 janvier 2013
Ésmée Leboeuf
2 janvier 2013
Lorenzo
2 janvier 2013
27 décembre 2012
24 décembre 2012

... | 60 | 75 | 90 | 105 | 120 | 135 | 150 | 165 | 180 |...



Établissements rhônalpins engagés :
— Université Lumière Lyon 2 (établissement porteur), ENS-LSH (établissement d’hébergement)
— INSA, Université Claude Bernard Lyon 1, Université Jean Moulin Lyon 3, Université de Savoie (Chambéry), Université Stendhal Grenoble 3, Université Pierre-Mendès France Grenoble 2, Université Jean Monnet Saint-Étienne

Le CNRS participe à travers ses chercheurs à temps plein et son rôle d’opérateur national auprès des unités de recherche ou de service dont il partage la tutelle avec les établissements précités, y compris l’Institut des Sciences de l’Homme.

Dans la seule limite de ses moyens, le cluster a naturellement vocation à faire bon accueil à toute proposition en rapport avec ses thématiques lorsqu’elle émane de collectivités territoriales, d’associations, d’institutions ou d’entreprises rhônalpines.