Cluster 13

Projet

Corpus numériques

Contact : Nouvel auteur

1 - La genèse du projet

Lors de la constitution du Cluster 13 Culture Patrimoine et Création, trois des projets proposés avaient un lien fort avec l’informatique et le numérique et avaient l’ambition de développer des méthodes et des outils permettant de mieux valoriser et exploiter les objets et contenus patrimoniaux. Il s’agissait des projets :

-  Bases de données multimédia,
-  Corpus linguistiques,
-  Numérisation et reconnaissance des documents.

Certaines difficultés étant apparues au niveau des deux premiers projets, le comité de programme du Cluster a étudié différentes solutions et a souhaité que se développe une réflexion quant à l’opportunité de créer en 2008 un nouveau projet centré sur le thème "corpus numérique" et qu’une animation scientifique soit immédiatement mise en place en 2007, autour de cette thématique, qui est à la fois centrale et transversale dans le Cluster 13

Il était évident que de nombreux projets de recherche, en l’état ou en devenir pouvaient se retrouver dans cette thématique ; ces projets sont caractérisés par : a) des objectifs scientifiques propres à une discipline des sciences humaines et sociales, impliquant des contenus média complexes (des éléments de textes, d’images fixes, de son et d’images animées/vidéos numériques), b) des objectifs scientifiques novateurs en infor¬ma¬tique et numérique, définis en collaboration interdisciplinaire avec les cher¬cheurs en SHS.

Les premières réunions de travail, en janvier et février 2007 ont démontré la pertinence des souhaits du Comité de programme et le fait que l’on pouvait restructurer en profondeur le Cluster, en élaborant un projet "Corpus Numériques" remplaçant les projets "Bases de données multimédia", corpus linguistiques" et aussi "Numérisation et Reconnaissance" ; les actions de ces projets devant alors être reformulées en actions dans "Corpus Numériques"

La premier appel à projets se traduit par la proposition d’une quinzaine d’actions, certaines sont issues des projets évoqués plus haut, d’autres sont nouvelles et s’ouvrent sur des domaines où le Cluster est encore peu présent.

Le thème Corpus Numériques apparaît plus fédérateur que la simple somme des trois projets précédents, chacun de ces projets portant une spécialisation marquée. Il faut noter que tous les porteurs de projets du cluster ont pris part à la réflexion qui s’est engagée.

D’autre propositions sont à l’étude ; deux de ces propositions ainsi évoquées concernent le patrimoine "récent" et son lien avec la création ; ils pourraient prendre une valeur emblématique dans le cluster parce qu’ils concrétiseraient la "synthèse" des trois mots culture, patrimoine, création : il s’agit d’un projet de corpus numérique bâti autour du Centre Lumière à Lyon et d’un autre autour du Musée d’Art Contemporain de Saint Etienne.

2 - Les Corpus numériques

Les corpus numériques qui sont proposés ont tous une vocation patrimoniale, non pas parce qu’ils sont eux-mêmes des oeuvres originales, mais parce qu’ils en sont des représentations, issues, soit d’un processus de numérisation qui les transforme en documentation visuellement exploitable (le cas des images), soit d’une transcription ou d’une description structurée (pour les textes) s’exprimant selon des standards de représentation. L’instrumentation informatique est ici au cœur même du corpus dans le sens où elle offre des possibilités de structuration et de codage des données qui s’exprimeront à travers les formats de représentation, d’échange, mais aussi à travers la navigation et l’accès à l’information, l’analyse exploratoire des contenus, la visualisation et l’interaction avec l’utilisateur.

Le corpus numérique est donc plus qu’un ensemble de données collectées, il contient tout à la fois une représentation structurée des contenus, un enrichissement évolutif et un réseau de relations, d’index et de connaissances en évolution permanente

Profitant de la richesse du patrimoine directement exploitable en région Rhône-Alpes par le biais des institutions partenaires, nous tâcherons de démontrer à travers ce projet de cluster qu’il est possible de mettre en place des démarches systémiques de sauvegarde, de représentation, de stockage et de valorisation des données numériques ou numérisées servant ainsi d’exemples à des projets et des besoins futurs.

Ce défi se traduit par la nécessité absolue de faire coopérer les usagers, les acteurs, les différents experts du problème avec les porteurs des technologies du numérique afin de faire émerger des concepts nouveaux, des démarches et des solutions innovantes et originales et de faire vivre notre patrimoine. La mise en place du Cluster 13 constitue une chance rare de pouvoir structurer et organiser cette démarche pluridisciplinaire et de tirer tous les bénéfices possibles de cette synergie.

3 - Animation 2007 et 2008

La réussite du projet corpus numérique demande une activité d’animation soutenue pour créer et consolider des liens entre les différents acteurs de ce projet qui proviennent de domaine très divers. Le projet Corpus Numériques ne se contentera pas d’être une juxtaposition d’équipes qui travaillent en parallèle, il a l’ambition d’être une véritable communauté pluridisciplinaire.

Une animation réussie est une condition nécessaire pour que le cluster soit un outil de promotion de notre recherche régionale ; une de ses finalités est de nous permettre d’affirmer notre niveau et de ce fait de pouvoir prendre des initiatives et des parts plus importantes sur les appels à projet nationaux (Agence Nationale de la Recherche) et internationaux (7e PCRD).

On propose de mettre en place pour l’année 2008 (et pour la seconde partie de 2007) des séminaires mensuels, des journées de travail, des ateliers thématiques.

Séminaires mensuels

Ces séminaires mensuels, sur une demi-journée permettront d’aborder des thèmes variés mais utiles aux différentes actions. Pour être concret on peut mentionner deux des premiers séminaires que nous souhaitons organiser :
- réflexion sur les corpus et la lecture numérique, avec Yves Jeanneret de Paris 4
- problèmes juridiques, avec Isabelle de Lamberterie du CNRS.

Réunions de travail d’une journée

La connaissance mutuelle est l’une des bases nécessaires d’une communauté. Ces journées seront principalement consacrées aux présentations mutuelles des actions du projet pour faire en sorte que chaque acteur du projet s’approprie et se sente concerné par toutes les autres actions. A la fin de l’année 2008, la dernière de ces journées sera transformée en un colloque d’une journée.

Ateliers thématiques

Par ce vocable, on désignera l’activité d’un groupe d’experts d’un thème (par exemple les représentant d’un laboratoire) qui, sur une période définie, partageront leur connaissance et leur expertise avec un groupe (limité) souhaitant une formation théorique et pratique dans ce domaine. Ces ateliers vont constituer une expérience nouvelle pour œuvrer et progresser ensemble, leur réussite sera un témoin de la vie du projet. Un atelier sur la numérisation est proposé dans l’immédiat ; nous mettrons en place rapidement les autres ateliers qui seront souhaités et demandés.

4 - Atelier Numérisation

Organisation et Animation : Véronique Eglin, LIRIS-INSA de Lyon

Le laboratoire LIRIS fortement sollicité par une partie des porteurs d’actions propose de mettre en place sur fin 2007-2008 un atelier de huit journées de travail sur les problèmes de numérisation, traitement des images de document, reconnaissance dans ces images et accès au contenu textuel.

Les journées seront organisées autour de :
- une présentation théorique et pratique d’un thème
- un travail d’application et d’ouverture sur les problèmes concrets des participants qui permettra par exemple de tester des méthodes et de réfléchir ensemble sur des problématiques.

Il n’est pas question de transformer chaque participant en spécialistes du thème abordé, mais de lui donner une connaissance (des choses réalisables et des limites), une ébauche de pratique suffisante pour que dans un cadre de travail pluridisciplinaire il devienne un interlocuteur pertinent des spécialistes. Un tel atelier sera un lieu privilégié pour créer des liens scientifiques durables entre les collègues de différentes communautés.

Les différentes activités de l’atelier seront publiés sur le site du Cluster et pourront donner lieu à l’édition d’un ouvrage.

5 - Budget pour l’animation

On devra prendre en compte lors des répartitions de budget du coût assez important lié à l’organisation des ateliers thématiques. On peut estimer à un millier d’Euros par jour le montant nécessaire à la préparation, la mise en place des expériences, l’utilisation des matériels dans le cas de l’atelier sur la numérisation.



Établissements rhônalpins engagés :
— Université Lumière Lyon 2 (établissement porteur), ENS-LSH (établissement d’hébergement)
— INSA, Université Claude Bernard Lyon 1, Université Jean Moulin Lyon 3, Université de Savoie (Chambéry), Université Stendhal Grenoble 3, Université Pierre-Mendès France Grenoble 2, Université Jean Monnet Saint-Étienne

Le CNRS participe à travers ses chercheurs à temps plein et son rôle d’opérateur national auprès des unités de recherche ou de service dont il partage la tutelle avec les établissements précités, y compris l’Institut des Sciences de l’Homme.

Dans la seule limite de ses moyens, le cluster a naturellement vocation à faire bon accueil à toute proposition en rapport avec ses thématiques lorsqu’elle émane de collectivités territoriales, d’associations, d’institutions ou d’entreprises rhônalpines.