Cluster 13

Projet Corpus numériques

Numérisation des Manuscrits de Stendhal : Corpus Littéraire et Linguistique assisté par des outils d’IA (CLELIA).

5 mars 2008
contact : Cécile Meynard
Voir en ligne : http://www.manuscrits-de-stendhal.org/

1 - Contexte scientifique et objectifs du projet : Les manuscrits de Stendhal

La Ville de Grenoble possède la très grande majorité des manuscrits de Stendhal, qui sont conservés à la Bibliothèque municipale. Il s’agit d’un fonds énorme (32 000 pages sans compter les livres reliés et annotés par Stendhal), dont le traitement rigoureux et la valorisation s’imposent, pour mettre à disposition du public ce patrimoine culturel, limiter la manipulation de documents fragilisés par le temps, et donner aux chercheurs des outils et des informations permettant d’enrichir leur travail littéraire et linguistique sur les textes de Stendhal.

2 - Description et méthodologie du projet : Constitution et exploitation d’un corpus littéraire et linguistique

Dans une perspective de valorisation de ce précieux patrimoine culturel en partenariat avec la Bibliothèque municipale de Grenoble, et avec un objectif d’édition critique (papier et numérique) des textes de Stendhal, l’équipe "Manuscrits de Stendhal" de l’Université Grenoble 3 a donc conçu un prototype de base de données, qui permet de mettre en regard les images numérisées des manuscrits et leur transcription, d’opérer un reclassement virtuel des registres et d’accéder à de nombreuses informations sur les pages par un moteur de recherche. Il s’agit désormais de passer à une dimension nettement plus ambitieuse, puisque le partenariat avec le laboratoire LIDILEM nous amène à envisager le passage de cette base de données à une base documentaire en ligne, répondant à un double objectif : littéraire et linguistique. En effet, des fonctionnalités nouvelles permettront d’afficher les différentes strates d’écriture d’une page, de visualiser les variantes d’un texte et d’accéder à l’intertexte. La perspective éditoriale est accentuée, l’outil fondé notamment sur des technologies de traitement automatique des langues (TAL) et créé par l’équipe du LIDILEM devant permettre d’afficher des transcriptions pseudo-diplomatiques mais aussi linéarisées, avec orthographe de l’époque ou modernisée, en affichant les ratures ou non, etc. Cet objectif littéraire est complété par ailleurs d’un objectif linguistique. En effet, le corpus littéraire ainsi constitué sera manipulable en tant que corpus linguistique. L’information apportée par les transcripteurs permettra d’analyser un grand nombre de propriétés linguistiques d’un certain type d’écrit littéraire de la première moitié du 19e siècle, notamment : les phénomènes diachroniques aussi bien d’un point de vue terminologique que stylistique (grâce à la datation des feuillets), la description de la pratique de l’écriture (grâce à l’annotation des ratures et ajouts successifs) et l’analyse contrastive entre l’ébauche littéraire et l’œuvre finalisée (les œuvres de Stendhal étant majoritairement mises à disposition librement en ligne). Afin d’assister le chercheur, littéraire ou linguiste, mais aussi le public plus généralement, dans sa recherche d’information sur ce corpus, des outils de traitement automatique des langues (TAL) seront intégrés au dispositif pour un pré-traitement des données (lemmatisation et analyse morpho-syntaxique) et pour l’aide à la recherche de phénomènes langagiers. Cette intégration dégage des enjeux scientifiques peu étudiés dans le domaine du TAL : analyse automatique d’énoncés tronqués (assimilables aux phénomènes de reformulation à l’oral), prise en compte des fautes dues pour certaines à la nature du scripteur (certains feuillets ont été rédigés par des copistes italiens, d’où des formes orthographiques italianisées)... D’un point de vue technique, il s’agit de mettre en place des outils accessibles à tous pour remplir les objectifs littéraires et linguistiques du projet. Ainsi, aussi bien le travail des transcripteurs que la mise à disposition se feront en ligne. Une plateforme logicielle sera conçue par LIDILEM et hébergée sur un serveur de la Maison des Sciences Humaines des Alpes (MSH-Alpes) à cet effet. Les transcripteurs y déposeront leur travail qui devra être validé par un comité scientifique avant d’être accessible librement. Cette approche collaborative facilitera l’activité des chercheurs de l’équipe « Traverses 19-21 » dont certains sont géographiquement éloignés de l’Université (et résident même parfois à l’étranger) et dont le travail actuel est difficilement valorisable et pérennisable. Un formalisme XML de description des transcriptions, inspiré de la TEI (Text Encoding Initiative) et adapté à la problématique du projet, a été élaboré en collaboration entre l’équipe « Traverses 19-21 » et LIDILEM, aboutissant à une DTD (Document Type Description) et à quelques feuilles de styles. Ces éléments combinés à un logiciel libre d’aide à la rédaction (Morphon XML Editor) permettent dès à présent aux transcripteurs de se mettre au travail, tout en ayant un choix d’aperçu de leur production (linéarisée, pseudo-diplomatique...). L’ensemble du dispositif technique, combinant des technologies éprouvées et adoptées par la communauté scientifique (PHP, MySQL, XML et outils TAL) sera développé avec l’ambition de le mettre librement à disposition de la communauté scientifique pour la valorisation de manuscrits de manière générale.

3 - Partenaires et résultats attendus : Interdisciplinarité Lettres et Linguistique

Deux partenaires sont ainsi associés dans ce projet, l’équipe « Manuscrits de Stendhal » (Traverses 19-21, Composante CESR, Université Grenoble 3) qui fournit le travail scientifique sur les pages, et le laboratoire LIDILEM qui est en charge de la partie informatique et linguistique. Cette plateforme collaborative réunit des chercheurs à l’échelle locale mais aussi nationale et internationale. En effet, une vingtaine de personnes (chercheurs littéraires, informaticiens et linguistes), soutenues par les bibliothécaires de la Bibliothèque municipale (chargés de la numérisation des manuscrits), et coordonnées par Cécile Meynard, sont engagées dans ce projet, qui ouvre des perspectives extrêmement intéressantes de traitement et de mise à disposition des manuscrits de Stendhal, mais également d’autres corpus et manuscrits, l’outil conçu étant parfaitement adaptable à d’autres contextes et à d’autres besoins.



Établissements rhônalpins engagés :
— Université Lumière Lyon 2 (établissement porteur), ENS-LSH (établissement d’hébergement)
— INSA, Université Claude Bernard Lyon 1, Université Jean Moulin Lyon 3, Université de Savoie (Chambéry), Université Stendhal Grenoble 3, Université Pierre-Mendès France Grenoble 2, Université Jean Monnet Saint-Étienne

Le CNRS participe à travers ses chercheurs à temps plein et son rôle d’opérateur national auprès des unités de recherche ou de service dont il partage la tutelle avec les établissements précités, y compris l’Institut des Sciences de l’Homme.

Dans la seule limite de ses moyens, le cluster a naturellement vocation à faire bon accueil à toute proposition en rapport avec ses thématiques lorsqu’elle émane de collectivités territoriales, d’associations, d’institutions ou d’entreprises rhônalpines.