Cluster 13

Projet Corpus numériques

Corpus représentatif des premiers textes français.

5 mars 2008
contact : Céline GUILLOT

Notre projet de recherche vise à rendre disponible à la communauté scientifique comme au grand public un corpus représentatif des textes les plus anciens écrits en français (IXe - XIIe siècles).

Ce projet s’appuie sur l’acquis d’une base textuelle existante, la Base de Français Médiéval (BFM : http://bfm.ens-lsh.fr/) et sur sa méthode de développement et d’exploitation. Utilisée par une communauté de 300 chercheurs environ, français et étrangers, cette base jouit d’une reconnaissance internationale. Elle fait partie des plus grandes bases de français médiéval dans le monde (environ 3 millions d’occurrences-mots), et constitue l’une des assises principales du Consortium international pour les corpus de français médiéval (CCFM, présidé par le Professeur Pierre Kunstmann, de l’Université d’Ottawa, Canada). La BFM comprend d’ores et déjà la quasi totalité des textes antérieurs au XIIe siècle (ils sont peu nombreux au total), ainsi qu’une trentaine de textes du XIIe, une quarantaine du XIIIe, et une trentaine de textes de moyen français (XIVe- fin du XVe siècle). Notre projet, qui vise à compléter et étendre cette base par l’ajout d’un ensemble de textes du XIIe siècle, permettra la diffusion d’un corpus fondamental pour l’ensemble de la période médiévale.

Le corpus que nous souhaitons réaliser s’appuiera sur l’expérience et le savoir-faire acquis depuis près de vingt ans. Nous disposons en effet d’une chaîne éprouvée de traitement des textes (numérisation, relecture, encodage, mise en ligne) et d’un réseau de relecteurs spécialisés. Par ailleurs, nos pratiques d’encodage et de description des méta-informations textuelles, synthétisés dans un ensemble de documents de référence publiés sur les sites de la BFM et du CCFM, ont été maintes fois exposées et discutées dans le cadre d’échanges internationaux. Elles font appel aux normes et aux formats les plus récents et les mieux partagés dans le monde (format XML, balises TEI). Enfin, le logiciel d’interrogation dont nous disposons est très performant et souple ; en constante évolution, il saura s’adapter à de nouveaux types d’exploitation (son développement est soutenu par le projet « Textométrie » financé par l’ANR).

Les principaux objectifs que nous souhaitons atteindre sont au nombre de trois :
-  développer et diffuser le corpus de français médiéval le plus vaste et le plus diversifié qui soit ; d’où l’intérêt de l’enrichir afin, en particulier, de parvenir à un volume de données important (1,5 millions de mots environ) et diversifié pour la période la plus ancienne (IXe-XIIe siècles) ;
-  favoriser le développement de recherches diachroniques sur le français, en particulier parmi les membres de notre équipe et plus largement au sein de la communauté internationale des médiévistes travaillant sur le français ;
-  élaborer un cadre méthodologique qui puisse être exploité par d’autres que nous, en premier lieu au sein de la communauté internationale des médiévistes regroupés dans le CCFM.

Le projet s’appuie sur la méthodologie de corpus, élaborée dans le cadre de la « linguistique de corpus ». Ce cadre méthodologique doit garantir l’exploitation future des données mises à disposition en nous permettant de maîtriser, diriger et décrire la diversité typologique des documents intégrés au corpus. Il permettra ainsi de définir le degré de représentativité des données exploitées et d’évaluer le degré de généralité des résultats obtenus.

Outre la mise en ligne d’un ensemble particulièrement important de textes anciens, les résultats attendus de ce projet sont de plusieurs types. Ils concernent en premier lieu les recherches linguistiques rendues possibles par le corpus. De par son empan chronologique (IXe-début du XVIe siècle), la diversité typologique et l’équilibrage relatif des différents types de documents qui le composent, ce corpus sera tout à fait exceptionnel pour l’histoire du français. La diffusion d’une part importante des données les plus anciennes disponibles à ce jour rendra possible un ensemble de recherches sur le passage du latin au français et sur le très ancien français (IXe-XIIe). Elle permettra également la recherche des attestations les plus anciennes, ce qui constitue une avancée essentielle pour les recherches portant sur l’évolution de la langue, et en particulier sur l’origine des mots du lexique et de la grammaire, des constructions, et des notions et concepts du français.

Les recherches menées par les membres de notre projet, qui concernent la lexicologie, la sémantique lexicale et grammaticale, l’étude des phénomènes de grammaticalisation et des différents systèmes graphiques du français (à partir notamment de l’édition du manuscrit de la Queste del saint Graal conservé à la Bibliothèque municipale de Lyon), exploiteront ces données nouvelles. Ce corpus sera également le support d’une grande grammaire historique du français en cours de préparation dans un cadre national. Il favorisera les recherches portant sur la langue française et contribuera au renouveau que connaît dans le monde depuis une vingtaine d’années la linguistique diachronique.



Établissements rhônalpins engagés :
— Université Lumière Lyon 2 (établissement porteur), ENS-LSH (établissement d’hébergement)
— INSA, Université Claude Bernard Lyon 1, Université Jean Moulin Lyon 3, Université de Savoie (Chambéry), Université Stendhal Grenoble 3, Université Pierre-Mendès France Grenoble 2, Université Jean Monnet Saint-Étienne

Le CNRS participe à travers ses chercheurs à temps plein et son rôle d’opérateur national auprès des unités de recherche ou de service dont il partage la tutelle avec les établissements précités, y compris l’Institut des Sciences de l’Homme.

Dans la seule limite de ses moyens, le cluster a naturellement vocation à faire bon accueil à toute proposition en rapport avec ses thématiques lorsqu’elle émane de collectivités territoriales, d’associations, d’institutions ou d’entreprises rhônalpines.