2007-1 | Corpus : état des lieux et perspectives (Corpora: inventory and perspectives) | |
Cliquer sur le livret pour en lire un résumé | Ce numéro est en ligne en texte intégral sur le portail: Cairn.info |
-
Henri BÉJOINT (Lyon 2)Informatique et lexicographie de corpus : les nouveaux dictionnaires(Computer science and corpus lexicography: the new dictionaries)pp. 7-23
L'utilisation de l'informatique est l'événement le plus important de l'histoire de la lexicographie des cinquante dernières années. Elle a eu une influence sur la présentation des dictionnaires, que l'on trouve désormais sous diverses formes numérisées, mais surtout elle a profondément modifié les conditions de travail du lexicographe. L'informatique a permis d'augmenter considérablement la taille des corpus que les lexicographes ont toujours utilisés, et en anglais on dispose maintenant de corpus qui contiennent plusieurs centaines de millions de mots. Il s'en est suivi une transformation du texte du dictionnaire, qui est devenu plus représentatif de l'usage commun, et mieux adapté aux tâches d'encodage.
-
Christian BOITET (Grenoble 1)Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système(Corpus for the Machine Translation: types, sizes and connected problems, in relation to use and system type)pp. 25-38
Les corpus utilisés en TA de l'écrit et de l'oral ont évolué, depuis les suites de test et les corpus d'essai des débuts, vers des corpus parallèles bilingues ou multilingues, bruts ou enrichis par des métadonnées et une grande variété d'annotations linguistiques. Ils sont assez petits et peuvent avoir une « granularité » importante en TA « experte », classique, mais sont énormes et de granularité faible en TA « empirique », statistique ou fondée sur les exemples. La représentation des textes et l'interface avec le traitement de la parole posent des problèmes spécifiques, ainsi que la segmentation et la structuration des segments et des corpus. Un défi actuel est d'unifier et de mutualiser leur construction et leur gestion.
-
Anne CONDAMINES (Toulouse 2-Le Mirail / CNRS)L'interprétation en sémantique de corpus : le cas de la construction de terminologies(The role of interpretation in corpus semantics: building a terminology)pp. 39-52
Cet article tente de mettre en évidence la nécessité d'un double balisage pour mener à bien les analyses sémantiques à partir de corpus. Une première balise est constituée par la situation de production des textes et une autre par celle d'interprétation de ces textes. Pour les deux cas, l'auteur propose de mettre en ouvre la notion de genre (genre textuel et genre interprétatif) pour regrouper et catégoriser les situations. L'article s'appuie sur l'exemple de la construction de terminologies (relevant d'un genre interprétatif) en montrant comment le genre textuel influence le fonctionnement des marqueurs de relations conceptuelles (par exemple, la préposition avec pour repérer une relation méronymique). Il montre que ce type d'analyse permet souvent d'affiner des descriptions initialement faites par introspection.
-
Marie-Laure ELALOUF & Catherine BORÉ (Cergy-Pontoise / IUFM de Versailles)Construction et exploitation de corpus d'écrits scolaires(The building-up and exploitation of corpora of texts written in schools)pp. 53-70
La première partie de l'article expose les questions méthodologiques qui ont présidé à la constitution et à la transcription d'un grand corpus de textes scolaires, avec leurs contextes d'enseignement. Dans la deuxième partie de l'article sont présentées les interrogations épistémologiques qui ont orienté une deuxième recherche : sur la définition des genres scolaires, d'un corpus, et d'un contexte, et de la nécessaire mise en relation de ces trois éléments. La description d'essais tentés à l'aide de logiciels d'analyse sur des corpus scolaires a priori non conformes aux normes génériques et orthographiques débouche sur des pistes d'utilisation sériées et accompagnées de démarches qualitatives.
-
Martine ADDA-DECKER (Paris)Corpus pour la transcription automatique de l'oral(Corpus for automatic transcription of spoken texts)pp. 71-84
Cette contribution vise à illustrer la réalisation et l'utilisation de corpus à des fins de recherche en transcription automatique de la parole. Ces recherches s'appuyant largement sur une modélisation statistique, s'accompagnent naturellement de production de corpus écrits et oraux transcrits ainsi que d'outils facilitant la transcription manuelle. Les méthodes et techniques mises au point permettent aujourd'hui un déploiement vers le traitement automatique de l'oral à grande échelle, tout en contribuant à un domaine de recherche interdisciplinaire émergeant : la linguistique des corpus oraux.
-
Olivier BAUDE (Orléans)Aspects juridiques et éthiques de la conservation et de la diffusion des corpus oraux(Legal and ethical aspects of conserving and diffusing corpora of spoken texts)pp. 85-97
La numérisation des corpus de données sonores et multimodales ouvre de larges perspectives pour les sciences du langage. Toutefois, la conservation et l'exploitation de ces corpus oraux posent de nouveaux problèmes éthiques et juridiques que la communauté scientifique doit prendre en compte. Cet article présente les résultats d'un groupe de travail interdisciplinaire qui a rédigé un Guide des bonnes pratiques pour la constitution, l'exploitation, la conservation et la diffusion des corpus oraux.
-
Paul CAPPEAU & Françoise GADET (Poitiers / Paris Ouest)L'exploitation sociolinguistique des grands corpus. Maître-mot et pierre philosophale(The sociolinguistic exploitation of large corpora. Key-word and stone of wisdom)pp. 99-110
Le désir d'appuyer le travail des sciences du langage sur de larges collections de données orales (« grands corpus ») est, de nos jours, largement partagé par les linguistes. Au moment où de tels outils se multiplient pour le français, il importe d'être sensible à tous les facteurs qui en garantissent la fiabilité, lors des différentes étapes de l'obtention des données : mise au point sur le terme de « corpus », réflexion sur le rapport au terrain et à l'oralité, sur la notion de représentativité (genres et/ou identités des locuteurs), pratiques de sollicitation de données, et enfin transcription.
-
C. Pusch (Fribourg, Allemagne)Les corpus de linguistique romane en pays germanophones. Bilan et perspectivespp. 111-124
-
C. Guillot & A. Lavrentiev & C. Marchello-Nizia (ENS-LSH Lyon / ENS LSH Lyon / ENS )Les corpus de français médiéval : état des lieux et perspectivespp. 125-128
-
P. Cappeau & F. Gadet (Poitiers / Paris Ouest )Où en sont les corpus sur les français parlés?pp. 129-133
-
Fransk grammatik. Till santale og forstäelse, de H. Andersen & D. Fristrup
par C. Bozierpp. 135-136 -
Négociations commerciales et objectifs spécifiques. De la description à l'enseignement des interactions orales professionnelles, de G. Mercelot
par J. Binonpp. 136-137 -
Pour enseigner et apprendre l'orthographe. Nouveaux enjeux, pratiques nouvelles, de D. Cogis
par B. Habertpp. 137-139 -
Instruments et ressources électroniques pour le français, de B. Habert
par A. Tutinpp. 139-141