Corpus / explotación

  • Anne ABEILLÉ (Paris 7)
    Corpus et syntaxe. L'apport de l'informatique linguistique
    (Corpora and syntax: the contribution of computational linguistics)
    1996, Vol. I-2, pp. 7-23

    Depuis quelques années l'annotation automatique de corpus est devenue une activité à part entière en informatique linguistique. Nous faisons le point sur un gros corpus anglais complètement annoté pour la syntaxe, le "Penn Treebank", ainsi que sur deux outils d'étiquetage morphosyntaxique automatique disponibles pour le français : le taggeur de Xerox et le taggeur de l'INaLF.


    Palabras clave: 
  • Martine ADDA-DECKER (Paris)
    Corpus pour la transcription automatique de l'oral
    (Corpus for automatic transcription of spoken texts)
    2007, Vol. XII-1, pp. 71-84

    Cette contribution vise à illustrer la réalisation et l'utilisation de corpus à des fins de recherche en transcription automatique de la parole. Ces recherches s'appuyant largement sur une modélisation statistique, s'accompagnent naturellement de production de corpus écrits et oraux transcrits ainsi que d'outils facilitant la transcription manuelle. Les méthodes et techniques mises au point permettent aujourd'hui un déploiement vers le traitement automatique de l'oral à grande échelle, tout en contribuant à un domaine de recherche interdisciplinaire émergeant : la linguistique des corpus oraux.


  • Sophie ASLANIDES (Paris 8)
    Adapter un corpus finement annoté à des objectifs de recherche linguistique : l'exemple de SUSANNE
    (Adapting a finely annotated corpus for linguistic research objectives)
    1999, Vol. IV-1, pp. 97-99
  • Manuel BARBERA (Turin, Italie)
    Les lexies complexes et leur annotation morphosyntaxique dans le Corpus Taurinense
    (Complex lexical units and their morphosyntactic treatment in the Corpus Taurinense)
    2000, Vol. V-2, pp. 57-70

    Le Corpus Taurinense (CT) est la version morphologiquement annotée d'ItalAnt Corpus, un corpus électronique de textes d'ancien italien (écrits entre 1251 et 1300). Nous essayons ici de décrire l'approche suivie dans le CT pour l'annotation des lexies complexes (MWUs 'multiword units'). La lexie complexe dans notre travail est un groupe de deux mots graphiques ou plus qui reçoit (aussi) une étiquette de partie du discours d'ensemble parce que ce groupe de mots est en relation paradigmatique avec une autre unité lexicale de la même partie du discours.Notre étiquetage de parties du discours confirme que la majorité des conjonctions composées de l'italien moderne n'était pas lexicalisée à cette époque. L'ordre des composants est déjà celui de l'italien moderne mais ces conjonctions peuvent encore être interrompues par des éléments occasionnels.


  • Olivier BAUDE (Orléans)
    Aspects juridiques et éthiques de la conservation et de la diffusion des corpus oraux
    (Legal and ethical aspects of conserving and diffusing corpora of spoken texts)
    2007, Vol. XII-1, pp. 85-97

    La numérisation des corpus de données sonores et multimodales ouvre de larges perspectives pour les sciences du langage. Toutefois, la conservation et l'exploitation de ces corpus oraux posent de nouveaux problèmes éthiques et juridiques que la communauté scientifique doit prendre en compte. Cet article présente les résultats d'un groupe de travail interdisciplinaire qui a rédigé un Guide des bonnes pratiques pour la constitution, l'exploitation, la conservation et la diffusion des corpus oraux.


  • Valérie BEAUDOUIN (France Télécom R & D)
    Mètre en règles
    (Metrics in rules)
    2004, Vol. IX-1, pp. 119-137

    Cet article rend compte d’une expérience d’analyse systématique des aspects métriques et rythmiques d’un corpus de près de 80 000 vers. Des outils d’analyse du vers ont été construits à partir de briques de Traitement Automatique des Langues déjà existantes. Nous défendons une approche expérimentale et cumulative qui consiste à enrichir la description des vers par des traits de nature différente (morphosyntaxe, accent, rime…) qui portent sur des unités de taille différente (position métrique, hémistiche, vers, couple de vers), et qui sont construits avec des outils hétérogènes. Cette intégration dans une seule base de données permet de valider des hypothèses classiques sur le vers et de tester de nouvelles hypothèses portant en particulier sur les corrélations entre niveaux d’analyse. Cette approche expérimentale s’appuie sur les savoirs traditionnels sur le vers, mais elle est aussi en mesure de faire évoluer les théories ou hypothèses dominantes en faisant émerger de nouvelles formes de régularités, peu visibles à l’œil nu, et des corrélations inattendues entre phénomènes relevant de plusieurs niveaux linguistiques.


  • Claire BLANCHE-BENVENISTE (Aix-en-Provence)
    Constitution et exploitation d’un grand corpus
    (Building and using a large corpus)
    1999, Vol. IV-1, pp. 65-74

    Ce texte essaie de montrer comment un projet de corpus sur le français parlé, commencé à Aix-en-Provence vers les années 1975, a peu à peu évolué en relation au développement de ce que l'on appelle la linguistique de corpus. C'est l'histoire de la constitution de ce corpus qui est ici retracée, en même temps que sont esquissées les possibilités d'exploitation qu'il offre aujourd'hui.


    Palabras clave: 
  • Claire BLANCHE-BENVENISTE (Aix-en-Provence)
    De l’utilité du corpus linguistique
    (On the usefulness of linguistic corpora)
    1996, Vol. I-2, pp. 25-42

    Les grands corpus informatisés qui se sont récemment développés font exploser certaines techniques anciennes de description linguistique. Les corpus consacrés à la langue parlée tout particulièrement, qui, au travers des "fautes" de performance, aident à voir ce qui est central et typique dans une langue. C'est ce que cet article s'efforce de montrer à partir des données sur le français parlé accumulées et étudiées par le Groupe Aixois de Recherche en Syntaxe


    Palabras clave: 
  • Mylène BLASCO-DULBECCO (Clermont-Ferrand)
    Preuves à l'appui : les relations entre les données et l'analyse
    (Proven relationships between data and analysis)
    1999, Vol. IV-2, pp. 31-40

    Les données orales sont souvent d'un point de vue fréquentiel et distributionnel différentes des données écrites. Elles obligent à affiner la description en fournissant des particularités de construction ou des contextes absents à l'écrit.Les dislocations et la forme 'il y a', réputées pour leur emploi massif à l'oral, apportent des exemples souvent imprévisibles tant du point de vue de leurs spécificités distributionnelles que pour leur rôle dans la dynamique textuelle.Le sujet 'certains', pour sa part peu fréquent dans la langue parlée, donne cependant des faits de distribution pour le moins variés et nettement répartis et ce en relation avec le genre de corpus dépouillé.Cet article se propose donc d'exposer trois cas de figure représentatifs de la relation entre les données et l'analyse.


    Palabras clave: 
  • Christian BOITET (Grenoble 1)
    Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système
    (Corpus for the Machine Translation: types, sizes and connected problems, in relation to use and system type)
    2007, Vol. XII-1, pp. 25-38

    Les corpus utilisés en TA de l'écrit et de l'oral ont évolué, depuis les suites de test et les corpus d'essai des débuts, vers des corpus parallèles bilingues ou multilingues, bruts ou enrichis par des métadonnées et une grande variété d'annotations linguistiques. Ils sont assez petits et peuvent avoir une « granularité » importante en TA « experte », classique, mais sont énormes et de granularité faible en TA « empirique », statistique ou fondée sur les exemples. La représentation des textes et l'interface avec le traitement de la parole posent des problèmes spécifiques, ainsi que la segmentation et la structuration des segments et des corpus. Un défi actuel est d'unifier et de mutualiser leur construction et leur gestion.


  • Paul CAPPEAU (Poitiers)
    L'exploitation sociolinguistique des grands corpus. Maître-mot et pierre philosophale
    (The sociolinguistic exploitation of large corpora. Key-word and stone of wisdom)
    2007, Vol. XII-1, pp. 99-110

    Le désir d'appuyer le travail des sciences du langage sur de larges collections de données orales (« grands corpus ») est, de nos jours, largement partagé par les linguistes. Au moment où de tels outils se multiplient pour le français, il importe d'être sensible à tous les facteurs qui en garantissent la fiabilité, lors des différentes étapes de l'obtention des données : mise au point sur le terme de « corpus », réflexion sur le rapport au terrain et à l'oralité, sur la notion de représentativité (genres et/ou identités des locuteurs), pratiques de sollicitation de données, et enfin transcription.


  • Anne CONDAMINES (Toulouse 2-Le Mirail / CNRS)
    L'interprétation en sémantique de corpus : le cas de la construction de terminologies
    (The role of interpretation in corpus semantics: building a terminology)
    2007, Vol. XII-1, pp. 39-52

    Cet article tente de mettre en évidence la nécessité d'un double balisage pour mener à bien les analyses sémantiques à partir de corpus. Une première balise est constituée par la situation de production des textes et une autre par celle d'interprétation de ces textes. Pour les deux cas, l'auteur propose de mettre en ouvre la notion de genre (genre textuel et genre interprétatif) pour regrouper et catégoriser les situations. L'article s'appuie sur l'exemple de la construction de terminologies (relevant d'un genre interprétatif) en montrant comment le genre textuel influence le fonctionnement des marqueurs de relations conceptuelles (par exemple, la préposition avec pour repérer une relation méronymique). Il montre que ce type d'analyse permet souvent d'affiner des descriptions initialement faites par introspection.


  • Antoine CONSIGNY (Liverpool, Grande-Bretagne)
    Looking at Phrasal Verbs in a Data-Driven Perspective : A Case Study of 'Take Up'
    2000, Vol. V-2, pp. 7-18

    Le but de cet article est de présenter une étude sémantique du verbe à postposition ou "phrasal verb" (PV) "take up". Le PV est étudié à partir d'un corpus numérisé du journal britannique The Guardian, grâce au concordancier Microconcord (Johns et Scott, 1993). Les occurrences de "take up" sont étudiées individuellement, puis une liste de sens est établie. Une fois que les différents sens ont été définis, une seconde étape consiste à étudier les parties du PV (verbe et postposition). En comparant ces résultats avec ceux d'autres études sur les postpositions dans les PV (notamment Lindner, 1981 ; Side, 1990 ; Hampe, 1997 ; Hannan, 1998) et sur les verbes (Consigny, 1995 ; Allen, 1998), nous montrerons que l'importance relative de la postposition par rapport au verbe n'est pas aussi grande que certains le voudraient.


    Palabras clave: 
  • Jean-Pierre DESCLÉS (Paris 4)
    Extraction d'informations de corpus composés de textes techniques
    (Information retrieval from corpora of technical texts)
    1997, Vol. II-2, pp. 19-33

    Les textes techniques présentent des particularités linguistiques intéressantes et encore mal étudiées. Sont ici décrites les recherches menées par une équipe pluridisciplinaire de linguistes et d'informaticiens ayant entrepris de concevoir, puis de réaliser des prototypes de logiciels pour l'extraction d'informations construites à partir de textes techniques. Ces travaux, illustrés par des exemples précis, ont abouti à des programmes informatiques sous la forme soit de réseaux entre concepts, soit de phrases extraites des textes analysés, et éventuellement accompagnées d'informations sémantiques assignées automatiquement.


  • Marie-Laure ELALOUF (Cergy-Pontoise)
    Construction et exploitation de corpus d'écrits scolaires
    (The building-up and exploitation of corpora of texts written in schools)
    2007, Vol. XII-1, pp. 53-70

    La première partie de l'article expose les questions méthodologiques qui ont présidé à la constitution et à la transcription d'un grand corpus de textes scolaires, avec leurs contextes d'enseignement. Dans la deuxième partie de l'article sont présentées les interrogations épistémologiques qui ont orienté une deuxième recherche : sur la définition des genres scolaires, d'un corpus, et d'un contexte, et de la nécessaire mise en relation de ces trois éléments. La description d'essais tentés à l'aide de logiciels d'analyse sur des corpus scolaires a priori non conformes aux normes génériques et orthographiques débouche sur des pistes d'utilisation sériées et accompagnées de démarches qualitatives.


  • Pablo GAMALLO (Lisbonne, Portugal)
    Bases lexicales et systèmes d'héritage conduits par la relation de méréonymie
    (Lexical bases and 'heritage' systems on the basis of meronymy relationships)
    2000, Vol. V-2, pp. 45-56

    La plupart des bases lexicales et ontologies computationnelles sont organisées au moyen d'un système d'héritage lexical basé sur la relation taxinomique EST_UN (IS_A). Cette relation est perçue comme le canal par où s'effectue le transfert de l'information lexicale. Nous postulons cependant que le transfert de l'information dans une ontologie de types lexicaux peut être aussi véhiculé au travers d'autres sortes de relations ontologiques, en particulier, nous analyserons le mécanisme d'héritage organisé autour de la relation méréonymique COMPOSÉ_DE. L'objectif principal de cette communication sera de caractériser le squelette informatif d'une ontologie lexicale à partir d'un système d'inférences méréonymiques, i.e., un système permettant à un tout d'hériter de l'information de ses parties. Puis, nous montrerons que ce type d'héritage permet de modéliser l'interprétation métonymique des noms polysémiques.


  • Nathalie GARRIC (Tours)
    Désambiguïsation des noms propres déterminés par l'utilisation des grammaires locales
    (Disambiguating proper nouns by use of local grammars)
    2000, Vol. V-2, pp. 85-100

    Cet article s'inscrit dans le cadre du projet PROLEX de traitement automatique des noms propres. Notre objectif, par l'exploitation de l'outil informatique, consiste, non seulement à identifier les différentes occurrences du nom propre déterminé (modifié ou non modifié), mais également, à leur affecter un type d'interprétation pertinent : référentielle, dénominative, exemplaire, métaphorique ou fractionnée. Après l'élaboration d'une typologie des emplois propriaux déterminés, il s'agit d'extraire les indices formels et lexicaux autorisant la désambiguïsation du fonctionnement référentiel et sémantique du nom propre. Après avoir isolé ces unités discriminantes (par exemple les déterminants, les adjectifs, les prédicats d'existence), on propose des grammaires locales destinées à la reconnaissance automatique.


  • Jacqueline GUILLEMIN-FLESCHER (Paris 7)
    La traduction humaine : contraintes et corpus
    (Human translation: constraints and corpora)
    1996, Vol. I-2, pp. 43-56

    L'objectif de cette étude est de dégager, à partir d'un corpus de textes et de traductions en anglais et en français, les schémas récurrents qui apparaissent dans les choix des traducteurs. L'analyse est fondée sur trois exemples : la prédication d'existence, le passif et la prédication de propriété. On cherchera d'une part à établir les critères qui conditionnent les phénomènes observés et d'autre part à en proposer une explication. On tentera enfin de relier les cas de figure particuliers à un phénomène plus global qui différencie les deux langues.


  • Céline GUILLOT (ENS-LSH Lyon)
    Les corpus de français médiéval : état des lieux et perspectives
    2007, Vol. XII-1, pp. 125-128
  • Serge HEIDEN (ENS LSH Lyon)
    Ressources électroniques pour l'étude des textes médiévaux : approches et outils
    (Electronic aids in studying medieval texts: methods and tools)
    2004, Vol. IX-1, pp. 99-118

    Deux approches de la constitution de corpus de textes médiévaux se dessinent depuis une dizaine d'années déjà : 1. numérisation d'éditions critiques modernes ; 2. création de transcriptions diplomatiques précises de manuscrits, éventuellement accompagnées des images des originaux. Ces approches sont en réalité plutôt complémentaires qu'opposées, car elles permettent aux chercheurs de faire le choix entre la quantité (représentativité) et la qualité (sûreté et richesse) des données en fonction de la recherche effectuée. Pour les deux types de corpus nous analysons les enjeux de l'utilisation d'une représentation normalisée du texte et de son 'ancrage' signalétique (norme XML et conventions de représentation TEI). Les problèmes méthodologiques qui se posent lors de la création et de l'exploitation des corpus de textes anciens, et leurs solutions sont aussi valables pour d'autres types de corpus linguistiques.


  • Thomas LEBARBÉ (Caen)
    TAPAS : Traitement et Analyse par Perception Augmentée en Syntaxe
    (TAPAS: Treatment and Analysis in Syntax by Augmented Perception)
    2000, Vol. V-2, pp. 71-83

    Dans cet article, nous présentons une approche innovante de l'analyse syntaxique. Contrairement aux courants habituels qui conçoivent l'analyse syntaxique par des processus en série, nous proposons ici une architecture d'agents cognitifs hybrides dont la tâche est l'analyse syntaxique robuste et profonde.Après une présentation succincte des travaux courants dont nous sommes partis, nous présenterons à l'aide d'un exemple le fonctionnement théorique de notre architecture. Ceci nous permettra ensuite de décrire l'architecture APA, que nous avons utilisée pour ce projet conjoint. Enfin, en conclusion, nous présenterons certaines perspectives de développement.


  • Sarah LEROY (Paris X-Nanterre)
    Extraire sur patrons : allers et retours entre analyse linguistique et repérage automatique
    (Extraction on patterns: two-way traffic between linguistic analysis and automated identification)
    2004, Vol. IX-1, pp. 25-43

    Nous présentons ici un système de repérage automatique de l'antonomase du nom propre dans des textes étiquetés. On compare tout d'abord, en décrivant les rouages du système et les méthodes et outils utilisés, les repérages manuels et automatiques, pour constater que la machine l'emporte sur le plan de la fiabilité.Après avoir indiqué en quoi les possibilités et les limites du repérage automatique influent sur le travail linguistique, on met ce travail déjà ancien (2000) en perspective avec de nouveaux outils mis à la disposition des linguistes, en particulier la possibilité de lancer une requête sur le sous-ensemble de textes catégorisés de la base Frantext.


  • Patrick LEROYER (Aarhus, Danemark)
    En termes de vin : lexicographisation du guide œnotouristique en ligne
    (In terms of wine: lexicographisation of an on-line tourist guide for wine-lovers)
    2009, Vol. XIV-2, pp. 99-116

    Outils de communication d’image et de connaissances spécialisées, les guides touristiques en ligne intègrent une variété de structures lexicographiques : nomenclatures, articles, schémas conceptuels, index et registres, options de recherche à partir de mots-clés, systèmes de renvois internes et externes, etc. Ceci n’est guère surprenant dans la mesure où ce qui est requis est l’accès performant aux données permettant d’extraire l’information, tout comme en lexicographie. La thèse fonctionnelle que nous développons ici est que la lexicographisation est à même de démultiplier les modalités d’accès aux données dans la perspective de l’utilisateur. Prenant les guides œnotouristiques comme cas de figure, nous passerons en revue les situations d’utilisation motivant la recherche de l’information, en particulier la recherche de l’information expérientielle, dans laquelle l’utilisateur consulte le guide en vue d’optimiser les conditions de son expérience œnotouristique. Nous formulerons à la clé des propositions théoriques visant à optimiser l’interaction des fonctions lexicographiques, de la présentation des données et des modalités d’accès.


  • Christiane MARCHELLO-NIZIA (ENS)
    Corpus diachroniques
    (Diachronic Corpora)
    1999, Vol. IV-1, pp. 31-39

    Après avoir rappelé ce qui distingue une base de données d'un corpus, on tentera de dresser un rapide panorama des différentes sources documentaires importantes existant à ce jour dans le domaine de la diachronie du français, puis on montrera quel usage peut en être fait grâce à une série d'outils aujourd'hui disponibles, et surtout comment l'accès à de gros corpus parmet de renouveler notre analyse de certains faits linguistiques, et contraint à un déplacement qualitatif dans le mode de raisonnement linguistique lui-même.


  • Augusta MELA (Montpellier 3)
    Linguistes et « talistes » peuvent coopérer : repérage et analyse des gloses
    (Linguists and NLP-specialists may work together: location and analysis of gloses)
    2004, Vol. IX-1, pp. 63-82

    Cet article s'inscrit dans le cadre d'un projet collectif de recherche linguistique sur le mot et sa glose. Comme les définitions, les gloses recueillent 'l'expérience parlée du sens'. Cette activité métalinguistique se manifeste dans les textes par des mots tels que c'est-à-dire, ou, signifier qui signent la relation de sémantique lexicale mise en jeu : équivalence avec c'est-à-dire, ou ; spécification du sens avec au sens ; équivalence avec ou, c'est-à-dire ; nomination avec dit, baptisé ; hyponymie avec en particulier, comme ; hyperonymie avec et/ou autre(s), etc.Grâce à l'existence de ces marques et des particularités de leurs configurations, un repérage automatique des gloses est envisageable. J'en décris ici la mise en ouvre, en prenant l'exemple des gloses en ou telles que 'un magazine électronique, ou webzine' et d'un environnement informatique 'pour linguistes', à savoir la base textuelle Frantext et son interpréteur de langage de requête Stella.


  • Morten PILEGAARD (Aarhus, Danemark)
    Collaborative repositories: An organisational and technological response to current challenges in specialised knowledge communication?
    2009, Vol. XIV-2, pp. 57-71

    Cet article présente les concepts et les systèmes qui permettent la codification, la représentation, la validation et le partage de connaissances textuelles et terminologiques multilingues structurés autour de la notion de genre. Ces systèmes exploitent les différentes phases du « cycle vertueux de connaissances » au sein d’un dictionnaire spécialisé multilingue accessible sur le web et d’un corpus multilingue de textes médicaux comportant des hiérarchies ou des systèmes génériques. Notre démarche, qui privilégie le cycle des connaissances, reflète les processus de travail de la vie réelle et permettent la transformation de connaissances sans cesse renouvelées de formes tacites en formes explicites. Les connaissances, ainsi codifiées vont de l’individu au niveau collectif pour constituer une « communauté de pratique ». L’article rend compte des résultats de la mise en œuvre de ces concepts et de ces systèmes en général, et du dictionnaire en particulier au sein du contexte danois du système de santé publique, de l’industrie pharmaceutique, de l’équipement médical et de la traduction médicale, qui, d’un point de vue technologique, se trouvent désormais fusionnés au sein d’un « cluster de connaissance » collectif, et évalue les ouvertures pour l’exploitation scientifique et commerciale de la fusion des technologies de la langue et de la santé.


  • Claus D. PUSCH (Fribourg, Allemagne)
    Les corpus de linguistique romane en pays germanophones. Bilan et perspectives
    2007, Vol. XII-1, pp. 111-124
  • Caroline SCHAETZEN (DE) (Bruxelles, Belgique)
    Corpus et Terminologie : construction de corpus spécialisés pour la confection de dictionnaires
    (Corpora and terminology: Building specialised corpora for making dictionaries)
    1996, Vol. I-2, pp. 57-76

    La confection de dictionnaires ou glossaires spécialisés se fait de plus en plus à partir de corpus importants. Cet article se propose de faire le point sur les différentes questions techniques que soulèvent la constitution et l'exploitation de ces corpus, et sur quelques-uns des logiciels créés dans ce double but.