Procesamiento del lenguaje natural

  • Martine ADDA-DECKER (Paris)
    Corpus pour la transcription automatique de l'oral
    (Corpus for automatic transcription of spoken texts)
    2007, Vol. XII-1, pp. 71-84

    Cette contribution vise à illustrer la réalisation et l'utilisation de corpus à des fins de recherche en transcription automatique de la parole. Ces recherches s'appuyant largement sur une modélisation statistique, s'accompagnent naturellement de production de corpus écrits et oraux transcrits ainsi que d'outils facilitant la transcription manuelle. Les méthodes et techniques mises au point permettent aujourd'hui un déploiement vers le traitement automatique de l'oral à grande échelle, tout en contribuant à un domaine de recherche interdisciplinaire émergeant : la linguistique des corpus oraux.


  • Martine ADDA-DECKER (Paris)
    La liaison dans la parole spontanée familière : une étude sur grand corpus
    (French ‘liaison’ in casually spoken French, as investigated in a large corpus of casual French speech)
    2012, Vol. XVII-1, pp. 113-128

    Cet article porte sur la liaison dans un parler spontané familier. Partant du constat que, dans la parole familière, les prononciations s'écartent souvent de leur forme canonique du fait d'un taux de réduction temporelle élevé, nous faisons l'hypothèse que le nombre de liaisons réalisées se trouve diminué dans ce type de parole. Notre étude repose sur une exploration du corpus NCCFr (Nijmegen Corpus of Casual French) à partir de techniques automatiques comme l'alignement automatique. Les taux de réalisation sont mesurés pour les consonnes de liaison les plus fréquentes (/z/, /n/ et /t/) dans des sites de liaison potentielle classés selon que la liaison y est obligatoire, facultative ou interdite. Nous proposons également une étude sur les relations entre le débit de parole et la réalisation des liaisons.


  • Valérie BEAUDOUIN (France Télécom R & D)
    Mètre en règles
    (Metrics in rules)
    2004, Vol. IX-1, pp. 119-137

    Cet article rend compte d’une expérience d’analyse systématique des aspects métriques et rythmiques d’un corpus de près de 80 000 vers. Des outils d’analyse du vers ont été construits à partir de briques de Traitement Automatique des Langues déjà existantes. Nous défendons une approche expérimentale et cumulative qui consiste à enrichir la description des vers par des traits de nature différente (morphosyntaxe, accent, rime…) qui portent sur des unités de taille différente (position métrique, hémistiche, vers, couple de vers), et qui sont construits avec des outils hétérogènes. Cette intégration dans une seule base de données permet de valider des hypothèses classiques sur le vers et de tester de nouvelles hypothèses portant en particulier sur les corrélations entre niveaux d’analyse. Cette approche expérimentale s’appuie sur les savoirs traditionnels sur le vers, mais elle est aussi en mesure de faire évoluer les théories ou hypothèses dominantes en faisant émerger de nouvelles formes de régularités, peu visibles à l’œil nu, et des corrélations inattendues entre phénomènes relevant de plusieurs niveaux linguistiques.


  • Christian BOITET (Grenoble 1)
    Automated Translation
    2003, Vol. VIII-2, pp. 99-121

    Il importe de prendre conscience que la traduction humaine est difficile et diverse, et que l'automatisation est devenue indispensable aux usagers comme aux traducteurs et interprètes. Mais l'automatisation elle-même se manifeste sous des formes variées. Après une brève présentation des outils informatisés mis à la disposition des traducteurs, on se concentrera sur les approches linguistiques et informatisées de la traduction automatique proprement dite. Cet examen fournira un éventail de critères permettant de classer les systèmes CAT existants qui seront brièvement illustrés. On essaiera enfin de montrer quelles sont les perspectives d'avenir en matière de recherche, de développement et d'expansion dans ce secteur.


  • Christian BOITET (Grenoble 1)
    Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système
    (Corpus for the Machine Translation: types, sizes and connected problems, in relation to use and system type)
    2007, Vol. XII-1, pp. 25-38

    Les corpus utilisés en TA de l'écrit et de l'oral ont évolué, depuis les suites de test et les corpus d'essai des débuts, vers des corpus parallèles bilingues ou multilingues, bruts ou enrichis par des métadonnées et une grande variété d'annotations linguistiques. Ils sont assez petits et peuvent avoir une « granularité » importante en TA « experte », classique, mais sont énormes et de granularité faible en TA « empirique », statistique ou fondée sur les exemples. La représentation des textes et l'interface avec le traitement de la parole posent des problèmes spécifiques, ainsi que la segmentation et la structuration des segments et des corpus. Un défi actuel est d'unifier et de mutualiser leur construction et leur gestion.


  • Philippe BOULA DE MAREÜIL (Paris Sud)
    Variation diachronique dans la prosodie du style journalistique : le cas de l'accent initial
    (Diachronic variation in the prosody of French news announcer speech: changes in word initial accent)
    2012, Vol. XVII-1, pp. 97-111

    Cette étude traite de l'évolution de la prosodie dans le style journalistique français, à partir de l'analyse acoustique d'archives audiovisuelles remontant aux années 1940. Un corpus d'une dizaine d'heures de parole a été examiné automatiquement, et nous nous sommes concentrés sur l'accent initial, qui peut donner une impression de style emphatique. Des mesures objectives suggèrent qu'en un demi-siècle les traits suivants ont diminué : la hauteur de voix des journalistes, la montée mélodique associée à l'accent initial et la durée vocalique caractérisant un accent initial emphatique. Les attaques de syllabes initiales accentuées, quant à elles, se sont allongées. Ce résultat suggère que les corrélats de durée de l'accent initial ont changé au cours du temps, dans le style journalistique français.


  • Antonia CRISTINOI-BURSUC (Orléans)
    Les erreurs dans la traduction automatique du genre dans les couples français-anglais et anglais-français : typologie, causes linguistiques et solutions
    (Gender errors in automatic translation between English and French: typology, linguistic causes and solutions)
    2009, Vol. XIV-1, pp. 93-107

    En s’appuyant sur les notions de classes de comportement, marquage et indices morphosyntaxiques, cet article montre d’une part que l’on peut prédire en amont, au niveau lexical et pour chaque unité linguistique, le type de problème qui peut surgir lors de la traduction (automatique ou non) du genre dans les couples français-anglais/anglais-français, et d’autre part qu’il est possible de trouver des solutions systématiques et automatisables pour chaque type de problème. Le modèle proposé pour ces deux langues peut être étendu à d’autres langues ou couples de langues mais aussi à d’autres catégories linguistiques, et peut en cela contribuer à l’amélioration du fonctionnement des traducteurs automatiques.


  • Nathalie GARRIC (Tours)
    Désambiguïsation des noms propres déterminés par l'utilisation des grammaires locales
    (Disambiguating proper nouns by use of local grammars)
    2000, Vol. V-2, pp. 85-100

    Cet article s'inscrit dans le cadre du projet PROLEX de traitement automatique des noms propres. Notre objectif, par l'exploitation de l'outil informatique, consiste, non seulement à identifier les différentes occurrences du nom propre déterminé (modifié ou non modifié), mais également, à leur affecter un type d'interprétation pertinent : référentielle, dénominative, exemplaire, métaphorique ou fractionnée. Après l'élaboration d'une typologie des emplois propriaux déterminés, il s'agit d'extraire les indices formels et lexicaux autorisant la désambiguïsation du fonctionnement référentiel et sémantique du nom propre. Après avoir isolé ces unités discriminantes (par exemple les déterminants, les adjectifs, les prédicats d'existence), on propose des grammaires locales destinées à la reconnaissance automatique.


  • Nathalie GASIGLIA (Lille 3)
    Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en corpus
    (The co-operation of Cordial Analyser and Unitex for optimising corpus extractions)
    2004, Vol. IX-1, pp. 45-62

    Une étude linguistique circonscrite - l'analyse syntaxico-sémantique de certains emplois des verbes donner et passer dans la langue du football - offre un cadre utile pour développer une réflexion qualitative sur les ressources documentaires constituables en un corpus électronique instructif et de bonne couverture, et introduire la notion de 'corpus thématiques à haut rendement'. Ensuite, pour explorer le corpus construit, Cordial Analyseur et Unitex, deux concordanciers et analyseurs syntaxiques, sont mis à l'épreuve. La description de leurs fonctionnalités partagées, de leurs spécificités mais aussi de leurs faiblesses me conduit à formuler une proposition originale : faire collaborer ces deux outils afin que leurs complémentarités stratégiquement exploitées offrent le pouvoir de formuler des requêtes d'une complexité certaine en bénéficiant d'une fiabilité d'analyse avérée et d'une capacité à marquer chaque élément repéré dans les concordances produites avec un balisage en langage XML.


  • Gaston GROSS (Paris 13)
    Traitement automatique des domaines
    (Automatic processing of linguistic 'domains')
    1998, Vol. III-2, pp. 47-56

    L'objectif de cet article est de présenter une méthode de traitement automatique de la notion de domaine et des applications qu'induit cette méthode dans la recherche d'informations sur le Web. Après avoir mis l'accent sur les précautions qu'il faut prendre pour attribuer un texte à un domaine donné, on définit un domaine comme un ensemble d'hyperclasses (humain, concret, locatif, temps, action, etc.), et de classes d'objets, correspondant à la structuration de la phrase simple en prédicats et arguments. Toutes ces informations sémantico-syntaxiques figurent dans des dictionnaires électroniques de langue générale et de langues de spécialité, qui distinguent les mots simples des mots composés. On marquera les pages Web sur la base de ces dictionnaires. Une première application a permis ainsi au moteur de recherches AltaVista d'identifier automatiquement 29 langues. De même, l'identification des mots composés permet de faire des requêtes beaucoup plus précises et rapides que celles que l'on ferait en interrogeant sur les éléments lexicaux constitutifs de ces composés. Ces recherches peuvent être encore affinées grâce à la précision supplémentaire qu'apportent les mots composés complexes. Une application en grandeur réelle a pour objet la langue de la médecine, dans le cadre du projet Webling de la Communauté Européenne.


  • Benoît HABERT (Paris X-Nanterre)
    Outiller la linguistique : de l'emprunt de techniques aux rencontres de savoirs
    (To tool up linguistics: from borrowing techniques to the meeting of knowledge)
    2004, Vol. IX-1, pp. 5-24

    Une bonne partie de la recherche linguistique ne suppose pas d'instrument particulier. Les travaux en linguistique ont cependant à gagner à intégrer les outils fournis par le TAL (Traitement automatique des langues) et par l'informatique de manière plus large. L'apport sera d'autant plus fructueux si l'on ne se cantonne pas à des emprunts de ressources ou de techniques et si s'approfondit le dialogue entre les savoirs de chaque discipline


  • Serge HEIDEN (ENS LSH Lyon)
    Ressources électroniques pour l'étude des textes médiévaux : approches et outils
    (Electronic aids in studying medieval texts: methods and tools)
    2004, Vol. IX-1, pp. 99-118

    Deux approches de la constitution de corpus de textes médiévaux se dessinent depuis une dizaine d'années déjà : 1. numérisation d'éditions critiques modernes ; 2. création de transcriptions diplomatiques précises de manuscrits, éventuellement accompagnées des images des originaux. Ces approches sont en réalité plutôt complémentaires qu'opposées, car elles permettent aux chercheurs de faire le choix entre la quantité (représentativité) et la qualité (sûreté et richesse) des données en fonction de la recherche effectuée. Pour les deux types de corpus nous analysons les enjeux de l'utilisation d'une représentation normalisée du texte et de son 'ancrage' signalétique (norme XML et conventions de représentation TEI). Les problèmes méthodologiques qui se posent lors de la création et de l'exploitation des corpus de textes anciens, et leurs solutions sont aussi valables pour d'autres types de corpus linguistiques.


  • Christine JACQUET-PFAU (Collège de France)
    Correcteurs orthographiques et grammaticaux : quel(s) outil(s) pour quel rédacteur ?
    (Spelling and grammar checkers : which tool(s) are suitable for which author ?)
    2001, Vol. VI-2, pp. 81-94

    Cet article se propose de remettre en question l'évaluation des outils dits de "correction", orthographique et syntaxique, par les utilisateurs. Plusieurs critères doivent être pris en compte : le fonctionnement même des correcteurs, qu'ils soient intégrés ou autonomes, la configuration particulière de chacun d'entre eux et enfin les contraintes de correction, qui, on l'oublie trop souvent, doivent être précisément définies en fonction du mode de vérification souhaité par l'utilisateur. Nous montrerons que la notion même d'erreur est, dans ce contexte, à redéfinir. Puis nous examinons les principales caractéristiques des correcticiels et proposons une typologie des utilisateurs. Enfin, nous nous intéressons au rôle de ces outils pour l'apprentissage du français.


  • Hendrik J. KOCKAERT (Lessius)
    Un outil de gestion terminologique pour la traduction juridique en Belgique : état de la question et perspectives
    (A tool for managing terminology in juridical translation activities in Belgium; How it works and what it can do)
    2011, Vol. XVI-1, pp. 93-104

    Le Département de linguistique appliquée de la Lessius et l'unité de recherche en linguistique variationnelle et quantitative de la K.U. Leuven ont été invités par le service public fédéral de la Justice à développer un système de gestion terminologique permettant aux traducteurs de disposer de phraséologies et de terminologies correctes, cohérentes et révisées par des experts en la matière. Il s'agit d'un système couvrant les trois langues nationales de la Belgique. A partir des quelques systèmes de gestion de terminologie actuellement utilisés dans les unités fédérales de traduction juridique est envisagé un outil construit sur un concept nouveau de terminologie phraséologique. Une méthode d'extraction de terminologies phraséologiques sert de base à une méthode expérimentale propre permettant de développer une terminologie adaptée au genre textuel spécifique des documents juridiques.


  • Thomas LEBARBÉ (Caen)
    TAPAS : Traitement et Analyse par Perception Augmentée en Syntaxe
    (TAPAS: Treatment and Analysis in Syntax by Augmented Perception)
    2000, Vol. V-2, pp. 71-83

    Dans cet article, nous présentons une approche innovante de l'analyse syntaxique. Contrairement aux courants habituels qui conçoivent l'analyse syntaxique par des processus en série, nous proposons ici une architecture d'agents cognitifs hybrides dont la tâche est l'analyse syntaxique robuste et profonde.Après une présentation succincte des travaux courants dont nous sommes partis, nous présenterons à l'aide d'un exemple le fonctionnement théorique de notre architecture. Ceci nous permettra ensuite de décrire l'architecture APA, que nous avons utilisée pour ce projet conjoint. Enfin, en conclusion, nous présenterons certaines perspectives de développement.


  • Sarah LEROY (Paris X-Nanterre)
    Extraire sur patrons : allers et retours entre analyse linguistique et repérage automatique
    (Extraction on patterns: two-way traffic between linguistic analysis and automated identification)
    2004, Vol. IX-1, pp. 25-43

    Nous présentons ici un système de repérage automatique de l'antonomase du nom propre dans des textes étiquetés. On compare tout d'abord, en décrivant les rouages du système et les méthodes et outils utilisés, les repérages manuels et automatiques, pour constater que la machine l'emporte sur le plan de la fiabilité.Après avoir indiqué en quoi les possibilités et les limites du repérage automatique influent sur le travail linguistique, on met ce travail déjà ancien (2000) en perspective avec de nouveaux outils mis à la disposition des linguistes, en particulier la possibilité de lancer une requête sur le sous-ensemble de textes catégorisés de la base Frantext.


  • Denise MALRIEU (CNRS-Paris)
    Genres et variations morphosyntaxiques
    ('Genres' and morphosyntactic variations)
    2000, Vol. V-2, pp. 101-120

    En pratiquant une analyse statistique différentielle de 2600 textes intégraux analysés et étiquetés par l'analyseur CORDIAL nous avons testé et exploité la notion de genre textuel. Une classification "manuelle" préalable des textes a permis de combiner démarches déductive et inductive pour confirmer l'existence de différences significatives entre discours, champs génériques et genres textuels, attestées sur 250 variables morphosyntaxiques. Les résultats de l'analyse univariée montrent ainsi des différences plus nombreuses et plus fortes entre discours, champs génériques qu'entre genres narratifs.L'analyse hiérarchique ascendante confirme les différences des discours et champs génériques (juridique vs autres ; théâtre et poésie vs genres narratifs) , mais elle établit des classes mixtes dans le bas de la hiérarchie, le roman policier s'opposant le plus aux autres genres narratifs. Ces résultats confirment l'intérêt de la notion de genre pour l'analyse linguistique des textes, renforcent l'hypothèse de Hjelmslev selon laquelle la syntaxe relève du contenu linguistique, et mettent en évidence des solidarités d'échelle jusqu'alors inaperçues entre le niveau global du texte et le niveau local du mot.


  • François MANIEZ (Lyon 2)
    Le repérage par traitement automatique du défigement lexical des proverbes dans la presse américaine
    (Automatic retrieval of intentionally modified proverbs in the American press)
    2000, Vol. V-2, pp. 19-32

    Le recours à l'allusion par défigement lexical est un aspect de la prose journalistique qui peut faire obstacle à la compréhension de l'apprenant en langue étrangère. L'automatisation du repérage de ces allusions serait utile dans le cadre d'un système d'aide à la compréhension en ligne. A partir d'une base de données regroupant 10 500 titres d'articles de la presse américaine, nous analysons les références au fonds culturel anglo-saxon par défigement lexical. Dans le cas des allusions aux proverbes, diverses méthodes d'automatisation du repérage de ces défigements sont testées par comparaison de ces titres avec les 800 proverbes les plus courants de la langue anglaise.


  • Taoufik MASSOUSSI (Paris 13)
    Traitement automatique des métonymies
    (Automated processing of metonymies)
    2009, Vol. XIV-2, pp. 43-56

    La métonymie participe activement à la lexicalisation dans la langue générale tout comme dans les langues de spécialité. Cet article montre comment les principes développés pour rendre compte de manière automatique de la langue générale sont directement applicables aux langues de spécialité.


  • Augusta MELA (Montpellier 3)
    Linguistes et « talistes » peuvent coopérer : repérage et analyse des gloses
    (Linguists and NLP-specialists may work together: location and analysis of gloses)
    2004, Vol. IX-1, pp. 63-82

    Cet article s'inscrit dans le cadre d'un projet collectif de recherche linguistique sur le mot et sa glose. Comme les définitions, les gloses recueillent 'l'expérience parlée du sens'. Cette activité métalinguistique se manifeste dans les textes par des mots tels que c'est-à-dire, ou, signifier qui signent la relation de sémantique lexicale mise en jeu : équivalence avec c'est-à-dire, ou ; spécification du sens avec au sens ; équivalence avec ou, c'est-à-dire ; nomination avec dit, baptisé ; hyponymie avec en particulier, comme ; hyperonymie avec et/ou autre(s), etc.Grâce à l'existence de ces marques et des particularités de leurs configurations, un repérage automatique des gloses est envisageable. J'en décris ici la mise en ouvre, en prenant l'exemple des gloses en ou telles que 'un magazine électronique, ou webzine' et d'un environnement informatique 'pour linguistes', à savoir la base textuelle Frantext et son interpréteur de langage de requête Stella.


  • Sylvie NORMAND (CNRS-Rouen)
    Analyse des adjectifs d'un corpus médical à l'aide d'outils de traitement automatique des langues
    (Analysis of the adjectives of a medical corpus by means of automatic language processing)
    2000, Vol. V-2, pp. 151-160

    Il a été mis en évidence une importante variabilité dans les diagnostics fournis par des experts médicaux dans le domaine de l'histopathologie, à partir d'observations macroscopiques et microscopiques d'images de tumeurs du sein. Le manque de reproductibilité dans l'identification de caractéristiques morphologiques est en partie dû à une différence de niveau d'expertise des différents spécialistes et à une interprétation subjective des images. En tant que linguistes et développeurs de systèmes de traitement automatique des langues (TAL), nous avons engagé une collaboration avec l'équipe d'informatique médicale de l'Hôpital Broussais consistant à explorer une nouvelle manière d'acquérir un glossaire médical selon une méthodologie à base de corpus. Notre travail porte essentiellement sur les adjectifs dans la mesure où cette catégorie linguistique est fortement impliquée dans l'évaluation. Les premiers résultats de cette étude montrent la pertinence d'une approche à base de corpus pour capter les interprétations "subjectives" données par les spécialistes lors de l'analyse d'images microscopiques.


  • Pierre ZWEIGENBAUM (CNRS-LIMSI)
    Traitements automatiques de la terminologie médicale
    (Automatic processing of medical terminology)
    2001, Vol. VI-2, pp. 47-62

    Les discours spécialisés se caractérisent par une terminologie spécifique. La médecine tient à ce titre une position particulière, non seulement par le nombre impressionnant de termes mis en jeu, mais aussi par les efforts internationaux déjà consacrés pour constituer des terminologies normalisées. Ces terminologies jouent un rôle clé dans le traitement de l'information et de la connaissance médicale. Une grande part des travaux sur le traitement automatique de la langue médicale est de ce fait centrée sur des traitements mettant en jeu ces terminologies, que ce soit comme cible des calculs ou comme source de connaissances. Nous présentons ici, au travers de nos propres travaux, divers aspects de ces traitements.