Extração

  • Jean-Pierre DESCLÉS (Paris 4)
    Extraction d'informations de corpus composés de textes techniques
    (Information retrieval from corpora of technical texts)
    1997, Vol. II-2, pp. 19-33

    Les textes techniques présentent des particularités linguistiques intéressantes et encore mal étudiées. Sont ici décrites les recherches menées par une équipe pluridisciplinaire de linguistes et d'informaticiens ayant entrepris de concevoir, puis de réaliser des prototypes de logiciels pour l'extraction d'informations construites à partir de textes techniques. Ces travaux, illustrés par des exemples précis, ont abouti à des programmes informatiques sous la forme soit de réseaux entre concepts, soit de phrases extraites des textes analysés, et éventuellement accompagnées d'informations sémantiques assignées automatiquement.


  • Nathalie GASIGLIA (Lille 3)
    Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en corpus
    (The co-operation of Cordial Analyser and Unitex for optimising corpus extractions)
    2004, Vol. IX-1, pp. 45-62

    Une étude linguistique circonscrite - l'analyse syntaxico-sémantique de certains emplois des verbes donner et passer dans la langue du football - offre un cadre utile pour développer une réflexion qualitative sur les ressources documentaires constituables en un corpus électronique instructif et de bonne couverture, et introduire la notion de 'corpus thématiques à haut rendement'. Ensuite, pour explorer le corpus construit, Cordial Analyseur et Unitex, deux concordanciers et analyseurs syntaxiques, sont mis à l'épreuve. La description de leurs fonctionnalités partagées, de leurs spécificités mais aussi de leurs faiblesses me conduit à formuler une proposition originale : faire collaborer ces deux outils afin que leurs complémentarités stratégiquement exploitées offrent le pouvoir de formuler des requêtes d'une complexité certaine en bénéficiant d'une fiabilité d'analyse avérée et d'une capacité à marquer chaque élément repéré dans les concordances produites avec un balisage en langage XML.


  • Sarah LEROY (Paris X-Nanterre)
    Extraire sur patrons : allers et retours entre analyse linguistique et repérage automatique
    (Extraction on patterns: two-way traffic between linguistic analysis and automated identification)
    2004, Vol. IX-1, pp. 25-43

    Nous présentons ici un système de repérage automatique de l'antonomase du nom propre dans des textes étiquetés. On compare tout d'abord, en décrivant les rouages du système et les méthodes et outils utilisés, les repérages manuels et automatiques, pour constater que la machine l'emporte sur le plan de la fiabilité. Après avoir indiqué en quoi les possibilités et les limites du repérage automatique influent sur le travail linguistique, on met ce travail déjà ancien (2000) en perspective avec de nouveaux outils mis à la disposition des linguistes, en particulier la possibilité de lancer une requête sur le sous-ensemble de textes catégorisés de la base Frantext.


  • François MANIEZ (Lyon 2)
    Le repérage par traitement automatique du défigement lexical des proverbes dans la presse américaine
    (Automatic retrieval of intentionally modified proverbs in the American press)
    2000, Vol. V-2, pp. 19-32

    Le recours à l'allusion par défigement lexical est un aspect de la prose journalistique qui peut faire obstacle à la compréhension de l'apprenant en langue étrangère. L'automatisation du repérage de ces allusions serait utile dans le cadre d'un système d'aide à la compréhension en ligne. A partir d'une base de données regroupant 10 500 titres d'articles de la presse américaine, nous analysons les références au fonds culturel anglo-saxon par défigement lexical. Dans le cas des allusions aux proverbes, diverses méthodes d'automatisation du repérage de ces défigements sont testées par comparaison de ces titres avec les 800 proverbes les plus courants de la langue anglaise.