Pesquisa de informação

  • Jean-Pierre DESCLÉS (Paris 4)
    Extraction d'informations de corpus composés de textes techniques
    (Information retrieval from corpora of technical texts)
    1997, Vol. II-2, pp. 19-33

    Les textes techniques présentent des particularités linguistiques intéressantes et encore mal étudiées. Sont ici décrites les recherches menées par une équipe pluridisciplinaire de linguistes et d'informaticiens ayant entrepris de concevoir, puis de réaliser des prototypes de logiciels pour l'extraction d'informations construites à partir de textes techniques. Ces travaux, illustrés par des exemples précis, ont abouti à des programmes informatiques sous la forme soit de réseaux entre concepts, soit de phrases extraites des textes analysés, et éventuellement accompagnées d'informations sémantiques assignées automatiquement.


  • Nathalie GASIGLIA (Lille 3)
    Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en corpus
    (The co-operation of Cordial Analyser and Unitex for optimising corpus extractions)
    2004, Vol. IX-1, pp. 45-62

    Une étude linguistique circonscrite - l'analyse syntaxico-sémantique de certains emplois des verbes donner et passer dans la langue du football - offre un cadre utile pour développer une réflexion qualitative sur les ressources documentaires constituables en un corpus électronique instructif et de bonne couverture, et introduire la notion de 'corpus thématiques à haut rendement'. Ensuite, pour explorer le corpus construit, Cordial Analyseur et Unitex, deux concordanciers et analyseurs syntaxiques, sont mis à l'épreuve. La description de leurs fonctionnalités partagées, de leurs spécificités mais aussi de leurs faiblesses me conduit à formuler une proposition originale : faire collaborer ces deux outils afin que leurs complémentarités stratégiquement exploitées offrent le pouvoir de formuler des requêtes d'une complexité certaine en bénéficiant d'une fiabilité d'analyse avérée et d'une capacité à marquer chaque élément repéré dans les concordances produites avec un balisage en langage XML.


  • Gaston GROSS (Paris 13)
    Traitement automatique des domaines
    (Automatic processing of linguistic 'domains')
    1998, Vol. III-2, pp. 47-56

    L'objectif de cet article est de présenter une méthode de traitement automatique de la notion de domaine et des applications qu'induit cette méthode dans la recherche d'informations sur le Web. Après avoir mis l'accent sur les précautions qu'il faut prendre pour attribuer un texte à un domaine donné, on définit un domaine comme un ensemble d'hyperclasses (humain, concret, locatif, temps, action, etc.), et de classes d'objets, correspondant à la structuration de la phrase simple en prédicats et arguments. Toutes ces informations sémantico-syntaxiques figurent dans des dictionnaires électroniques de langue générale et de langues de spécialité, qui distinguent les mots simples des mots composés. On marquera les pages Web sur la base de ces dictionnaires. Une première application a permis ainsi au moteur de recherches AltaVista d'identifier automatiquement 29 langues. De même, l'identification des mots composés permet de faire des requêtes beaucoup plus précises et rapides que celles que l'on ferait en interrogeant sur les éléments lexicaux constitutifs de ces composés. Ces recherches peuvent être encore affinées grâce à la précision supplémentaire qu'apportent les mots composés complexes. Une application en grandeur réelle a pour objet la langue de la médecine, dans le cadre du projet Webling de la Communauté Européenne.


  • Sarah LEROY (Paris X-Nanterre)
    Extraire sur patrons : allers et retours entre analyse linguistique et repérage automatique
    (Extraction on patterns: two-way traffic between linguistic analysis and automated identification)
    2004, Vol. IX-1, pp. 25-43

    Nous présentons ici un système de repérage automatique de l'antonomase du nom propre dans des textes étiquetés. On compare tout d'abord, en décrivant les rouages du système et les méthodes et outils utilisés, les repérages manuels et automatiques, pour constater que la machine l'emporte sur le plan de la fiabilité. Après avoir indiqué en quoi les possibilités et les limites du repérage automatique influent sur le travail linguistique, on met ce travail déjà ancien (2000) en perspective avec de nouveaux outils mis à la disposition des linguistes, en particulier la possibilité de lancer une requête sur le sous-ensemble de textes catégorisés de la base Frantext.


  • Patrick LEROYER (Aarhus, Danemark)
    En termes de vin : lexicographisation du guide œnotouristique en ligne
    (In terms of wine: lexicographisation of an on-line tourist guide for wine-lovers)
    2009, Vol. XIV-2, pp. 99-116

    Outils de communication d’image et de connaissances spécialisées, les guides touristiques en ligne intègrent une variété de structures lexicographiques : nomenclatures, articles, schémas conceptuels, index et registres, options de recherche à partir de mots-clés, systèmes de renvois internes et externes, etc. Ceci n’est guère surprenant dans la mesure où ce qui est requis est l’accès performant aux données permettant d’extraire l’information, tout comme en lexicographie. La thèse fonctionnelle que nous développons ici est que la lexicographisation est à même de démultiplier les modalités d’accès aux données dans la perspective de l’utilisateur. Prenant les guides œnotouristiques comme cas de figure, nous passerons en revue les situations d’utilisation motivant la recherche de l’information, en particulier la recherche de l’information expérientielle, dans laquelle l’utilisateur consulte le guide en vue d’optimiser les conditions de son expérience œnotouristique. Nous formulerons à la clé des propositions théoriques visant à optimiser l’interaction des fonctions lexicographiques, de la présentation des données et des modalités d’accès.