2008-1 | Extraction d'information : l'apport de la linguistique (Information extraction: the contribution of linguistics) | |
Cliquer sur le livret pour en lire un résumé | Ce numéro est en ligne en texte intégral sur le portail: Cairn.info |
-
Anne CONDAMINES & Thierry POIBEAU (Toulouse 2-Le Mirail / CNRS / Paris 13)Linguistique et accès automatisé à l’information : un bilan(Linguistics and automated access to information: drawing up the balance)pp. 5-8
-
Christina LIOMA & C.J. Keith VAN RIJSBERGEN (Louvain, Belgique / Glasgow, Grande-Bretagne)Part of speech n-grams and Information Retrievalpp. 9-22
Les tentatives d’utilisation de connaissances linguistiques en recherche d’information (RI) ont commencé dans les années 1980 et se sont développées dans les années 1990, en mettant en évidence des améliorations de performance (voir les synthèses de Smeaton 1986 et 1999, Karlgren 1993, et Tait 2005). Depuis lors, ces tentatives sont allées décroissant : les performances des systèmes basiques se sont améliorées et le coût du traitement linguistique ne justifiait pas le petit bénéfice obtenu (Tait 2005). La plupart des recherches en linguistique pour la RI ont aujourd’hui tendance à se tourner vers les applications de domaines spécifiques, qui semblent mieux bénéficier de ces connaissances, comme les systèmes de question-réponse (Tait & Oakes 2006). Bien que ces applications soient importantes, elles ne couvrent pas toute la recherche en linguistique pour la RI. Dans cet article, nous présentons une autre utilisation de la linguistique, plus précisément des informations sur les catégories grammaticales, pour pondérer le contenu informatif de séquences de texte. Cette pondération est une nouvelle application de la linguistique en RI et peut améliorer la performance des systèmes en général.
-
Piek VOSSEN (Amsterdam, Pays-Bas)Linguistic knowledge for more precision, richer answers and flexible systemspp. 23-39
Irion Technologies est une entreprise d’ingénierie linguistique basée à Delft (Pays-Bas) qui prend en compte des connaissances linguistiques pour construire une nouvelle génération de systèmes d’information : recherche conceptuelle, extraction automatique de termes et d’ontologies et systèmes de dialogues ouverts (hors domaine). Ces systèmes sont multilingues, voire interlingues (les documents peuvent être dans une langue différente de la requête), ils combinent approches statistiques, apprentissage et méthodes linguistiques. Nous avons évalué certains de ces systèmes. En ce qui concerne la recherche d’information, nous montrons l’avantage de traitements spécifiques focalisés sur l’analyse des ambiguïtés par rapport aux approches statistiques classiques. L’extraction de termes est clairement améliorée avec des ressources et des connaissances linguistiques riches. Les systèmes de dialogue dépendent des modèles et des systèmes de communication qui nécessitent aussi un traitement linguistique approfondi. De notre point de vue, l’ingénierie linguistique contribue sans conteste à l’amélioration des applications et elle semble nécessaire au développement de nouvelles applications.
-
Pierre ZWEIGENBAUM, Brigitte GRAU, Anne-Laure LIGOZAT, Isabelle ROBBA, Sophie ROSSET, Xavier TANNIER, Anne VILNAT & Patrice BELLOT (CNRS-LIMSI)Apports de la linguistique dans les systèmes de recherche d'informations précises(Contributions of linguistics in the search for precise information)pp. 41-62
La recherche de réponses précises à des questions, aussi appelée « questions-réponses », est une évolution des systèmes de recherche d'information : peut-elle, comme ses prédécesseurs, se satisfaire de méthodes essentiellement numériques, utilisant extrêmement peu de connaissances linguistiques ? Après avoir présenté la tâche de questions-réponses et les enjeux qu’elle soulève, nous examinons jusqu'où on peut la réaliser avec très peu de connaissances linguistiques. Nous passons ensuite en revue les différents types de connaissances linguistiques que les équipes ont été amenées à mobiliser : connaissances syntaxiques et sémantiques pour l’analyse de phrases, rôle de la reconnaissance d’« entités nommées », prise en compte de la dimension textuelle des documents. Une discussion sur les contributions respectives des méthodes linguistiques et non linguistiques clôt l’article.
-
Horacio SAGGION (Sheffield, Grande-Bretagne)Automatic Summarization: An Overviewpp. 63-81
Un résumé est un texte concis qui rend compte du contenu essentiel d'un document par rapport à une tache déterminée. Cet article donne un aperçu de la recherche en résumé automatique – la tâche qui vise à produire des résumés par ordinateur. Bien que les recherches en résumé automatique aient débuté dans les années cinquante, il y a eu récemment un très fort renouveau de l'intérêt dans ce domaine en raison de la quantité des textes disponibles en format numérique et en réaction aux efforts d’évaluation internationale. On introduit ici la notion de résumé automatique et les techniques utilisées pour les produire. On présente des systèmes de résumé automatique disponibles aussi bien que des applications réels du résumé. On discute le rôle des connaissances linguistiques dans le processus automatique et le problème de l’évaluation.
-
Aurélie PICTON, Cécile FABRE & Didier BOURIGAULT (Toulouse / Toulouse)Méthodes linguistiques pour l’expansion de requêtes. Une expérience basée sur l’utilisation du voisinage distributionnel(Linguistic methods for expanding queries. An experiment based on the use of distributional closeness)pp. 83-95
Cet article présente les résultats d’une expérience d’expansion de requêtes qui exploite des informations sémantiques fournies par un programme d’analyse distributionnelle automatique appliqué à un corpus de français de grande taille. Cette méthode permet de mettre au jour des relations qui dépassent largement les relations lexicales classiques. Une étude globale puis locale des performances de la recherche montre l’intérêt de recourir à des relations sémantiques diversifiées, qui reflètent les rapprochements sémantiques établis dans le corpus, à condition de contrôler l’utilisation de ces ressources pour l’expansion par une procédure de filtrage à partir des textes de la base (distributional feedback) et par une analyse des caractéristiques linguistiques de la requête.
-
Marie-Claude L'HOMME (Montréal, Canada)Ressources lexicales, terminologiques et ontologiques : une analyse comparative dans le domaine de l’informatique(Lexical, terminological and ontological resources: a comparative analysis in the field of computer science)pp. 97-118
Le traitement des textes (automatique ou semi-automatisé) fait de plus en plus souvent appel à des ressources externes (par ex. des bases de données lexicales ou terminologiques, des ontologies) dont la forme et le contenu peuvent varier. La ressource externe est souvent incorporée à une autre forme de traitement et permet d’injecter des connaissances linguistiques, notamment sémantiques, qui ne peuvent être inférées directement à partir du texte. Dans cette contribution, nous étudierons l’intérêt que peuvent présenter les ressources lexicales, terminologiques et ontologiques pour traiter des termes susceptibles de se retrouver dans un texte spécialisé en évaluant leur optique descriptive et leur contenu. Nous nous concentrerons sur le domaine de l’informatique en tenant pour acquis qu’il est représentatif de nombreux autres domaines de spécialité. La présence et le traitement de 75 termes spécifiques ont été étudiés dans six ressources électroniques de nature différente. Les résultats révèlent que les ressources, dans leur état actuel, ne tiennent pas compte de manière satisfaisante de l’ensemble des propriétés des termes.
-
Mathieu VALETTE & Monique SLODZIAN (ATILF / INaLCO)Sémantique des textes et Recherche d’Information(Text semantics and Information research)pp. 119-133
Cet article entend rendre compte de certaines des propositions de la sémantique textuelle pour la recherche d'information et plus particulièrement pour la classification de texte par leur contenu. La première partie sera consacrée à une rétrospective de l’impact du linguistique - à travers les techniques TAL - dans le domaine de la RI. Elle sera l’occasion de faire état à la fois des résultats acquis et des approches standard de la dimension linguistique dans la problématique RI. On s’intéressera en particulier à la lente émergence de la problématique textuelle qui accompagne l’expansion du Web. Nous comptons montrer en quoi l’attention croissante suscitée par la linguistique textuelle correspond à un tournant dans la problématique de la RI sur le Web, en quoi l’approche par catégorisation des textes constitue une rupture avec les méthodes précédentes. Les deuxième et troisième parties approfondiront les conditions d’une linguistique textuelle appliquée à la RI. Nous exposerons dans un premier temps des méthodologies expérimentées dans le cadre d’un projet de filtrage des textes racistes sur Internet, puis nous présenterons certaines des recherches actuelles menées en Analyse des Données Textuelles (ADT) susceptibles, à plus ou moins court terme, d’améliorer les méthodes de la RI.
-
Colons, Créoles et Coolies. L'immigration réunionnaise en Nouvelle-Calédonie (XIXe siècle) et le tayo de Saint-Louis, de K. Speedy
par R. Chaudensonpp. 134-135 -
La phraséologie dans tous ses états, de C. Bolly, J. Klein, B. Lamiroy (éds)
par M. Pecmanpp. 135-137 -
Bibliographie thématique et chronologique de Métalexicographie (1950-2006), de C. Boccuzzi, M. Centrella, M. Lo Nostro & V. Zotti
par T. Fontenellepp. 137-138 -
Grammaire rénovée du français, de M. Wilmet
par C. Corblinpp. 138-140 -
Practical Lexicography: a reader, de T. Fontenelle
par G. Williamspp. 140-143