[Web4lib] Now available at Project MUSE - Canadian Journal of Information and Library Science Volume 35, Number 3, September/septembre 2011

Wed Sep 21 09:55:34 EDT 2011

Canadian Journal of Information and Library Science Volume 35, Number 3, September/septembre 2011 is now available at Project MUSE.<http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/toc/ils.35.3.html>
Exploration de textes et recherche d'information<http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.forest.html>
Dominic Forest<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Forest,%20Dominic.%22> and Lyne Da Sylva<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22da%20Sylva,%20Lyne.%22>
Text mining and information retrieval<http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.article.html>
Dominic Forest<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Forest,%20Dominic.%22> and Lyne Da Sylva<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22da%20Sylva,%20Lyne.%22>
Named Entity Normalization: Combining Normalization Rules, Endogenous Resources and User-Oriented Process / Normalisation des entités nommées : allier règles déclaratives, ressources endogènes et processus centré sur l'utilisateur<http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.andreani.html>
Vanessa Andréani<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Andr%C3%A9ani%2C%20Vanessa.%22>, Thibault Roy<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Roy%2C%20Thibault.%22> and Thomas Lebarbé<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Lebarb%C3%A9%2C%20Thomas.%22>

Abstract:
Normalization is involved in many fields of information processing. It improves the performance of several applications, such as information retrieval or information extraction, and makes the construction of language resources more reliable. Normalization consists in standardizing each variant of a term or named entity into a unique form, and in this way restricts the impact of language variation. Our work applies to named entity normalization, and aims at optimizing fine-grained corpus analyses carried out by the TecKnowMetrix Company. Our approach mixes several methods, such as pattern matching, similarity metrics and endogenous techniques. Moreover, we place the user in the center of our normalization process, in order to obtain fully reliable data that fit his or her needs.

Résumé:
La normalisation intervient dans de nombreux champs du traitement de l'information. Elle permet d'améliorer l'efficacité d'applications telles que la recherche ou l'extraction d'information, et de rendre plus fiable la constitution de ressources langagières. La normalisation consiste à ramener toutes les variantes d'un même terme ou d'une entité nommée à une forme standard, et permet de limiter les effets de la variation linguistique. Notre travail porte sur la normalisation des entités nommées, et vise à optimiser les analyses de corpus fines réalisées par la société TecKnowMetrix. Notre approche combine plusieurs méthodes, telles que l'utilisation de formes, de calculs de similarité, ou encore de techniques endogènes. De plus, nous plaçons l'utilisateur au centre du processus de normalisation, afin d'obtenir des données parfaitement fiables et adaptées à ses besoins.
Bilingual Document Clustering: Evaluating Cognates as Features / Le groupage de documents bilingues : l'évaluation des cognats comme caractéristiques<http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.denicia-carral.html>
Claudia Denicia-Carral<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Denicia-Carral%2C%20Claudia.%22>, Manuel Montes-y-Gómez<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Montes-y-G%C3%B3mez%2C%20Manuel.%22>, Luis Villaseñor-Pineda<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Villase%C3%B1or-Pineda%2C%20Luis.%22> and David Pinto-Avendaño<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Pinto-Avenda%C3%B1o%2C%20David.%22>

Abstract:
This paper focuses on the task of bilingual clustering, which involves dividing a set of documents from two different languages into a set of groups, so that documents with similar topics belong to the same group, regardless of their source language. It mainly considers a clustering approach that relies on the use of cognates as document features. Particularly, it proposes two straightforward methods that extract cognates from their own target document collection and do not require using any external bilingual resource, like parallel corpora or a bilingual dictionary. Experimental results in two bilingual collections that include news reports in English and Spanish are encouraging. They indicate that cognates are relevant features for the task of bilingual clustering, outperforming by more than 10% the results achieved by other known approaches.

Résumé:
Cet article se consacre à la tâche du groupage bilingue, qui comprend la répartition d'une série de documents appartenant à deux langues différentes en une série de groupes, de telle façon que les sujets similaires apparaissent dans le même groupe, quelle que soit la langue d'origine. Il s'intéresse surtout à une approche de groupage qui fait usage des cognats considérés comme des traits distinctifs des documents. En particulier, il propose deux méthodes directes permettant l'extraction des cognats à partir de leur propre collection de documents cibles, sans recourir à l'utilisation de ressources bilingues externes, telles que des corpus parallèles ou un dictionnaire bilingue. Nous avons obtenu des résultats expérimentaux encourageants avec deux collections bilingues incluant des bulletins de nouvelles en anglais et en espagnol. Ces résultats indiquent que les cognats sont des traits distinctifs valables pour le groupage de documents bilingues, et qu'ils permettent d'obtenir des résultats dépassant de 10 % ceux que l'on obtient avec les autres approches connues.
Automatic Modeling of Logical Connectors by Statistical Analysis of Context / Modélisation automatique de connecteurs logiques par analyse statistique du contexte<http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.charton.html>
Eric Charton<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Charton%2C%20Eric.%22> and Juan-Manuel Torres-Moreno<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Torres-Moreno%2C%20Juan-Manuel.%22>

Résumé:
Dans cet article, nous décrivons un algorithme d'enrichissement de modèle de langue par un modèle de connecteurs logiques. Notre algorithme est capable, en partant de connecteurs amorces et en s'appuyant sur un corpus, de regrouper automatiquement des connecteurs logiques de sens identiques, en fonction du contexte. Ce regroupement peut être ensuite utilisé pour générer des automates à états finis capables d'identifier une articulation logique dans une phrase. À ce titre, il constitue un premier pas en direction de l'analyse automatique de textes argumentatifs. Nous utilisons ce dispositif dans un système de réécriture automatique de phrases, assisté par modèle de langue.

Abstract:
In this paper we present an algorithm for the enrichment of the language model by a model of logical connectors. Using seed connectors based on a corpus, our algorithm is capable of grouping context-dependant logical connectors of identical meaning into classes. This categorization of links may then be employed to generate finite state machines (FSMs) capable of identifying logical articulation of a phrase. In this capacity, it constitutes a first step towards an automatic analysis of argumentative texts. We use this device (FSMs), assisted by a language model, to rewrite automatically sentences in a text processing system.
A Sentiment-Based Digital Library of Movie Review Documents Using Fedora / Une bibliothèque numérique de documents critiques de films basée sur les sentiments en utilisant Fedora<http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_science/summary/v035/35.3.na.html>
Jin-Cheon Na<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Na%2C%20Jin-Cheon.%22>, Tun Thura Thet<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Thet%2C%20Tun%20Thura.%22>, Arie Hans Nasution<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Nasution%2C%20Arie%20Hans.%22> and Fauzi Munif Hassan<http://muse.jhu.edu/search/results?action=search&searchtype=author&section1=author&search1=%22Hassan%2C%20Fauzi%20Munif.%22>

Abstract:
This study develops a digital library of movie review documents that supports sentiment-based browsing and searching. Firstly, we develop an automatic method for in-depth sentiment analysis and classification of movie review documents to provide sentiment orientations toward multiple perspectives of movies, such as overall opinion about the movie, director, and cast. By utilizing information extraction techniques such as entity extraction, co-referencing, and pronoun resolution, the review texts are segmented into multiple sections where each section contains multiple sentences and discusses a particular aspect of the reviewed movie. For each aspect section, a machine-learning algorithm, Support Vector Machine (SVM), is applied to determine sentiment orientation toward the target aspect. Secondly a prototype digital library is developed with the automatically analysed data to show the usefulness of sentiment-based browsing and searching. Using the system, the user can browse and search movies by sentiment polarity (positive, neutral, or negative) of multiple aspects in the movie. Finally, a usability evaluation is conducted to observe the effectiveness of the sentiment-based digital library.

Résumé:
Cette étude examine le développement d'une bibliothèque numérique de documents critiques de films permettant l'exploration et la recherche par sentiments. Pour commencer, nous développons une méthode automatique pour l'analyse en profondeur des sentiments et la classification des documents critiques de films propres à fournir des orientations à propos des sentiments capables d'offrir des perspectives multiples sur les films, comme par exemple l'opinion générale sur le film, sur le metteur en scène, et sur les acteurs. Grâce à l'utilisation de techniques d'extraction d'information telles que l'extraction d'entités, le co-référencement, et la résolution de pronoms, les comptes rendus sont segmentés en de multiples sections où chacune contient plusieurs phrases et aborde un aspect particulier du film en question. À chacune de ces sections on applique un algorithme d'apprentissage automatique, Support Vector Machine (SVM), qui détermine l'orientation du ou des sentiments pour cette section. Ensuite, nous développons un prototype de bibliothèque numérique en utilisant les données analysées automatiquement afin de montrer l'utilité de l'exploration et de la recherche par sentiments. En utilisant ce système, l'utilisateur peut explorer et faire des recherches dans les films selon les polarités des sentiments (positif, neutre, ou négatif) et ce, sur de nombreux aspects des films. Pour finir, nous avons effectué une évaluation d'utilisabilité afin de vérifier l'efficacité d'une bibliothèque numérique basée sur les sentiments.

A respected source of the most up-to-date research on library and information science, The Canadian Journal of Information and Library Science is recognized internationally for its authoritative bilingual contributions to the field of information science. Established in 1976, the journal is dedicated to the publication of research findings, both in full-length and in brief format; reviews of books; software and technology; and letters to the editor.
Find out more: www.utpjournals.com/cjils<http://www.utpjournals.com/cjils>
Follow us on Facebook: www.facebook.com/utpjournals<http://www.facebook.com/utpjournals>