Utiliser l’informatique pour extraire l’information pertinente des textes

Article publié dans Forum, le journal de l’Université de Montréal, le 26 mai 2008.

Dominic Forest étudie comment extraire l’information contenue dans des corpus de documents

Malgré les avancements des dernières années, les outils de recherche sur le Web sont loin d’être au point. « À la requête souris, un moteur de recherche classique comme Google propose, pêle-mêle, des ressources portant autant sur l’animal que sur le dispositif informatique. » donne en exemple Dominic Forest, professeur à l’École de bibliothéconomie et des sciences de l’information (EBSI). La solution ? L’analyse automatique de textes.

En effet, une analyse sémantique des textes contenus sur les pages Web permettrait de classifier automatiquement les résultats en fonction des différents sens que peut prendre la requête. Nommée « Web sémantique », cette voie prometteuse que plusieurs observateurs perçoivent comme étant la prochaine révolution de la Toile repose sur une juste utilisation de programmes informatiques de « fouille de textes » (text mining). 

La fouille de textes permet d’attribuer un sens, ou un « poids sémantique », à chacun des mots se trouvant dans un corpus, en tenant compte du contexte de ce mot (fréquence d’utilisation, autres mots utilisés dans le même paragraphe, etc.). Le résultat constitue un vaste réseau de termes à partir duquel il est possible d’interpréter quels sont les concepts clef et comment ils sont reliés. Cela permet entre autres d’aider à identifier et organiser l’information pertinente. 

Les difficultés liées au repérage de l’information sur le Web sont une des conséquences de la quantité croissante de documents numériques, selon Dominic Forest. Le jeune chercheur en sciences de l’information étudie quelles sont les meilleures stratégies à adopter lors de l’utilisation d’outils informatiques d’analyse automatique de textes. « Comment peut-on rendre ces outils efficaces pour assister des tâches beaucoup plus complexes liées à l’analyse et l’interprétation des documents textuels ? » Ces travaux permettront d’améliorer divers traitements de l’information textuelle, dont, entre autres, le repérage de l’information.

Des outils pour l’ « analyse des sentiments »

La fouille de texte ne sert pas qu’à améliorer les moteurs de recherche. Elle permet également, entre autres de dresser un portrait de l’opinion d’une population. « Dans le domaine de la fouille, il y a beaucoup d’efforts consacrés dans ce qu’on appelle le sentiment analysis, l’analyse de sentiments ou d’opinions. », explique M. Forest. « Imaginons une situation où un politicien fait une déclaration quelconque. La première chose que ses attachés vont vouloir savoir, c’est l’impact de ce discours sur l’image que se fait la population de la personne qui l’a prononcé. À l’aide des outils de fouille de textes, on peut extraire de sources, par exemple des blogues et des journaux, des patrons de récurrence qui identifient les principales tendances » 

De la philosophie aux sciences de l’information

Le parcours universitaire de Dominic Forest peut en surprendre plus d’un. Au cours de ses études de premier cycle en philosophie à l’UQÀM, il développe un intérêt marqué pour le domaine des « digital humanities », ou sciences humaines assistées par ordinateur. À la maîtrise, toujours en philosophie, il exploite cet intérêt en montrant comment des outils informatiques peuvent aider l’analyse de textes philosophiques. À partir du Discours de la méthode, il parvient à identifier des structures thématiques qui montrent une très grande adéquation avec les interprétations classiques de l’œuvre de Descartes. « Si à l’aide d’outils informatiques il est possible de distinguer des concepts philosophiques extrêmement pointus, il sera certainement possible de le faire encore plus efficacement pour des textes moins chargés théoriquement, tels que des petites annonces et des recettes de cuisine. », soutient-il.

Dominic Forest entreprend par la suite des études de 3e cycle en informatique cognitive. Il poursuit alors ses recherches dans l’environnement interdisciplinaire d’un nouveau programme doctoral, qui vise à réunir autant des chercheurs en sciences humaines que des informaticiens. Cette fois, il utilise des approches issues notamment du domaine de l’intelligence artificielle et de la fouille de données pour étudier différentes méthodes visant à structurer des thèmes extraits d’un corpus d’articles de journaux.

« L’analyse automatique de textes pose bien sûr de grands défis liés à l’ambiguïté de la langue. » mentionne M. Forest. Une fois sa thèse complétée, il décide donc d’aller voir comment les approches linguistiques peuvent contribuer à ses recherches. Son stage postdoctoral à l’Observatoire de linguistique Sens-Texte de l’Université de Montréal est toutefois écourté lorsqu’il obtient un poste de professeur à l’EBSI, quelques étages plus bas au pavillon Lionel-Groulx. Il y poursuit ses recherches en élargissant son champ d’étude à l’ensemble des informations, autres que thématiques, qu’il est possible d’extraire d’un corpus de textes. 

Il ne faut pas s’étonner qu’un chercheur issu de plusieurs domaines se retrouve dans une école de sciences de l’information. Bien que l’EBSI offre surtout des formations professionnelles à des aspirants bibliothécaires et archivistes, ses activités de recherche touchent à l’ensemble des sciences de l’information, un domaine interdisciplinaire en plein essor. Pour les spécialistes de l’information, depuis longtemps préoccupés par la classification et le traitement des documents, l’analyse des concepts contenus dans un texte est un sujet d’étude qui précède de loin l’essor des techniques informatiques contemporaines. Les approches novatrices étudiées par M. Forest, qui combinent l’informatique et la linguistique, apportent aux sciences de l’information des outils dont la pertinence est des plus prometteuse.

M. Forest, professeur depuis moins de deux ans, vient d’obtenir une distinction importante du CRSH. Sa demande de subvention à titre de jeune chercheur a été évaluée comme étant la meilleure de sa catégorie (qui comprend les sciences de l’information et une partie des sciences de l’éducation) à l’échelle du Canada. Il se qualifie pour le prestigieux prix Aurore, remis chaque année par le CRSH au meilleur jeune chercheur Canadien.

Précédent
Précédent

Mot du rédac’ dans la Référence (Vol 5, no 2)

Suivant
Suivant

Le recteur en tournée: Luc Vinet rencontre l’EBSI