Table des matières | Définitions SATO 4.4, Manuel de référence (mars 2007)
Catégorisation en contexte (pas-à-pas)
L'annotation (ou catégorisation lorsqu'on applique une grille), est une façon privilégiée d'analyser un texte. Ainsi peut-on identifier des mots qui, au-delà de leurs différences, ont des traits communs. Lorsque l'on catégorise dans SATO on appose à une forme lexicale, ou un mot (occurrence), une étiquette symbolique. La catégorisation en contexte est le processus qui consiste à apposer une étiquette à une occurrence d'une forme lexicale en fonction du sens spécifique de cette forme dans un contexte donné.

Ce chapitre propose une description, illustrée étape par étape, des opérations techniques à effectuer pour procéder à la catégorisation manuelle en contexte. Cette illustration suppose une connaissance préalable de notions générales liées à SATO, telle l'utilisation de l'interface Web, ainsi que les définitions de lexique et de propriété (Voir le chapitre Présentation du logiciel SATO dans le Manuel de référence). Ce chapitre suppose également une familiarité avec le processus de catégorisation hors contexte tel que décrit dans le chapitre Catégorisation lexicale (pas-à-pas) du Manuel de référence. On pourra également consulter le chapitre Touches de catégorisation (pas-à-pas) qui explique comment créer des raccourcis de catégorisation.

1. Qu'est-ce que la catégorisation en contexte?

La catégorisation en contexte est le processus qui consiste à apposer une étiquette à un mot en fonction du sens spécifique du mot dans un contexte donné (segment de phrase, phrase, paragraphe, etc.). Lors de la catégorisation en contexte, on appose une étiquette à une ou plusieurs occurrences d'une forme lexicale pour les différencier d'autres instances de la même forme qui ont des sens ou des fonctions différentes. En d'autres mots, la catégorisation en contexte cherche à distinguer le sens des mots selon les contextes dans lesquels ils se trouvent. Ainsi, le mot Québec peut signifier soit la ville de Québec ou la province de Québec. Dans un projet de recherche pour lequel il est utile de différencier la ville de la province, une catégorisation en contexte permettra donc de distinguer le sens du mot Québec selon son contexte.

Ce chapitre décrit un procédé élaboré de catégorisation en contexte combiné à une catégorisation lexicale. On supposera ici que l'utilisateur est déjà familier avec la catégorisation manuelle lexicale hors contexte, telle que décrite dans le chapitre Processus de catégorisation lexicale pas-à-pas du Manuel de SATO.

La catégorisation manuelle du lexique du corpus (satoman-fr_categorisation.html) applique à la forme lexicale hors contexte une ou plusieurs valeurs de propriété (catégories). C'est donc dire que toutes les occurrences de la forme, quelque soit le contexte, auront en commun cette catégorisation hors contexte. Cependant, il se peut que nous voulions préciser cette catégorisation pour des contextes particuliers. Par exemple, on aurait pu catégoriser, dans le lexique du corpus, le mot québec avec les valeurs ville et province pour une propriété lexicale donnée, géo, par exemple. On verra qu'on pourra ensuite définir une propriété textuelle ( disons géographie) par héritage de la propriété lexicale géo. En modifiant cette deuxième propriété à portée textuelle, on pourra alors préciser, selon le contexte, qu'une occurence de Québec renvoie au territoire ville ou au territoire province du Canada. Comme on le verra, il sera aussi possible, au terme de ce processus de catégorisation en contexte, d'exporter le corpus sous un nouveau nom afin de le resoumettre à SATO pour distinguer au lexique la forme québec renvoyant à la ville de celle, apparemment identique, mais renvoyant à la province au sein du Canada. C'est cette procédure élaborée que nous illustrerons dans les paragraphes qui suivent. On notera que, dans notre exemple, nous écrirons québec tout en minuscles pour désigner l'entrée dans le lexique. En effet, à moins de marquage spécial, les mots sont enregistrés en minuscules dans le lexique tout en étant affichés avec une majuscule initiale dans le texte, s'ils se présentaient sous cette forme lors de la soumission à SATO.

On comprendra que l'avantage de combiner la catégorisation lexicale et la catégorisation en contexte vient du fait que, dans plusieurs cas, la catégorie lexicale aura un sens indépendant du contexte et n'aura donc pas à être précisée en contexte. Or, pour un texte long, il est beaucoup plus rapide de procéder à une catégorisation lexicale qu'à une catégorisation en contexte. Aussi, en procédant d'abord par le lexique, on pourra ne revoir en contexte que les cas d'ambigüité. On pourra aussi décider de ne pas procéder à cette désambigüisation, si les cas d'ambigüité sont relativement marginaux. Par exemple, si, dans un corpus donné, Québec désigne très majoritairement la ville, on choisira la valeur ville au niveau lexical en faisant l'économie de la désambigüisation en contexe. Comme toujours en analyse textuelle, il s'agit d'évaluer la portée de nos procédures sur les interprétations que l'on veut tirer des données.


2. Vérification des valeurs de la propriété attribuées au lexème

Assumons que le lexème québec a reçu deux valeurs pour la propriété lexicale géo lors d'une catégorisation lexicale antérieure: il est à la fois catégorisé comme une ville et comme une province. L'illustration 1 montre l'information disponible à propos de l'entrée québec dans le lexique du corpus. Nous avons obtenu cette information en cliquant sur le lien information dans le menu de gauche de la catégorisation.

Illustration 1. Les valeurs de la propriété 'géo' attribuées au lexème 'québec'

Illustration 1. Les valeurs de la propriété "géo" attribuées au lexème "québec"

Mais un KWIC (Keyword in context) sur québec révèle que dans les 20 occurrences du mot, certaines devraient être spécifiées comme étant la ville de Québec et d'autres comme la province de Québec. Les paragraphes qui suivent expliqueront comment changer ces valeurs selon le contexte.

Illustration 2. KWIC du lexème 'québec'

Illustration 2. KWIC du lexème "québec"

3. Définition d'une nouvelle propriété avec héritage

Comme la propriété géo catégorise le lexique du corpus, c'est-à-dire le mot hors contexte, elle ne peut pas être utilisée pour catégoriser une occurrence particulière du mot en contexte. On va donc créer une deuxième propriété qui portera cette fois sur le texte, mais qui héritera, pour chacune des occurrences du mot, de la valeur qui lui a été affectée dans le lexique.

Pour ce faire, dans le menu de gauche de l'interface avancée de SATO, on clique sur le lien intitulé Propriété. Ensuite, on clique sur Définir avec héritage. Dans SATO, l'héritage signifie que la nouvelle propriété (appelée fille) hérite, lors de sa création, des valeurs d'une autre propriété (appelée mère).

Illustration 3. Définition d'une nouvelle propriété avec héritage

Illustration 3. Définition d'une nouvelle propriété avec héritage

SATO nous demande maintenant d'entrer un nom pour cette nouvelle propriété fille. Pour cet exemple, on choisit géographie. Et, on clique sur Continuer.

Illustration 4. Nom de la propriété fille

Illustration 4. Nom de la propriété fille

Ensuite, SATO demande de choisir la propriété mère, celle qui contient les attributions de valeurs que nous désirons copier. Dans le menu déroulant (voir section 1 de l'illustration 5), nous choisissons géo. Lorsque SATO nous demande la portée de la propriété, nous choisissons texte puisque nous désirons préciser, pour chaque occurrence de Québec, s'il s'agit de la ville ou de la province.

Illustration 5. Sélection de la propriété mère et de l'étendue

Illustration 5. Sélection de la propriété mère et de l'étendue

Nous avons maintenant deux propriétés. La première propriété, géo, indique que la forme lexicale québec peut être une ville et une province. La seconde propriété, géographie, contient une copie des valeurs de géo pour chacune des occurrences de Québec dans le corpus. On peut choisir de supprimer la propriété géo. On peut aussi la garder à des fins de sauvegarde et de trace de la catégorisation lexicale. Dans la suite de l'exemple, nous utiliserons la propriété textuelle géographie.


4. Affichage des contextes de « Québec »

Afin de pouvoir différencier les occurrences de Québec selon qu'elles font référence à la ville ou à la province, nous allons demander à SATO d'afficher les phrases dans lesquelles se trouve ce lexème. Il y a plusieurs manières de procéder. Nous choisirons le mode Express en cliquant sur le lien Contexte (Section 1 de l'illustration 6) puis sur la procédure appelée Express (Section 2 de l'illustration 6).

Illustration 6. Affichage express des contextes

Illustration 6. Affichage express des contextes

Après avoir choisi l'affichage des contextes de phrases, nous allons entrer le lexème québec (en minuscules!) dans le formulaire intitulé Liste de mots. Ensuite, nous cliquons sur le bouton Soumettre pour envoyer la demande à SATO., nous demanderons à SATO d'afficher toutes les phrases dans lesquelles on rencontre le lexème québec. On notera que la propriété géographie a bien hérité des valeurs de géo.

Illustration 7. Demande à SATO d'afficher les contextes de 'Québec'

Illustration 7. Demande à SATO d'afficher les contextes de "Québec"

Une fois que SATO a trouvé les contextes, il affiche leur nombre et propose de les afficher. Pour les afficher, nous cliquons sur le bouton Afficher les contextes trouvés. SATO affiche ainsi toutes les phrases dans lesquelles se trouve le lexème québec.

Illustration 8. Affichage des contextes de 'Québec'

Illustration 8. Affichage des contextes de "Québec"

5. Affinement de la catégorisation de « Québec » selon le contexte

Nous pouvons maintenant affiner et préciser la catégorisation de Québec en fonction de son contexte, grâce à la propriété textuelle géographie. Pour catégoriser le mot, il suffit de cliquer dessus. Un clic ouvre le menu de catégorisation dans la fenêtre du bas du navigateur. On notera qu'actuellement toutes les occurrences du lexème québec ont la double catégorie ville et province.

Illustration 9. Menu de catégorisation d'une instance de 'Québec'

Illustration 9. Menu de catégorisation d'une occurrence de "Québec"

Nous cherchons à enlever l'ambigüité qui existe dans la catégorisation actuelle entre ville et province. Pour ce faire, SATO propose deux options, soit nous pouvons retirer la valeur non adaptée à l'occurrence, soit nous pouvons remplacer les deux valeurs par une seule. Cette procédure est explicitée dans la page portant sur la catégorisation manuelle et en particulier dans les parties 4 (Choix de la propriété), 5 (Choix de l'opérateur) et 6 (Choix de la valeur).

En résumé donc, pour retirer une valeur, on clique sur le lien Catégorisation du menu de catégorisation. Ensuite, on choisit la propriété géographie dans la liste des propriétés. Après, on sélectionne l'opérateur – pour enlever ( ou = pour remplacer) la valeur. Finalement, on choisit ville ou province selon le contexte et on clique sur le bouton Accepter. On répétera cette opération autant de fois qu'il sera nécessaire pour lever l'ambigüité de la catégorisation lexicale effectuée au préalable.

Il existe dans SATO la possibilité d'utiliser des raccourcis pour la catégorisation. Ces raccourcis s'appellent des touches. Un chapitre de ce manuel y est consacré (Voir Touches de catégorisation pas-à-pas). L'utilisation des touches permet d'accélérer le travail de catégorisation.


6. Exportation du corpus

Maintenant que nous avons précisé les valeurs de la propriété géographie attribuées à Québec selon le contexte, on pourrait vouloir disposer d'une nouvelle version de ce corpus enrichi dans lequel on trouvera deux entrées lexicales pour québec, l'une pour la ville, l'autre pour la province. Pour que SATO puisse recréer le lexique du corpus en tenant compte de l'information nouvelle, il faut lui soumettre le corpus en format texte. L'exportation est cette opération qui produit un nouveau fichier texte augmenté de propriétés, géographie dans notre exemple.

SATO permet d'exporter le corpus à partir d'un formulaire qui se trouve dans la section Outils / Tâches / Exportation du menu de gauche de l'interface avancée de SATO.

Illustration 10. Accéder au formulaire d'exportation

Illustration 10. Accéder au formulaire d'exportation

Avant d'exporter le corpus, on doit s'assurer que la présentation du texte comprend les propriétés qui nous intéressent. L'illustration 11 montre que la propriété géographie, qui nous intéresse particulièrement ici, ne se trouve pas dans les caractéristiques de présentation du texte. Elle est absente de la ligne intitulée présentation.

Illustration 11. Caractéristiques du texte à exporter

Illustration 11. Caractéristiques du texte à exporter

Pour indiquer à SATO qu'on désire exporter la propriété géographie, on clique sur le lien présentation (Voir illustration 12.). SATO demande ensuite de choisir une opération. Nous choisissons le + pour rajouter une propriété à la liste de présentation.

Illustration 12. Choix d'une opération reliée à la liste de présentation

Illustration 12. Choix d'une opération reliée à la liste de présentation

Ensuite, SATO affiche les propriétés qui peuvent être rajoutées à la liste de présentation. On choisit la propriété géographie et on clique sur le bouton Accepter.

Illustration 13. Choix d'une propriété à rajouter à la liste de présentation

Illustration 13. Choix d'une propriété à rajouter à la liste de présentation

Une fois la propriété géographie rajoutée à la liste de présentation, nous retournons sur le formulaire d'exportation qui est accessible dans la section Outils / Tâches / Exportation de l'interface avancée de SATO. Dans ce formulaire, nous spécifions un nouveau nom pour le corpus (Voir section 1 de l'illustration 14). Pour exporter l'ensemble du corpus, nous laissons le signe $ qui se trouve par défaut dans la case du filtre (Voir section 2 de l'illustration 14). Ensuite, nous cliquons sur le bouton exporter.

Illustration 14. Formulaire d'exportation du corpus

Illustration 14. Formulaire d'exportation du corpus

7. Modification de la portée de la propriété géographie

Une fois le corpus exporté, SATO propose de vérifier les commandes de déclarations. Il est nécessaire de modifier les commandes de déclarations pour indiquer que nous voulons transformer la propriété textuelle géographie en propriété lexicale de telle sorte que SATO génère plusieurs entrées lexicales en fonction de la valeur de la propriété. Comme indiqué sur l'illustration ci-dessous, nous devons maintenant cliquer sur le lien Vérifier les commandes de déclarations.

Illustration 15. Vérification des commandes de déclaration

Illustration 15. Vérification des commandes de déclaration

Une fois ce lien cliqué, SATO offre la possibilité de modifier les déclarations. Dans la boite du formulaire, nous allons changer la ligne suivante : propriété géographie symbolique pour texte ville province. Dans cette ligne, nous changeons le terme texte par lexique. On obtient donc : propriété géographie symbolique pour lexique ville province.

Illustration 16. Modification de la déclaration de la propriété

Illustration 16. Modification de la déclaration de la propriété

Une fois ce changement effectué, on clique sur le bouton Soumettre pour que SATO enregistre la transformation. Ensuite, SATO affiche le résultat (Section 1 de l'illustration 17) et demande la confirmation du changement (Section 2 de l'illustration 17). On confirmera la transformation en cliquant sur le lien Confirmer le remplacement.

Illustration 17. Affichage et confirmation de la modification de la déclaration de la propriété

Illustration 17. Affichage et confirmation de la modification de la déclaration de la propriété

Maintenant que nous avons confirmé la modification des déclarations du nouveau corpus que nous avons exporté, nous allons sortir de l'interface avancée de SATO pour retourner sur le Bureau afin de générer notre nouveau corpus.


8. Génération du nouveau corpus

Pour que SATO puisse prendre en compte le changement de portée de la propriété géographie (du texte au lexique), il est nécessaire que SATO génère le corpus que nous venons d'exporter. Nous allons donc quitter SATO (Section 1 de l'illustration 18) et choisir de sauvegarder le travail effectué durant cette session (Section 2 de l'illustration 18).

Illustration 18. Quitter SATO et sauvegarder le travail

Illustration 18. Quitter SATO et sauvegarder le travail

De retour sur le Bureau de SATO,on doit cliquer sur Outils / Soumettre un corpus déjà existant (Section 1 de l'illustration 19). Dans ce formulaire, nous sélectionnons le corpus que nous venons d'exporter et dont nous avons modifié la déclaration de propriété (Section 2 de l'illustration 19). Ensuite, on clique sur le bouton Soumettre.

Illustration 19. Soumettre le nouveau corpus

Illustration 19. Soumettre le nouveau corpus

9. Exploration du lexique avec la catégorie affinée

Si on affiche le lexique du corpus enrichi, on note que SATO a créé deux entrées lexicales différentes pour québec (Voir illustration 19). Le lexique des mots contenant qué est différent de ce qu'il était avant la catégorisation en contexte (Voir illustration 20).

Illustration 20. Lexique des mots commençant par 'Qué' avant la catégorisation en contexte

20. Lexique des mots commençant par "qué" avant la catégorisation en contexte

Dans le nouveau lexique (Voir illustration 21) une des entrées correspond au lexème québec catégorisé comme étant la ville et l'autre comme étant la province.

Illustration 21. Lexique des mots commençant par 'Qué' après la catégorisation en contexte

21. Lexique des mots commençant par "qué" après la catégorisation en contexte

Si nous demandons à SATO d'afficher le texte avec la propriété géographie, nous remarquons que les occurrences du mot Québec on été catégorisées en contexte!

Illustration 22. Affichage du texte avec la catégorisation en contexte

22. Affichage du texte avec la catégorisation en contexte