Table des matières | Définitions | SATO 4.4, Manuel de référence (chapitre ajouté en novembre 2009) |
Sous-texte avec un filtre (pas-à-pas) | |
---|---|
Les sous-textes sont des sous-ensembles de l'ensemble des mots (occurrences) du corpus. Il peut s'agir, par exemple, d'un chapitre ou d'un document en particulier ou même encore de l'ensemble des interventions d'un locuteur ou de l'ensemble des mots ayant reçus une valeur pour une propriété donnée. Lorsqu'un sous-texte est activé, toutes les commandes subséquentes portant sur le texte s'appliquent à ce sous-texte uniquement plutôt qu'à l'ensemble du corpus. Il est possible, au moment de la création d'un sous-texte, de dénombrer les fréquences des formes lexicales présentes dans le sous-texte en utilisant une propriété lexicale associée au sous-texte. Il est entendu qu'un seul sous-texte peut être actif à un moment donné. Il est aussi possible
de rappeler un sous-texte ayant déjà été actif.
Ce chapitre du manuel propose une description, illustrée étape par étape, des opérations techniques à effectuer pour procéder à la création d'un sous-texte. Il y a plusieurs manières de définir un sous-texte. En général, on définit un sous-texte à partir d'un filtre ou de contextes préalablement construits. Ce chapitre présente la création d'un sous-texte à partir de filtres. Cette illustration suppose une connaissance préalable de notions générales liées à SATO, telle l'utilisation de l'interface web, ainsi que les définitions de lexique et de propriété. Voir le chapitre Présentation du logiciel SATO dans le Manuel de référence. | |
|
Pour commencer le processus de création d'un sous-texte avec filtre, dans le menu de SATO à gauche de l'écran, nous choisissons Texte, ensuite, Caractériser et puis Sous-texte tel que présenté dans l'illustration 1.
Dans le formulaire présenté dans l'illustration 2, on coche l'option Filtre (indiquée sur l'illustration par le point 1). Cette option est cochée par défaut par SATO. Ensuite, on clique sur le bouton Continuer (indiqué sur l'illustration par le point 2).
En prenant l'exemple du corpus public dit du "Discours constitutionnel canadien" (DCC), nous allons créer un sous-texte pour toutes les allocutions émises par les représentants du Québec. Dans ce corpus, on trouve toutes les déclarations des représentants des gouvernements fédéraux et provinciaux entre 1941 et 1987 lors des différentes rondes de discussion portant sur la constitution canadienne. Pour identifier les déclarations des représentants du Québec, nous utiliserons la propriété locuteur dont les valeurs ont été préalablement attribuées aux diverses interventions.
Dans le formulaire de définition d'un sous-texte (point 1 de l'illustration 3), nous utilisons le filtre $*locuteur=qué$ pour sélectionner les mots du sous-texte. Le filtre se lit comme suit : tous les mots ("$") pour lesquels la propriété locuteur ("*locuteur") a une valeur qui commence par les caractères qué ("=qué$"). Ce filtre va donc sélectionner les interventions de Bourassa, Duplessis ou tout autre représentant du Québec identifié selon le protocole décrit.
Ensuite, dans le champ donnant le nom du sous-texte (point 2), on entre ReprésQuéb, ou toute autre suite de caractères qui permettra un rappel aisé des caractéristiques du sous-texte créé.
Lors de la définition d'un sous-texte, il est possible d'utiliser une propriété lexicale entière pour conserver le décompte des occurrences des formes lexicales présentes dans le sous-texte. Dans l'affichage du lexique, on aura donc une colonne de plus qui contiendra le nombre de fois qu'une forme lexicale est utilisée dans le sous-texte. Dans notre exemple, il s'agira du vocabulaire utilisé par les représentants du Québec.
Le formulaire nous demande de choisir entre trois options pour le lexique associé au sous-texte : Lexique, Nouveau-lexique, Sans lexique. L'option Lexique permet de choisir une propriété lexicale numérique pré-existante dans la liste des propriétés disponibles. L'option Nouveau-lexique permet de créer une nouvelle propriété lexicale dont on donnera le nom dans le champ adjacent. L'option Sans lexique fera en sorte que le décompte des occurrences des formes lexicales dans le sous-texte ne sera pas calculé.
Dans notre exemple, nous choisissons de créer une nouvelle propriété lexicale qu'on nommera LxReprQc. Le nom débute par les deux lettres Lx pour indiquer explicitement qu'il s'agit d'une propriété lexicale. Dans le suite du nom, ReprQc permet facilement de se rappeler qu'il s'agit ici des représentants du Québec. En moins de dix caractères, ce nom contient les informations principales : type de propriété ("Lx") et contenu (représentants du Québec "ReprQc").
Pour terminer la commande, on clique sur le bouton Soumettre au bas du formulaire.
Après avoir cliqué sur le bouton Soumettre (tel que décrit dans la section précédente), SATO affiche la page de résultat. Comme présenté dans l'illustration 4, SATO répète la commande: TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*locuteur=qué$ "ReprésQuéb" nouveau-lexique LxReprQc.
À la ligne suivante, SATO indique le nombre de mots contenus dans le sous-texte (soit 38541). Ici, cela veut dire que dans le corpus du "Discours constitutionnel canadien", les représentants du Québec ont prononcé près de 40 000 mots lors de leurs interventions (en incluant la ponctuation).
Maintenant que le sous-texte a été créé, il est automatiquement activé comme sous-texte courant. Les commandes qui concernent le texte porteront donc maintenant sur le sous-texte qui vient d'être créé. Les deux opérations suivantes illustrent deux manières d'utiliser le sous-texte.
Affichons le texte grâce à la commande Texte Afficher $. Pour composer la commande à l'aide des formulaires, il s'agit de cliquer sur le lien Texte dans le menu de gauche de l'écran. Ensuite, on clique sur le lien Afficher dans le formulaire qui s'est ouvert à droite de l'écran. On indique d'afficher tout ($) dans le champ filtre et on soumet la commande en cliquant sur le bouton Soumettre. SATO affiche par défaut le sous-texte des allocutions des représentants du Québec plutôt que l'ensemble du corpus. L'illustration 5 présente le résultat de cette opération qui atteste l'effet du sous-texte avec filtre. Ici, la première intervention d'un représentant du Québec dans le "Discours constitutionnel canadien" est celle d'Adélard Godbout en 1941 alors qu'il était dans son second mandat comme Premier ministre du Québec.
SATO permet également l'affichage d'un partie du lexique associé au sous-texte. Nous demandons à SATO d'afficher les mots de plus de deux lettres qui seront triés en ordre décroissant d'occurrence des lexèmes dans le sous-texte des représentants du Québec grâce à la commande: Lexique Afficher $*longueur>2*LxReprQc>0 tri LxReprQc. On peut composer la commande en utilisant les formulaires : on clique sur le lien Lexique dans le menu de gauche de l'écran; ensuite on clique sur le lien Afficher dans le formulaire de droite; on inscrit $*longueur>2*LxReprQc>0 dans le champ filtre; on sélectionne LxReprQc comme propriété de tri et on clique sur le bouton Soumettre.
L'illustration 6 présente le résultat de cette opération en commençant par les fréquences les plus élevées. On notera que le filtre utilisé dans l'illustration n'inclut pas la contrainte *LxReprQc>0, ce qui ne change rien ici puisque seules les fréquences les plus élevées sont reproduites. On remarquera aussi que les représentants du Québec sur-utilisent le mot Québec (LxReprQc=165 / Fréqtot=335), mais sous-utilisent les mots provinces (128/1424) et Canada (116/1507).
Le sous-texte reste actif à moins que l'on ait effectué une des opérations suivantes :
Une fois qu'un sous-texte a été créé, il est possible de le rappeler en tout temps par l'opération suivante Texte Caractériser Sous-Texte Rappel (cf. Illustration 1) et ensuite, on sélectionnera dans la liste le nom d'un sous-texte créé au préalable (cf. Illustration 7). Pour sauvegarder les sous-textes pour une prochaine session, il faudra quitter SATO avec sauvegarde.