Table des matières | Définitions | SATO 4.4, Manuel de référence (chapitre ajouté en novembre 2009) |
Sous-texte à partir de contextes (pas-à-pas) | |
---|---|
Les sous-textes sont des sous-ensembles de l'ensemble des mots (occurrences) du corpus. Il peut s'agir, par exemple, d'un chapitre ou d'un document en particulier ou même encore de l'ensemble des interventions d'un locuteur ou de l'ensemble des mots ayant reçus une valeur pour une propriété donnée. Lorsqu'un sous-texte est activé, toutes les commandes subséquentes portant sur le texte s'appliquent à ce sous-texte uniquement plutôt qu'à l'ensemble du corpus. Il est possible, au moment de la création d'un sous-texte, de dénombrer les fréquences des formes lexicales présentes dans le sous-texte en utilisant une propriété lexicale associée au sous-texte. Il est entendu qu'un seul sous-texte peut être actif à un moment donné. Il est aussi possible
de rappeler un sous-texte ayant déjà été actif.
Ce chapitre du manuel propose une description, illustrée étape par étape, des opérations techniques à effectuer pour procéder à la création d'un sous-texte. Il y a plusieurs manières de définir un sous-texte. En général, on définit un sous-texte à partir d'un filtre ou de contextes. Cette section illustrée présente la création d'un sous-texte à partir de contextes. Les contextes sont des segments de textes, des extraits, qui peuvent être obtenus directement par repérage d'unités de contenu, ou en partitionnant le texte (Analyseur segmentation). Cette illustration suppose une connaissance préalable de notions générales liées à SATO, telle l'utilisation de l'interface web, ainsi que les définitions de lexique et de propriété. Voir le chapitre Présentation du logiciel SATO dans le Manuel de référence. | |
|
En prenant l'exemple du corpus public dit du "Discours constitutionnel canadien" (DCC), nous allons créer un sous-texte à partir de toutes les phrases qui contiennent des formes lexicales dérivées du mot collectif. Le corpus DCC est constitué des déclarations des représentants des gouvernements fédéraux et provinciaux entre 1941 et 1987 lors des différentes rondes de discussion portant sur la constitution canadienne.
Pour construire un sous-textes à partir de contextes, la première étape consiste, bien sûr, à repérer les contextes qui nous intéressent. Pour ce faire, nous utiliserons la procédure suivante du menu Contextez: Contexte Express De phrases et dans le champ intitulé Liste de mots, on introduit le filtre suivant collecti(v,f)$. Ce filtre signifie qu'on cherche à identifier toutes les phrases dans lesquelles se trouvent les mots commençant par collectif ou collectiv. SATO identifie 149 contextes. On aimerait pouvoir créer un sous-texte à partir de ces 149 phrases.
Maintenant qu'on a obtenu un contexte constitué de toutes les phrases du corpus contenant les lexèmes appartenant à la racine du mot collectif, nous demandons à SATO d'en faire un sous-texte. Pour commencer le processus de création d'un sous-texte avec contextes, dans le menu de SATO à gauche de l'écran, nous choisissons Texte, ensuite, Caractériser et puis Sous-texte tel que présenté dans l'illustration 2 ci-dessous.
Dans le formulaire présenté dans l'illustration 3, on coche l'option Contexte (indiquée sur l'illustration par le point 1). Ensuite, on clique sur le bouton Continuer (indiqué sur l'illustration par le point 2).
Dans le formulaire de définition d'un sous-texte, nous mettons $ dans le champ des numéros de contexte à retenir (point 1 de l'illustration 4 ci-dessous). Le caractère $ signifie ici que nous voulons utiliser toutes les phrases repérées.
Ensuite, dans le champ du nom du sous-texte, (point 2) on entre CtxCollec ou toute autre suite de caractères qui permettra un rappel aisé des caractéristiques du sous-texte créé.
Lors de la définition d'un sous-texte, il est possible d'utiliser une propriété lexicale entière pour conserver le décompte des occurrences des formes lexicales présentes dans le sous-texte. Dans l'affichage du lexique, on aura donc une colonne de plus qui contiendra le nombre de fois qu'une forme lexicale est utilisée dans le sous-texte. Dans notre exemple, il s'agira du vocabulaire utilisé dans les phrases qui contiennent un mot dérivé de collectif.
Le formulaire nous demande de choisir entre trois options pour le lexique associé au sous-texte : Lexique, Nouveau-lexique, Sans lexique. L'option Lexique permet de choisir une propriété lexicale numérique pré-existante dans la liste des propriétés disponibles. L'option Nouveau-lexique permet de créer une nouvelle propriété lexicale dont on donnera le nom dans le champ adjacent. L'option Sans lexique fera en sorte que le décompte des occurrences des formes lexicales dans le sous-texte ne sera pas calculé.
Dans notre exemple, nous choisissons de créer une nouvelle propriété lexicale qu'on nommera LxContCol. Le nom débute par les deux lettres Lx pour indiquer explicitement qu'il s'agit d'une propriété lexicale. Dans le suite du nom, ContCol permet facilement de se rappeler qu'il s'agit ici de contextes contenant des formes dérivées de "collectif". En moins de dix caractères, ce nom contient les informations principales : type de propriété ("Lx") et contenu (contextes de phrases avec collectif "ContCol").
Pour terminer la commande, on clique sur le bouton Soumettre au bas de la page.
5. Affichage de la commande et du nombre de mots dans le sous-texte
Après avoir cliqué sur le bouton Soumettre (tel que décrit dans la section précédente), SATO affiche la page de résultat. Comme présenté dans l'illustration 4, SATO répète la commande: TEXTE CARACTÉRISER SOUS-TEXTE = CONTEXTE $ CtxCollec nouveau-lexique LxContCol.
À la ligne suivante, SATO indique le nombre de mots contenus dans le sous-texte (soit 5436). Ici, cela veut dire que dans le corpus du "Discours constitutionnel canadien", l'environnement direct des formes dérivées mot collectif est composé de 149 phrases (comme identifié plus haut) et que ces phrases contiennent en tout 5436 occurrences (en incluant la ponctuation).
Maintenant que le sous-texte a été créé, il est automatiquement activé comme sous-texte courant. Les commandes qui concernent le texte porteront donc maintenant sur le sous-texte qui vient d'être créé. Les deux opérations suivantes illustrent deux manières d'utiliser le sous-texte.
Affichons le texte grâce à la commande Texte Afficher $. Pour composer la commande à l'aide des formulaires, il s'agit de cliquer sur le lien Texte dans le menu de gauche de l'écran. Ensuite, on clique sur le lien Afficher dans le formulaire qui s'est ouvert à droite de l'écran. On indique d'afficher tout ($) dans le champ filtre et on soumet la commande en cliquant sur le bouton Soumettre. SATO affiche par défaut le sous-texte de tous les contextes (dont la longueur est la phrase) qui contiennent les formes dérivées du mot collectif. L'illustration 6 présente le résultat de cette opération qui atteste de l'application d'un sous-texte avec contexte. Ici, on observe que SATO affiche en gras les lèxemes qui nous intéressent. Pour les afficher en gras, nous avons utilisé la commande Texte Caractériser Soulignement = collecti(v,f)$.
SATO permet également l'affichage d'un partie du lexique associé au sous-texte. Nous demandons à SATO d'afficher les mots de plus de deux lettres qui seront triés en ordre décroissant d'occurrence des formes lexicales dans le sous-texte des contextes de collectif grâce à la commande: Lexique Afficher $*longueur>>2*LxContCol>0 tri LxContCol. On peut composer la commande en utilisant les formulaires : on clique sur le lien Lexique dans le menu de gauche de l'écran; ensuite on clique sur le lien Afficher dans le formulaire de droite; on inscrit $*longueur>2*ContCol>0 dans le champ filtre; on sélectionne ContCol comme propriété de tri et on clique sur le bouton Soumettre.
L'illustration 7 présente le résultat de cette opération en commençant par les fréquences les plus élevées. On notera que le filtre utilisé dans l'illustration n'inclut pas la contrainte *LxContCol>0, ce qui ne change rien ici puisque seules les fréquences les plus élevées sont reproduites. On remarquera aussi, par exemple, que la présence du mot autochtones est significative dans ces phrases. On constate également l'importance des notions "soi" et "autre" par la présence de nous, notre, autres.
Le sous-texte reste actif à moins que l'on ait effectué une des opérations suivantes :
Une fois qu'un sous-texte a été créé, il est possible de le rappeler en tout temps par l'opération suivante Texte Caractériser Sous-Texte Rappel (cf. Illustration 2) et ensuite, on sélectionnera dans la liste le nom d'un sous-texte créé au préalable (cf. Illustration 8). Pour sauvegarder les sous-textes pour une prochaine session, il faudra quitter SATO avec sauvegarde.
Comme on peut le voir à l'illustration 3, il y des variantes à la création d'un sous-textes à partir de contextes. Ces variantes consistent à définir comme éléments constitutifs du sous-texte des sur-ensembles des contextes repérés.
Dans le cas des options PARAGRAPHE et PHRASE, la commande comprend une clause permettant de confirmer les délimiteurs de paragraphe ou de phrase. Ces délimiteurs sont définis au moyen d'un filtre.