SATO 4.4, Manuel de référence (mars 2007; dernière modification en avril 2007) |
Table des matières | Définitions |
Texte |
---|
... donne accès à la dimension contextuelle (axe «syntagmatique») du corpus. La dimension textuelle correspond à la réalité apparente du corpus tel qu'il se présente à la lecture linéaire, c'est-à-dire du premier mot au dernier, de la première page à la dernière. |
Exploration :
Exploitation :
Configuration :
CARACTÉRISER {
PAGE À PAGE | PRÉSENTATION | SOULIGNEMENT | SOUS-TEXTE { CONTEXTE, DOCUMENT, FILTRE, PARAGRAPHE, PHRASE, RAPPEL, SUPPRESSION et TOUT } | SUBSTITUTION | TABULATION } Exemples : |
AFFICHER affiche à l'écran l'ensemble ou une partie quelconque du texte.
La commande AFFICHER entraîne l'affichage de la partie du corpus qui satisfait au patron de fouille défini par filtre (dont la valeur implicite est «$»).
L'affichage ou l'exportation du texte décrit par le filtre est restreint par la définition du sous-texte actif au moment de la commande (cf. CARACTÉRISER SOUS-TEXTE).
Le verbe APPLIQUER entraîne le chargement d'un nouveau corpus dans le logiciel SATO. Le chargement d'un nouveau corpus entraîne aussi le chargement d'un nouveau fichier journal portant le nom du fichier texte. L'ouverture du journal entraîne l'écriture de la date et de l'heure courante. Dans la fenêtre principale, on verra alors apparaître le titre du nouveau corpus ainsi que la date et l'heure de sa génération par SATO.
DÉCRIRE le texte provoque l'affichage d'un certain nombre d'informations générales sur le corpus:
L'utilisation du verbe EXPORTER indique que le texte sera écrit dans le fichier d'exportation plutôt que d'apparaître à l'écran.
Voir : AFFICHER pour l'explication des paramètres et du fonctionnement de la commande.CARACTÉRISER permet de modifier certains traits de l'objet: PAGE À PAGE, PRÉSENTATION, SOULIGNEMENT, SOUS-TEXTE, SUBSTITUTION et TABULATION.
Le trait PAGE_À_PAGE indique que l'affichage des pages du corpus se fera une page à la fois ne dépassant pas le nombre maximal de lignes par page d'écran (option OUI). Si on choisit l'option NON, une page d'écran contiendra autant de pages de texte qu'il est possible jusqu'à concurrence du nombre maximal de lignes par page d'écran.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le trait PRÉSENTATION sert à nommer les propriétés qui devront accompagner le texte lorsqu'on en demande l'affichage ou l'exportation.
Les opérateurs «+» et «-» permettent de spécifier que l'on veut ajouter ou retrancher des propriétés à liste de présentation existante. L'opérateur «=» signifie que les propriétés indiquées vont remplacer la liste existante.
Le paramètre propriété désigne le nom d'une propriété lexicale ou textuelle qui va modifier la liste de présentation. Ce paramètre peut être répété et il est facultatif.
Si on procède à une sauvegarde (cf. QUITTER SAUVEGARDE et PROPRIÉTÉ SAUVEGARDER), cette spécification est conservée d'une session de travail à l'autre.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le trait SOULIGNEMENT permet de définir les occurrences qui seront soulignées lors de l'affichage (cf. POSTE ÉCRAN CARACTÉRISER SOULIGNEMENT) ou de l'exportation du texte (cf. POSTE EXPORTATION CARACTÉRISER SOULIGNEMENT). Le paramètre filtre désigne les occurrences qui seront soulignées. Si le filtre est absent, aucun mot ne sera souligné.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le trait SOUS-TEXTE permet de restreindre l'étendue du texte à un sous-ensemble quelconque d'occurrences. Par exemple, on peut vouloir concentrer l'analyse sur un chapitre particulier ou sur un document spécifique dans le cas ou le corpus est composé de plusieurs documents.
Lorsqu'un sous-texte est défini, toutes les commandes subséquentes portant sur le texte s'appliquent à ce sous-texte uniquement plutôt qu'à l'ensemble du texte. Il est possible, au moment de la création d'un sous-texte, de dénombrer les fréquences des formes lexicales présentes dans le sous-texte. Il est entendu qu'un seul sous-texte peut être actif à un moment donné. Il est aussi possible de rappeler un sous-texte ayant déjà été actif.
Huit attributs sont possibles pour ce trait: CONTEXTE, DOCUMENT, FILTRE, PARAGRAPHE, PHRASE, RAPPEL SUPPRESSION et TOUT.
L'option CONTEXTE permet de créer un sous-texte composé des occurrences faisant partie des contextes courants (cf. CONTEXTE APPLIQUER et ANALYSEUR SEGMENTATION). Afin de permettre à SATO d'éliminer les recouvrements entre contextes adjacents, il faut éviter de tamiser des contextes construits avec l'opérateur *@ de tri alphabétique (cf. Filtre contextuel).
Voir : Exemple 3 - Texte caractériser sous-texte contexte.Le paramètre entier est un Filtre-de-nombres qui permet de désigner un choix de contextes. Par exemple, le filtre «>6» sélectionnera tous les contextes portant un numéro supérieur à 6. Le caractère de troncation «$» désigne tous les contextes.
Le paramètre nom permet de conserver la sélection des occurrences du sous-texte pour une consultation future (cf. TEXTE CARACTÉRISER SOUS-TEXTE = RAPPEL). Le nom du sous-texte est une chaîne de caractères ne dépassant pas 64 caractères. Si un nom contient des caractères autres que des lettres, des chiffres et les signes - et _, il doit être mis entre guillemets anglais (").
Le paramètre optionnel LEXIQUE, suivi du nom d'une propriété existante, permet de conserver le lexique du sous-texte. Ce lexique contient les fréquences d'utilisation des formes lexicales dans le sous-texte. La propriété utilisée pour ce lexique doit être de type lexicale entière. Si on veut conserver le lexique du sous-texte dans une nouvelle propriété, on peut choisir l'option NOUVEAU-LEXIQUE, suivi du nom de la nouvelle propriété à créer.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
L'option DOCUMENT permet de créer un sous-texte constitué des documents qui contiennent, en sur-ensemble, les occurrences des contextes courants (cf. CONTEXTE APPLIQUER et ANALYSEUR SEGMENTATION).
Le paramètre entier est un filtre de nombres qui permet de désigner un choix de contextes. Par exemple, le filtre «>6» sélectionnera tous les contextes portant un numéro supérieur à 6. Le caractère de troncation «$» désigne tous les contextes.
Le paramètre nom permet de conserver la sélection des occurrences du sous-texte pour une consultation future (cf. CARACTÉRISER SOUS-TEXTE RAPPEL). Le nom du sous-texte est une chaîne de caractères ne dépassant pas 64 caractères. Si un nom contient des caractères autres que des lettres, des chiffres et les signes - et _, il doit être mis entre guillemets anglais (").
Le paramètre optionnel LEXIQUE, suivi du nom d'une propriété existante, permet de conserver le lexique du sous-texte. Ce lexique contient les fréquences d'utilisation des formes lexicales dans le sous-texte. La propriété utilisée pour ce lexique doit être de type lexicale entière. Si on veut conserver le lexique du sous-texte dans une nouvelle propriété, on peut choisir l'option NOUVEAU-LEXIQUE, suivi du nom de la nouvelle propriété à créer.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
L'option CONTEXTE permet de créer un sous-texte composé des occurrences décrites par un filtre.
Voir : Exemples 2 et 3 - Caractériser sous-texte filtre.Le paramètre nom permet de conserver la sélection des occurrences du sous-texte pour une consultation future (cf. CARACTÉRISER SOUS-TEXTE RAPPEL). Le nom du sous-texte est une chaîne de caractères ne dépassant pas 64 caractères. Si un nom contient des caractères autres que des lettres, des chiffres et les signes - et _, il doit être mis entre guillemets anglais (").
Le paramètre optionnel LEXIQUE, suivi du nom d'une propriété existante, permet de conserver le lexique du sous-texte. Ce lexique contient les fréquences d'utilisation des formes lexicales dans le sous-texte. La propriété utilisée pour ce lexique doit être de type lexicale entière. Si on veut conserver le lexique du sous-texte dans une nouvelle propriété, on peut choisir l'option NOUVEAU-LEXIQUE, suivi du nom de la nouvelle propriété à créer.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
L'option PARAGRAPHE permet de créer un sous-texte constitué des paragraphes qui contiennent les occurrences des contextes courants (cf. CONTEXTE APPLIQUER et ANALYSEUR SEGMENTATION).
Le paramètre entier est un filtre de nombres qui permet de désigner un choix de contextes. Par exemple, le filtre «>6» sélectionnera tous les contextes portant un numéro supérieur à 6. Le caractère de troncation «$» désigne tous les contextes.
Le paramètre DÉLIMITEUR suivi d'un filtre permet de spécifier le délimiteur de paragraphe. Sa valeur implicite est : «$*édition=par».
Le paramètre nom permet de conserver la sélection des occurrences du sous-texte pour une consultation future (cf. CARACTÉRISER SOUS-TEXTE RAPPEL). Le nom du sous-texte est une chaîne de caractères ne dépassant pas 64 caractères. Si un nom contient des caractères autres que des lettres, des chiffres et les signes - et _, il doit être mis entre guillemets anglais (").
Le paramètre optionnel LEXIQUE, suivi du nom d'une propriété existante, permet de conserver le lexique du sous-texte. Ce lexique contient les fréquences d'utilisation des formes lexicales dans le sous-texte. La propriété utilisée pour ce lexique doit être de type lexicale entière. Si on veut conserver le lexique du sous-texte dans une nouvelle propriété, on peut choisir l'option NOUVEAU-LEXIQUE, suivi du nom de la nouvelle propriété à créer.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
L'option PHRASE permet de créer un sous-texte constitué des phrases qui contiennent les occurrences des contextes courants (cf. CONTEXTE APPLIQUER et ANALYSEUR SEGMENTATION).
Le paramètre entier est un filtre de nombres qui permet de désigner un choix de contextes. Par exemple, le filtre «>6» sélectionnera tous les contextes portant un numéro supérieur à 6. Le caractère de troncation «$» désigne tous les contextes.
Le paramètre DÉLIMITEUR suivi d'un filtre permet de spécifier le délimiteur de phrase. Sa valeur implicite est : «(.,!,?)».
Le paramètre nom permet de conserver la sélection des occurrences du sous-texte pour une consultation future (cf. CARACTÉRISER SOUS-TEXTE RAPPEL). Le nom du sous-texte est une chaîne de caractères ne dépassant pas 64 caractères. Si un nom contient des caractères autres que des lettres, des chiffres et les signes - et _, il doit être mis entre guillemets anglais (").
Le paramètre optionnel LEXIQUE, suivi du nom d'une propriété existante, permet de conserver le lexique du sous-texte. Ce lexique contient les fréquences d'utilisation des formes lexicales dans le sous-texte. La propriété utilisée pour ce lexique doit être de type lexicale entière. Si on veut conserver le lexique du sous-texte dans une nouvelle propriété, on peut choisir l'option NOUVEAU-LEXIQUE, suivi du nom de la nouvelle propriété à créer.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
L'option RAPPEL permet de réactiver par son nom un sous-texte qui a déjà été défini. Il faut noter que le sous-texte rappelé sera strictement identique à l'ancien sous-texte, même si les valeurs de propriété qui auraient pu servir à le construire avaient été modifiées après la définition originale du sous-texte.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
L'option SUPPRESSION permet de supprimer un sous-texte et de rappeler l'ensemble du corpus.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
L'option TOUT permet d'annuler le sous-texte courant qui devient alors identique au texte entier.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le trait SUBSTITUTION permet de désigner une propriété symbolique ou libre dont les valeurs vont se substituer aux caractères de l'occurrence lors de l'affichage ou lors de l'exportation du texte. Cette substitution ne va s'opérer que si la valeur de la propriété n'est pas vide («nil» ou chaîne absente, selon qu'il s'agisse d'une propriété symbolique ou libre). Si on omet le paramètre propriété, l'opération de substitution sera annulée.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le trait TABULATION permet de modifier la position des marques de tabulation. Les marques de tabulation sont indiquées dans le texte par la valeur «tab», «2», «3», «4», «5», «6», «7» et «8» de la propriété «édition». La propriété «édition» permet jusqu'à 8 niveaux de tabulation. Le premier paramètre valeur désigne le niveau de la tabulation (1 à 8) à modifier. Le mot COLONNE suivi du paramètre valeur contient le numéro de colonne correspondant à ce niveau de tabulation.
Voir : Exemple 5 - Texte caractériser tabulation.Les positions implicites de tabulation sont : 9 17 25 33 41 49 57 65.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Exemple 1. Voici un exemple de description du corpus des fables obtenu par la commande suivante :
TEXTE DÉCRIREDeux fables de La Fontaine --texte généré le 11-3-2007 à 15:35:49 heure par SATO version 4.30 Alphabet fr ,0 .0 ,1 .1 ,2 .2 ,3 .3 ,4 .4 ,5 .5 ,6 .6 ,7 .7 ,8 .8 ,9 .9 '_ aujourd' presqu'île presqu'ile 's *séparateur - , : ; . ? ¿ ! ... ࠈ < > ( ) [ ] { } « » % $ £ ¢ ¥ # " @ & + = / \ | * ÷ ± ® ¦ *terminal ' ´ ª º Information Corpus de démonstration Nombre de mots dans le texte: 318 Nombre de lignes: 40 Document corbeau: page(s) 1 Document grenouil: page(s) 1 nombre total de documents: 2 nombre total de pages: 2 |
Exemple 2. La séquence de commandes suivante réduit le texte à analyser aux mots prononcés par la grenouille et dépose dans la propriété lexicale entière «grenouil» la fréquence des lexèmes utilisés par la grenouille. La commande suivante (TEXTE AFFICHER $) permet de constater que seuls les mots du sous-texte sont affichés.
TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*loc=grenouil Locuteur_grenouil LEXIQUE grenouilnombre de mots dans le sous-texte : 33TEXTE AFFICHER $ *page=grenouil/1/10 *locuteur=grenouil «Regardez bien, ma soeur; Est-ce assez? dites-moi : n'y suis-je point encore? * M'y voici donc? * M'y voilà? |
L'astérisque «*» suivi d'un espace indique que certains mots du texte ne sont pas affichés. Cela signifie donc que l'extrait n'est pas continu.
Voir la commande : CARACTÉRISER SOUS-TEXTE FILTREExemple 3 La séquence des commandes suivante va réduire le texte à analyser aux phrases qui contiennent un ou plusieurs mots débutant par «gros».
Pour définir un contexte de phrases délimités par le point, on utilise la commande :
CONTEXTE CARACTÉRISER BORNES = DÉLIMITÉES . EXCLU . INCLUSdélimitées . exclu . inclus CONTEXTE APPLIQUER gros$ |
Exemple 4. La commande suivante aura pour effet d'ajuster la première position de tabulation à la colonne 9.