SATO 4.4, Manuel de référence (dernière modification de ce chapitre en juillet 2016) |
Table des matières | Définitions |
Propriété |
---|
Les propriétés permettent de catégoriser ou d'annoter les formes lexicales ou les occurrences. Le système de propriété de SATO est sujet à certaines limites quantitatives : voir Propriété : définition et limites. |
Exploration :
Exploitation :
Gestion :
Configuration :
Propriétés prédéfinies Exemples : |
AFFICHER affiche à l'écran la définition d'une propriété.
Le paramètre propriété est le nom de la propriété que l'on veut traiter. Si on omet le nom de la propriété, on obtiendra les définitions de l'ensemble des propriétés du corpus.
Voir : Exemple 1 - Propriété afficher.ATTRIBUER permet d'attribuer des valeurs à une propriété pour un ensemble donné de lexèmes ou d'occurrences, selon qu'il s'agisse d'une propriété lexicale ou textuelle.
Le paramètre propriété est le nom d'une propriété déjà définie à laquelle on veut attribuer une valeur.
Les opérateurs «+» ou «-» indiquent que l'on désire ajouter ou retrancher une valeur de propriété à celle qui existait déjà. L'opérateur «=» signifie que l'on désire remplacer l'ancienne valeur de la propriété par une nouvelle valeur.
L'attribution d'une valeur de propriété peut se faire selon cinq modalités :
L'option d'attribution par FICHIER permet d'affecter directement des valeurs de propriété à des lexèmes ou occurrences à partir de leur numéro interne. Le mot FICHIER doit être suivi du nom d'un fichier en format textuel tabulaire, c'est-à-dire en colonnes séparées par des tabulations. Ce mode d'attribution est surtout utilisé lorsqu'on veut faire appel à un programme externe pour ajouter de l'information à un corpus SATO. On exporte d'abord les données en format tabulaire. On applique ensuite le programme externe au fichier d'exportation. Finalement, on réintroduit les informations ajoutées par le programme externe dans une colonne du fichier. Le contenu de la colonne devra correspondre à une propriété SATO et l'unité qui recevra ce contenu sera une forme lexicale ou une occurrence identifiée par le numéro interne attribué par SATO.
La première ligne du tableau est une ligne de définition qui doit contenir le nom des propriétés correspondant à chacune des colonnes du tableau. Par la suite, chaque ligne du fichier contiendra les valeurs de propriété d'un lexème ou d'une occurrence dans l'ordre introduit par la ligne de définition. On peut terminer la ligne par un champ optionnel contenant les caractères du mot. La première colonne du tableau doit contenir le numéro du lexème (NoLex) ou de l'occurrence (NoOcc), selon que l'on veuille attribuer des valeurs à une propriété lexicale ou textuelle. Voici un extrait d'un fichier en format tabulaire permettant d'attribuer des valeurs à la propriété lexicale «gramr» pour le corpus des fables de La Fontaine.
NoLex Gramr 12 Vconj a 165 Pré à 13 Vparpas alléché 14 Nomcom ambassadeurs 15 (Adjqua,Nomcom) animal |
Chaque champ du tableau est séparé du suivant par un espace ou une tabulation. Deux tabulations consécutives seront interprétées comme un champ vide. Pour chaque ligne du fichier tabulaire, la valeur de la colonne correspondant au paramètre propriété sera attribuée au lexème ou à l'occurrence identifiée par son numéro interne. La valeur doit être compatible avec la définition de la propriété.
La commande se termine par un paramètre optionnel qui permet de préciser le code de caractères utilisé pour l'encodage du fichier s'il diffère du mode d'encodage UTF-8 qui est le mode d'encodage par défaut. Les options supportées sont ISOLATIN et IBM850.
L'option d'attribution par LEXÈME permet d'affecter la chaîne de caractères du lexème à une propriété en format libre pour le lexique. Il sera alors possible de modifier cette chaîne comme valeur de propriété, alors qu'il est impossible de modifier directement les caractères d'édition du lexème. Le paramètre filtre définit la classe de lexèmes pour laquelle on veut effectuer cette opération d'attribution.
L'option d'attribution par PROPRIÉTÉ, suivie d'un nom de propriété, permet d'affecter à une propriété les valeurs d'une autre propriété. Le paramètre filtre définit la classe de lexèmes ou d'occurrences pour laquelle on veut effectuer cette opération d'attribution.
Les deux propriétés ne sont pas tenues à une définition identique. Il est possible d'attribuer à une propriété lexicale des valeurs issues d'une propriété textuelle. Dans ce cas, la propriété de l'occurrence sera projetée sur la propriété du lexème. De même on peut attribuer à une propriété textuelle une propriété lexicale. Dans ce cas, la propriété lexicale sera projetée sur la propriété de l'occurrence.
Les types des deux propriétés peuvent aussi être différents. Cependant, leurs valeurs doivent être syntaxiquement compatibles. Ainsi, une propriété en format libre peut recevoir un nombre ou un symbole. Une propriété entière ne peut recevoir de valeurs symboliques ou libres que si elles peuvent s'interpréter comme des nombres entiers. Une propriété symbolique peut accepter un entier si celui-ci a été déclaré dans l'ensemble des valeurs possibles de la propriété, etc.
L'option d'attribution par UNION permet de répartir, sur l'ensemble des mots de chaque contexte (cf. ANALYSEUR SEGMENTATION et CONTEXTE APPLIQUER), la somme des valeurs d'une propriété textuelle trouvée dans ce groupe de mots. En d'autres mots, SATO accumule les différentes valeurs données à une propriété dans un groupe de mots, puis assigne ces valeurs à chacun de ces mots. Le paramètre filtre définit les mots pour laquelle on veut effectuer cette opération d'attribution.
L'option CONTEXTE permet de spécifier les contextes sur lesquels sera appliquée l'opération d'attribution. Entier est un filtre numérique qui permet de désigner les contextes par leur numéro d'ordre. L'opérateur «$» désigne tous les contextes.
Voir : Exemple 2 - Propriété attribuer union.L'option d'attribution par VALEUR suivie d'une valeur compatible permet d'affecter cette valeur à la propriété. Le paramètre filtre définit les unités touchées par l'opération d'attribution.
L'option CONTEXTE permet de restreindre l'opération d'attribution aux occurrences des contextes courants (cf. ANALYSEUR SEGMENTATION et CONTEXTE APPLIQUER). Entier est un filtre numérique qui permet de désigner les contextes par leur numéro d'ordre. L'option MULTIPLICATIF peut aussi être ajoutée si l'on veut attribuer des valeurs à une propriété entière pour le texte. Dans ce cas, la valeur sera multipliée par le numéro d'ordre du contexte avant d'être attribuée aux occurrences du contexte. Cette option est utilisée pour numéroter des phrases, des paragraphes, etc.
Voir : Exemple 3 - Propriété attribuer valeur.DÉCRIRE permet de décrire la distribution des valeurs d'une propriété numérique ou symbolique. S'il s'agit d'une propriété numérique, la commande donne les résultats suivants : les valeurs minimale et maximale, la moyenne des valeurs et leur écart type. S'il s'agit d'une propriété symbolique, la commande dresse la liste des symboles de la propriété en indiquant pour chacun le nombre et le pourcentage de mots ou de lexèmes qui l'utilisent. La liste est triée en ordre décroissant d'utilisation. La commande donne aussi le nombre de mots ou de lexèmes pris en compte dans le calcul.
Le paramètre propriété est le nom de la propriété que l'on veut décrire. Si l'on n'indique pas de propriété, la commande ne requiert plus aucun paramètre. La description portera alors sur le système de gestion utilisé par SATO pour les propriétés symboliques. Pour chacune des propriétés symboliques, on aura le nombre de symboles faisant partie de la définition, le nombre de valeurs composées (multiples) construites par l'attribution, le nombre de positions libérées et le total qui ne doit pas dépasser 254.
L'alternative COMPOSÉ|VENTILÉ s'applique à la description des propriétés symboliques. L'option COMPOSÉ indique que les valeurs multiples seront considérées comme une seule valeur pour la description. L'option VENTILÉ, quant à elle, indique que les valeurs multiples seront décomposées comme une suite de valeurs simples.
Le filtre est le patron qui permet de définir la classe de mots ou de lexèmes sur laquelle portera la description.
Voir : Exemple 4 - Propriété décrire.DÉFINIR permet de définir une nouvelle propriété. Le paramètre propriété est le nom de la propriété que l'on veut définir. Un nom de propriété peut être composé de lettres, de chiffres et des caractères «-» et «_». Le nom doit commencer par une lettre et ne peut dépasser 16 caractères. Un nom qui ne diffèrerait du nom d'une propriété existante que par la casse des caractères et l'accentuation n'est pas admissible.
Une propriété se définit d'abord par le type de ses valeurs. Quatre types sont possibles :
Une propriété ENTIÈRE peut être définie soit pour le LEXIQUE (hors contexte), ou soit pour le TEXTE (occurrences en contexte). On utilise surtout la propriété entière pour le lexique qui permet de conserver des fréquences d'utilisation des lexèmes dans des contextes ou des sous-textes donnés..
Voir : Exemple 5 - Propriété définir entièreUne propriété HÉRITAGE hérite des valeurs d'une autre propriété. Dans ce cas, la nouvelle propriété, dite propriété fille, hérite des valeurs d'une autre (la mère). Cela signifie qu'elle recevra une copie des valeurs de la propriété mère. Si la propriété «mère» est de type symbolique, la propriété «fille» va également recevoir une copie de sa liste de symboles admissibles.
Le deuxième paramètre propriété est le nom de la propriété existante qui sera considérée comme la propriété mère. La propriété fille peut être définie pour le LEXIQUE (hors contexte), ou pour le TEXTE (occurrences en contexte).
Lorsqu'une propriété hérite des valeurs d'une autre, la portée de la propriété fille s'interprète de la façon suivante :
- Si la mère et la fille ont une même portée (lexique ou texte), la fille sera une simple copie des valeurs de la mère. Si la propriété mère porte sur le lexique alors que la propriété fille porte sur le texte, la fille héritera d'une copie de la valeur de la mère pour chaque occurrence d'un lexème.
- Si la propriété mère porte sur le texte alors que la propriété fille concerne le lexique, les valeurs de la propriété «fille» seront constituées de la fusion des valeurs de la propriété «mère» pour toutes les occurrences d'un même lexème. Dans le cas d'une propriété symbolique, la fusion consiste à créer, pour chaque lexème, un ensemble constitué des symboles accompagnant le lexème en contexte. Dans le cas d'une propriété numérique, la fusion est la somme des valeurs associées à chaque occurrence du lexème. Dans le cas d'une propriété symbolique, la fusion est la concaténation des valeurs associées à chaque occurrence du lexème. La concaténation n'est effectuée que si la chaîne constituant la valeur associée à l'occurrence n'existe pas déjà comme sous-chaîne de la valeur cumulée au lexique.
Voir : Exemple 6 - Propriété définir héritage.Une propriété LIBRE peut être définie pour le LEXIQUE (hors contexte), ou pour le TEXTE (occurrences en contexte).
Voir : Exemple 7 - Propriété définir libre.Une propriété SYMBOLIQUE est une propriété ensembliste dont les valeurs sont pigées parmi un ensemble fermé de symboles. La propriété SYMBOLIQUE peut être définie pour le LEXIQUE (hors contexte), ou pour le TEXTE (occurrences en contexte). Une fois déterminée la portée de la propriété, on doit définir la liste des symboles admissibles. Les symboles des propriétés symboliques sont des chaînes de caractères ne dépassant pas 64 caractères. Si un symbole contient des caractères autres que des lettres, des chiffres et les signes - et _, il doit être mis entre guillemets anglais ("). Chaque symbole est séparé du suivant par au moins un espace.
Voir : Exemple 8 - Propriété définir symbolique.EXPORTER écrit la définition de la propriété dans le fichier d'exportation.
Le paramètre propriété est le nom de la propriété que l'on veut exporter.
Voir : Exemple 1 - Propriété afficher.Il est possible de REDÉFINIR une propriété symbolique, c'est-à-dire de modifier sa liste de symboles. Trois opérations sont possibles : on peut ajouter un nouveau symbole, retirer un symbole existant ou renommer un symbole existant.
- L'opérateur «+» permet d'ajouter un ou plusieurs nouveaux symboles.
- L'opérateur «-» permet de retirer un ou plusieurs symboles existants. Cette suppression entraîne l'examen de l'ensemble des valeurs attribuées et la suppression des symboles retirés dans les ensembles qui les utilisent.
- L'opérateur «=» permet de renommer un symbole, c'est-à-dire de substituer un nouveau symbole à un symbole existant. Dans ce cas, la commande exige deux valeurs de propriété: la première désigne un symbole existant et la seconde le symbole de remplacement.
Symbole désigne, selon le cas, un symbole existant dans la définition de la propriété ou un nouveau symbole conforme à la syntaxe des symboles de propriété. Les symboles des propriétés symboliques sont des chaînes de caractères ne dépassant pas 64 caractères. Si un symbole contient des caractères autres que des lettres, des chiffres et les signes - et _, il doit être mis entre guillemets anglais (").
Voir : Exemple 9 - Propriété redéfinir.Le verbe SAUVEGARDER permet de conserver les modifications de propriété apportées en cours de traitement. En effet, comme SATO travaille sur une copie temporaire des fichiers de propriété, toute modification sera perdue à moins d'être retranscrite sur les fichiers permanents associés au texte. C'est la fonction du verbe SAUVEGARDER.
Le verbe SUPPRIMER permet de supprimer une propriété dont on n'a plus besoin. Cela veut dire que la définition de la propriété et toutes ses valeurs seront définitivement détruites sur les copies de travail de SATO. Cette commande peut prendre un certain temps puisque toutes les attributions de la propriété doivent être revues.
Le paramètre propriété désigne le nom de la propriété que l'on veut supprimer. Bien entendu, on ne peut pas effacer les propriétés prédéfinies par SATO (cf. Propriétés prédéfinies).
Voir : Exemple 10 - Propriété supprimerCARACTÉRISER permet de modifier certains paramètres associés à l'objet : COULEUR, DISPOSITION, FORMAT, HTML, LARGEUR et TEI.
Le paramètre COULEUR permet d'associer une couleur, ou autre attribut d'affichage, à une valeur de propriété symbolique. Cette couleur sera appliquée aux mots qui possèdent cette valeur de propriété. Ce processus de coloration doit être activé par la commande POSTE ÉCRAN CARACTÉRISER COULEUR.
Le paramètre propriété est le nom de la propriété que l'on veut traiter.
Le paramètre symbole est la valeur de la propriété à laquelle on veut associer une couleur ou tout autre attribut d'affichage.
Le paramètre style est la définition d'un style conforme au protocole CSS (cascading style sheet) largement utilisé dans la production de pages Web. Voici quelques exemples de telles définitions.
L'opérateur ? provoque l'affichage de la valeur du paramètre sélectionné. L'opérateur ?? indique que le contenu du paramètre sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le paramètre DISPOSITION concerne la mise-en-page de la propriété lors de l'édition du texte.
Normalement, SATO édite le texte de façon à mettre en évidence la valeur d'une propriété lorsque plusieurs mots consécutifs possèdent une même valeur pour cette propriété. C'est ce que l'on appelle la disposition en portée globale, c'est-à-dire que la valeur de la propriété porte sur tous les mots consécutifs jusqu'à l'apparition d'une nouvelle valeur de la propriété. Si une occurrence isolée a une valeur différente pour cette propriété, la valeur sera affichée avec une portée locale, c'est-à-dire que sa définition sera collée immédiatement à la droite de l'occurrence. Cette définition ne concernera que cette occurrence en ayant priorité sur l'affichage global.
Normalement, SATO utilise une disposition MIXTE permettant de combiner la portée globale avec la portée locale de façon à alléger la présentation. On peut décider de changer ce mode de disposition mixte de façon, par exemple, à faciliter le retraitement du texte par un programme externe.
Le paramètre propriété est le nom de la propriété que l'on veut traiter.
Voici la définition des diverses dispositions.
L'opérateur ? provoque l'affichage de la valeur du paramètre sélectionné. L'opérateur ?? indique que le contenu du paramètre sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le paramètre FORMAT permet de préciser le format d'affichage des valeurs de la propriété. Certaines de ces options sont très spécialisées et visent à faciliter le retraitement du texte par des logiciels externes.
Le paramètre propriété est le nom de la propriété que l'on veut traiter.
Voici la définition des divers formats.
L'opérateur ? provoque l'affichage de la valeur du paramètre sélectionné. L'opérateur ?? indique que le contenu du paramètre sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le paramètre HTML permet de spécifier la façon d'interpréter une valeur de propriété pour générer du code HTML. La commande CARACTÉRISER FORMAT permet déjà de commander à SATO d'interpréter une valeur de propriété comme du code HTML. Le paramètre de configuration HTML permet de définir un gabarit de mise en forme de la valeur de propriété. Le gabarit définit la partie fixe du code HTML et permet, par l'utilisation de l'entité &sato.vpro;, d'insérer la valeur de la propriété comme partie variable du code. Voici quelques exemples.
PROPRIETE CARACTÉRISER référence HTML = <a href="http://monsite.com/&sato.vpro;.html" target="_blank"> L'entité &sato.vpro; est, en quelque sorte, un nom de variable qui sera remplacé dynamiquement par la valeur de la propriété référence lors de l'édition. Dans cet exemple, l'hyperlien pointera dans le site monsite.com sur un nom de fichier constitué de la valeur de la propriété suivie de la particule .html. On pourra donc reconfigurer la localisation du fichier et son mode d'ouverture sans avoir à changer le nom du fichier inscrit dans la valeur de la propriété.
PROPRIETE CARACTÉRISER image HTML = <img src="http://monsite.org/images/&sato.vpro;"> Cet exemple permet l'insertion d'une image située sur http://monsite.org/images/. L'entité &sato.vpro; sera remplacée dynamiquement par la valeur de la propriété image lors de l'édition.
Le paramètre propriété est le nom de la propriété que l'on veut traiter.
Le paramètre valeur est la chaine de caractères qui précise les parties fixes et variables du code HTML qui sera généré lors de l'édition. La partie variable est représentée par l'entité &sato.vpro; qui désigne la valeur de la propriété au moment de l'édition.
L'opérateur ? provoque l'affichage de la valeur du paramètre sélectionné. L'opérateur ?? indique que le contenu du paramètre sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le paramètre LARGEUR permet de spécifier la largeur du champ réservé pour l'affichage en colonnes de la valeur de propriété (cf. POSTE PROTOCOLE CARACTÉRISER GÉNÉRAL).
Le paramètre propriété est le nom de la propriété que l'on veut traiter.
La largeur allouée lors de la création de la propriété est de 9 colonnes. Le paramètre valeur est un nombre entier soumis à un des opérateurs suivants : + permet d'augmenter la largeur, - permet de la diminuer, alors que = permet de la remplacer.
L'opérateur ? provoque l'affichage de la valeur du paramètre sélectionné. L'opérateur ?? indique que le contenu du paramètre sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Le paramètre TEI permet de spécifier le mode de balisage qui sera utilisé pour l'exportation du texte en format TEI (cf. POSTE PROTOCOLE CARACTÉRISER GÉNÉRAL). Deux modes sont supportés : débarqué et embarqué.
Le paramètre propriété est le nom de la propriété que l'on veut traiter.
Voici la définition des modes possible de balisage.
DÉBARQUÉ. Dans le mode débarqué, l'exportation du texte selon le protocole TEI sera complétée par la production d'un fichier d'annotation XML séparé contenant toutes les propriétés en mode débarqué. L'annotation débarquée réfère au corpus exporté en TEI par des pointeurs. Si on exporte du texte, le fichier d'annotation portera le nom du fichier d'exportation choisi (le nom du fichier corpus par défaut) augmenté du suffixe de _pro. Si on exporte le lexique, le fichier d'annotation portera le nom du fichier d'exportation suffixé de _lex.
Voir : Exemple 11 - Exportation TEI en mode débarqué.EMBARQUÉ. Dans ce mode, les propriétés SATO seront traduites en balises TEI milestone accompagnant le texte exporté. Ce balisage est dit embarqué parce qu'il s'ajoute au résultat exporté dans un seul et même fichier. Les milestone sont des balises vides dites auto-fermantes. Elles ne contiennent pas de texte ou d'autres balises mais donnent des indications sur le texte qui suit la balise. Le mode embarqué est le mode par défaut pour coder les propriétés lors de l'exportation du texte selon le protocole TEI. Pour un exemple d'exportation TEI en mode embarqué sur les deux fables de La Fontaine,
Voir : satoman-fr_poste_protocole.html#exemple_tei_milestone.L'opérateur ? provoque l'affichage de la valeur du paramètre sélectionné. L'opérateur ?? indique que le contenu du paramètre sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
SATO possède un certain nombre de propriétés prédéfinies dont certaines possèdent une syntaxe particulière. Voici la liste des propriétés prédéfinies.
- Alphabet est une propriété symbolique pour le lexique. Elle permet de conserver la définition du jeu de caractères utilisé pour constituer les mots d'un texte. Grâce à cette propriété, on peut distinguer jusqu'à quatre (4) jeux de caractères différents. SATO permet donc de manipuler des textes comportant quatre (4) langues. À défaut de marquage explicite, SATO considère que le texte est codé en utilisant le premier alphabet défini dans le bloc de déclarations (cf. déclaration ALPHABET). Voilà pourquoi on doit définir au moins un alphabet.
- La propriété Fréqtot est une propriété entière pour le lexique. Elle contient la fréquence totale des formes lexicales dans l'ensemble du corpus.
- La propriété Longueur est une propriété entière pour le lexique. Elle contient la longueur (nombre de caractères) de chaque forme lexicale.
- La propriété Page est utilisée pour localiser chaque mot du corpus de textes en lui assignant une référence de pagination.
- La propriété Édition est une propriété symbolique pour le texte. Elle sert à marquer certaines particularités d'édition du texte. Cette propriété est normalement décodée automatiquement par SATO lors de la soumission du corpus. Voici la liste des valeurs de cette propriété :
La propriété Commentaire est utilisée pour identifier des parties du texte que le module de génération (soumettre) exclut de sa représentation lexique/occurrences. Cette propriété a le statut d'une propriété en format libre pour le texte avec certaines particularités : elle ne peut pas être modifiée et la longueur de ses valeurs n'est pas limitée. Dans le corpus soumis à SATO, les commentaires sont introduits par «*{» et se terminent par «}».
Les propriétés NoLex et NoOcc sont des propriétés gérées par SATO et qui contiennent respectivement les numéros d'ordre de chaque lexème et de chaque occurrence.
Exemple d'affichage d'une propriété.
PROPRIÉTÉ AFFICHER locuteur propriété locuteur symbolique pour texte boeuf grenouil lafont renard |
Voir la commande : PROPRIÉTÉ AFFICHER.
Exemple 2 - Propriété attribuer union
Exemple d'attribution de valeurs de propriété constituées par l'union des valeurs des occurrences de mots dans un contexte.
La commande PROPRIÉTÉ DÉFINIR définit une propriété «index», copie de la propriété locuteur. La commande ANALYSEUR SEGMENTATION permet de segmenter le corpus en documents correspond à chacune des deux fables de La Fontaine. La commande PROPRIÉTÉ ATTRIBUER permet de procéder à la fusion des locuteurs pour chacune des deux fables et d'attribuer le résultat à la propriété «index». Finalement, TEXTE AFFICHER permet de visualiser le résultat sur le document «grenouil»
PROPRIÉTÉ DÉFINIR index HÉRITAGE locuteur POUR TEXTE propriété index symbolique pour texte boeuf grenouil lafont renard ANALYSEUR SEGMENTATION APPLIQUER DOCUMENT Nombre de segments repérés: 2 PROPRIÉTÉ ATTRIBUER index = UNION POUR $ CONTEXTE $ nombre d'affectations: 318 TEXTE AFFICHER $*page=grenouil *Page=grenouil/1 *locuteur=nil*index=(boeuf,grenouil,lafont) La grenouille qui veut se faire aussi grosse que le boeuf *locuteur=lafont Une grenouille vit un boeuf Qui lui sembla de belle taille. Elle qui n'était pas grosse en tout comme un oeuf, Envieuse s'étend, et s'enfle, et se travaille Pour égaler l'animal en grosseur, Disant: *locuteur=grenouil "Regardez bien, ma soeur; Est-ce assez? dites-moi: n'y suis-je point encore? *locuteur=boeuf Nenni. *locuteur=grenouil M'y voici donc? *locuteur=boeuf Point du tout. *locuteur=grenouil M'y voilà? *locuteur=boeuf Vous n'en approchez point." *locuteur=lafont La chétive pécore S'enfla si bien qu'elle creva. Le monde est plein de gens qui ne sont pas plus sages: Tout bourgeois veut bâtir comme les grands seigneurs, Tout petit prince a des ambassadeurs, Tout marquis veut avoir des pages. *{Fin du texte} |
Exemple d'attribution de valeurs à une propriété.
Dans l'exemple suivant, nous illustrons trois cas d'attribution de valeurs à une propriété.
- Dans le premier cas, nous définissons une propriété «x» entière pour le lexique. Ensuite, nous attribuons 3 à la propriété «x» pour toutes les formes qui commencent par «au». Finalement nous faisons afficher le lexique des formes pour lesquelles «x=3».
- Aussi, l'attribution de valeurs à une propriété lexicale peut tenir compte des occurrences si le filtre contient une propriété définie pour le texte. Dans ce deuxième cas, «nombre» est une propriété entière pour le lexique. Sa valeur sera augmentée de «1» pour chaque occurrence d'un lexème qui débute par une majuscule. Ainsi, la propriété «nombre» indiquera le nombre de fois où un lexème est en majuscule dans le texte.
- Finalement, notre troisième cas montre comment on se sert d'une propriété textuelle pour numéroter les phrases. Le découpage en phrases est réalisé par l'ANALYSEUR SEGMENTATION
PROPRIÉTÉ DÉFINIR x ENTIÈRE POUR LEXIQUE propriété x entière pour lexique PROPRIÉTÉ ATTRIBUER x = VALEUR 3 POUR au$ nombre d'affectations: 2 LEXIQUE AFFICHER $*x=3 TRI alphabet Fréqtot nbadj x 1 0 3 aussi 1 0 3 aux Nombre de lexèmes écrits: 2PROPRIÉTÉ DÉFINIR nombre entière pour lexique propriété nombre entière pour lexique PROPRIETE ATTRIBUER nombre + VALEUR 1 POUR $*Édition=maj nombre d'affectations: 37 PROPRIÉTÉ DÉFINIR phrase ENTIÈRE POUR TEXTE propriété phrase entière pour texte ANALYSEUR SEGMENTATION AFFICHER DÉLIMITEUR (.,?,!,:,;,...) TERMINAL Nombre de segments repérés : 27 PROPRIÉTÉ ATTRIBUER phrase = VALEUR 1 POUR $ CONTEXTE $ MULTIPLICATIF nombre d'affectations : 318 TEXTE AFFICHER $*page=corbeau *{ Le corpus qui suit contient deux fables de Jean De La Fontaine ______________________________________________________________ } *page=corbeau/1 *locuteur=nil*phrase=1 LE CORBEAU ET LE RENARD *locuteur=lafont Maître Corbeau, sur un arbre perché, Tenait en son bec un fromage. *phrase=2 Maître Renard, par l'odeur alléché, Lui tint à peu près ce langage : *locuteur=renard*phrase=3 "Hé! *phrase=4 bonjour, Monsieur du Corbeau. *phrase=5 Que vous êtes joli! *phrase=6 Que vous me semblez beau! *phrase=7 Sans mentir, si votre ramage Se rapporte à votre plumage, Vous êtes le phénix des hôtes de ces bois." *phrase=8 *locuteur=lafont*phrase=8 À ces mots, le corbeau ne se sent pas de joie; *phrase=9 Et pour montrer sa belle voix, Il ouvre un large bec, laisse tomber sa proie. *phrase=10 Le renard s'en saisit, et dit: *locuteur=renard*phrase=11 "Mon bon Monsieur, Apprenez que tout flatteur Vit aux dépens de celui qui l'écoute: *phrase=12 Cette leçon vaut bien un fromage, sans doute."*phrase=13 *locuteur=lafont*phrase=13 Le corbeau, honteux et confus, Jura, mais un peu tard, qu'on ne l'y prendrait plus. |
Exemple de description de propriétés.
La première commande illustre la description d'une propriété entière alors que la deuxième illustre la description d'une propriété symbolique.
PROPRIÉTÉ DÉCRIRE fréqtot POUR $
Description de la propriété Fréqtot
filtre: $
Nombre de lexèmes sélectionnés: 166/166 (100.00 %)
Fréqtot cumulée: 318/318 (100.00 %)
Moyenne=1.9
Écart-type=2.30
Minimum=1
Maximum=24
PROPRIÉTÉ DÉCRIRE locuteur COMPOSÉ POUR $*page=corbeauDescription de la propriété locuteur filtre: $*page=corbeau Nombre de lexèmes sélectionnés: 166/166 (100.00 %) Nombre d'occurrences sélectionnés: 170 Occ. %Occ. Seg. %Seg. locuteur 93 54.71% 3 50.00% lafont 72 42.35% 2 33.33% renard 5 2.94% 1 16.67% nil |
Exemple de création de propriété entières.
L'exemple suivant illustre la création de propriétés notées x, et y dont la portée sera le lexique et texte respectivement, et qui pourront recevoir des valeurs entières.
PROPRIÉTÉ DÉFINIR x ENTIÈRE POUR LEXIQUE propriété x entière pour lexique PROPRIÉTÉ DÉFINIR y ENTIÈRE POUR TEXTE propriété x entière pour lexique |
Exemple de création de propriété par héritage.
Dans l'exemple qui suit, la première commande définit la propriété lexicale sommaire qui hérite des valeurs de la propriété locuteur, propriété symbolique pour le texte. La seconde commande définit une propriété syntaxe pour le texte qui hérite des valeurs de la propriété gramr, propriété symbolique pour le lexique.
PROPRIÉTÉ DÉFINIR sommaire HÉRITAGE locuteur POUR LEXIQUE propriété sommaire symbolique pour lexique boeuf grenouil lafont renard PROPRIÉTÉ DÉFINIR syntaxe HÉRITAGE gramr POUR TEXTE propriété syntaxe symbolique pour texte Abr Adjdém Adjexc Adjind Adjint Adjnum Adjpos Adjqua Adjrel Adv Artdéf Artind Artpar Con Dél Int Mor Nomcom Nompro Ono Pon Pré Prodém Proexc Proind Proint Proper Propos Proréf Prorel Rés X Vaux Vconj Vinf Vparpas Vparpré |
Exemple de création de propriété libre.
L'exemple suivant illustre la définition de propriétés libres : la propriété lemme libre pour le lexique et la propriété notelibre pour le texte.
PROPRIÉTÉ DÉFINIR lemme LIBRE POUR LEXIQUE propriété lemme libre pour lexique PROPRIÉTÉ DÉFINIR note LIBRE POUR TEXTE propriété note libre pour texte |
Exemple de création de propriété symbolique.
L'exemple suivant illustre la création de propriétés symboliques. On définit la propriété symbolique gram pour le lexique afin de marquer la catégorie grammaticale hors contexte d'un mot. La valeur nil, qui est définie implicitement, pourra être utilisée pour marquer l'absence de catégorie grammaticale. De même, on définit une propriété partie symbolique pour le texte afin de marquer les différentes parties d'un texte.
PROPRIÉTÉ DÉFINIR gram SYMBOLIQUE POUR LEXIQUE nom verbe adverbe propriété gram symbolique pour lexique nom verbe adverbe PROPRIÉTÉ DÉFINIR partie SYMBOLIQUE POUR TEXTE intro thème1 thème2 conc propriété partie symbolique pour texte intro thème1 thème2 conc |
Exemple de redéfinition de propriété symbolique.
L'exemple suivant illustre deux cas de redéfinition de propriété symbolique. La première commande permet de rajouter de nouvelle valeurs (âne, lièvre et tortue) à la liste des valeurs possibles de la propriété locuteur . La deuxième commande illustre le retrait de symboles dans la définition de la propriété symbolique locuteur.
PROPRIÉTÉ REDÉFINIR locuteur + âne lièvre tortue propriété locuteur symbolique pour texte boeuf grenouil lafont renard âne lièvre tortue PROPRIÉTÉ REDÉFINIR locuteur - grenouil propriété locuteur symbolique pour texte boeuf lafont renard âne lièvre tortue |
Exemple de suppression d'une propriété.
La commande suivante effacera la propriété locuteur.
PROPRIÉTÉ SUPPRIMER locuteur locuteur |
Exemple d'exportation TEI avec une propriété en mode débarqué.
Voici un exemple (fable_pro.xml) illustrant le mode débarqué d'exportation TEI de la propriété locuteur dans les deux fables de La Fontaine.
<?xml version="1.0" encoding="utf-8"?> <TEI xmlns="http://www.tei-c.org/ns/1.0"> <teiHeader> <fileDesc> <titleStmt> <title>Deux fables de La Fontaine</title> </titleStmt> <publicationStmt> <p>Document produit par le logiciel SATO</p></publicationStmt> <sourceDesc> <p>fable</p></sourceDesc> </fileDesc> <encodingDesc> <refsDecl> <p>Sauf pour les mots déjà marqués, le découpage en mots a été effectué par le logiciel SATO en utilisant les règles décrites dans les déclarations d'alphabet suivantes.</p> <?sato cmd="Alphabet fr ,0 .0 ,1 .1 ,2 .2 ,3 .3 ,4 .4 ,5 .5 ,6 .6 ,7 .7 ,8 .8 ,9 .9 '_ aujourd' presqu'île presqu'ile 's *séparateur - , : ; . ? ¿ ! ... &#2056; < > ( ) [ ] { } « » % $ £ ¢ ¥ # " @ & + = / \ | * ÷ ± ® ¦ *terminal ' ´ ª º "?> <?sato cmd="Information Corpus de démonstration"?> </refsDecl> </encodingDesc> </teiHeader> <fsdDecl> <fsDecl type="protex"> <fsDescr>Définition des propriétés textuelles</fsDescr> <fDecl name="locuteur"><fDescr></fDescr> <vRange> <vColl org="set"> <symbol value="nil" n="0"/> <symbol value="boeuf" n="1"/> <symbol value="grenouil" n="2"/> <symbol value="lafont" n="3"/> <symbol value="renard" n="4"/> </vColl> </vRange> <vDefault><symbol value="nil" n="0"/></vDefault> </fDecl> </fsDecl> </fsdDecl> <text type="pro"> <body> <fLib> <f name="locuteur" xml:id="locuteur.0"> <symbol value="nil" n="0"/></f> <f name="locuteur" xml:id="locuteur.1"> <symbol value="boeuf" n="1"/></f> <f name="locuteur" xml:id="locuteur.2"> <symbol value="grenouil" n="2"/></f> <f name="locuteur" xml:id="locuteur.3"> <symbol value="lafont" n="3"/></f> <f name="locuteur" xml:id="locuteur.4"> <symbol value="renard" n="4"/></f> </fLib> <spanGrp xml:base="fable.xml"> <span ana="./#locuteur.3" from="#w8" to="#w41"/> <span ana="./#locuteur.4" from="#w43" to="#w89"/> <span ana="./#locuteur.3" from="#w91" to="#w133"/> <span ana="./#locuteur.4" from="#w134" to="#w165"/> <span ana="./#locuteur.3" from="#w167" to="#w189"/> <span ana="./#locuteur.3" from="#w204" to="#w252"/> <span ana="./#locuteur.2" from="#w254" to="#w278"/> <span ana="./#locuteur.1" from="#w280" to="#w281"/> <span ana="./#locuteur.2" from="#w283" to="#w287"/> <span ana="./#locuteur.1" from="#w289" to="#w292"/> <span ana="./#locuteur.2" from="#w294" to="#w297"/> <span ana="./#locuteur.1" from="#w299" to="#w305"/> <span ana="./#locuteur.3" from="#w307" to="#w358"/> </spanGrp> <ab> </ab> </body> </text> </TEI> |
Puisqu'il s'agit d'un fichier TEI, on retrouve d'abord une partie teiHeader qui documente le contenu du fichier. On trouve ensuite une partie fsdDecl qui traduit la définition des propriétés SATO dans un formalisme nommé structure de traits (feature structure). Le système de structures de traits fait non seulement partie des recommandations de la TEI, mais il constitue aussi une norme ISO. On retrouve enfin une partie text qui correspond au contenu effectif du texte prenant ici la forme d'annotations référant au contenu textuel du corpus.
Le corps du texte (body) introduit d'abord une librairie de valeurs de traits pour la propriété locuteur (fLib). On a ensuite un spanGrp dont l'attribut xml:base donne l'adresse Internet relative du document annoté. Par la suite, les span feront référence aux identificateurs des mots marqués par des balises w dans le document fable.xml. Les span définissent des empans de texte dont les frontières sont indiquées par les attributs from et to dont les valeurs, par exemple #w8, pointent sur des identifiants de mots dans le document annoté fable.xml. Ces identifiants correspondent donc aux valeurs des attributs xml:id utilisés dans les balises w (word) du document annoté. L'attribut ana indique que l'empan est analysé (annoté) par une des valeurs de trait décrite dans la partie fLib du document d'annotation fable_pro.xml.