SATO 4.4, Manuel de référence (dernière modification de ce chapitre en octobre 2012)
Table des matières | Définitions
Poste Protocole
... désigne l'ensemble des protocoles guidant le fonctionnement général de SATO et de ses divers objets.
Configuration :
CARACTÉRISER { GÉNÉRAL | TEI }
Exemples :
Exemple 1 - Texte exporté en XML-TEI avec milestone
Exemple 2 - Lexique exporté en XML-TEI avec structures de traits

Caractériser

CARACTÉRISER permet de préciser le choix d'un protocole de présentation des résultats des diverses commandes de SATO.
GÉNÉRAL indique le protocole général de formatage des résultats .
TEI permet de préciser les balises utilisées pour la présentation des résultats dans le cas où le protocole général est TEI.


Caractériser Général
Syntaxe :
POSTE PROTOCOLE CARACTÉRISER GÉNÉRAL {?|?? = variable|= COLONNE|= LISP|= NORMAL|= SATO|= SATO_PARTIEL|= TABULAIRE|= TEI}

Le paramètre GÉNÉRAL permet de préciser le protocole général utilisé pour formater les résultats. Ce paramètre concerne le mode d'écriture sur le fichier d'exportation mais aussi le mode d'affichage à l'écran. Sept protocoles généraux sont supportés : COLONNE, LISP, NORMAL, SATO, SATO_PARTIEL, TABULAIRE et TEI. Il est à noter que le protocole TEI ne s'applique qu'à l'exportation.

L'opérateur ? provoque l'affichage de la valeur du paramètre. L'opérateur ?? indique que le contenu du paramètre sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.

COLONNE indique que les résultats (texte et lexique) seront présentés en colonnes avec expansion des tabulations en espaces multiples.

LISP indique que les résultats seront formatés dans le formalisme du langage LISP. Ce formalisme est utilisé pour représenter les lexèmes ou occurrences avec leurs valeurs de propriété. La représentation est la suivante : «(lexème ((p1* (v1)) (p2* (v2)) ...)»; «lexème» désigne les caractères du lexème encadrés par «"»; «p1», «p2» ... désignent des noms de propriété immédiatement suivis de «*»; «v1», «v2» ... sont les valeurs de la propriété également encadrées par «"»; «...» indique que la liste des propriétés peut s'allonger; les parenthèses font partie intégrante de l'expression.

NORMAL marque la sélection du protocole standard d'affichage. Dans ce protocole, le lexique est affiché sous forme de tableau. Le texte est affiché sous forme linéaire. Les lignes trop longues (cf. LONGUEUR-LIGNE) seront affichées sur plusieurs lignes.

SATO indique que les résultats doivent être formatés en conformité avec les règles de codification utilisées pour la soumission d'un corpus à SATO. Ce format est surtout utilisé lorsque l'on veut exporter un corpus annoté pour le soumettre de nouveau à SATO.

SATO_PARTIEL est identique au protocole SATO sinon que les commandes de codification ne seront pas ajoutées en entête du corpus.

TABULAIRE indique que les résultats seront présentés en format tabulaire. Ainsi, non seulement le lexique sera présenté sous la forme d'un tableau, mais aussi le texte à raison d'une occurrence par ligne. Comme pour le lexique, chaque colonne correspond à une valeur de propriété alors que la dernière colonne est réservée aux caractères du mot. Une ligne titre contient le nom de chacune des propriétés présentées.

TEI indique que le lexique et le texte seront présentés sous forme de documents XML conformes aux recommendations du Text Encoding Initiative (TEI) http://www.tei-c.org. Le format XML-TEI est un format d'échange de documents électroniques annotés. Il se décompose en deux grandes parties : une entête TEI qui documente le corpus et sa codification, et le texte plein enrichi de balises XML. Le mode de balisage peut être précisé pour chacune des propriétés SATO exportées. Voir PROPRIÉTÉ CARACTÉRISER propriété TEI. Pour l'exportation du texte, sauf indication contraire, la balise utilisée sera de type milestone. Pour l'exportation du lexique, on utilisera les structures de traits. Voici des exemples.

Voir : Exemple 1 - Texte exporté en XML-TEI avec milestone.

Voir : Exemple 2 - Lexique exporté en XML-TEI avec structures de traits.

L'exportation avec les protocoles SATO, SATO_PARTIEL et TEI utilisent un système de versions pour les noms de fichier. Ainsi, si le fichier d'exportation existe déjà, on modifiera son nom en lui ajoutant un identificateur de version sous la forme _1, _2, etc. jusqu'à obtenir un nom de fichier original. Une extension sera ajoutée au nom de fichier pour indiquer s'il s'agit d'un fichier corpus (.sat), d'un document (.txt) ou d'un fichier XML-TEI (.xml). Aussi, comme l'exportation selon le protocole TEI est susceptible de produire plusieurs fichiers, le numéro de version sera précédé d'une particule indiquant la nature des fichiers supplémentaires : _pro pour un fichier d'annotation débarqué, _fsd pour un fichier de définitions de structures de traits et _lex pour l'exportation du lexique.


Caractériser TEI
Syntaxe :
POSTE PROTOCOLE CARACTÉRISER TEI {?|?? = variable|= w|= w_n |= }

Le paramètre TEI permet de préciser les balises utilisées pour la présentation des résultats dans le cas où le protocole général est TEI. En fait, seules les balises concernant le découpage en mots peuvent être précisées. Deux options sont possibles : w et w_n.

L'opérateur ? provoque l'affichage de la valeur du paramètre. L'opérateur ?? indique que le contenu du paramètre sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.

w indique que la balise w sera utilisée pour marquer le découpage des mots dans la ligne. C'est la valeur par défaut.

w_n indique que la balise w sera utilisée pour marquer le découpage des mots dans la ligne et que le numéro du mot dans la ligne sera indiqué dans l'attribut n.

L'absence de valeur ( ...Aucun dans le menu) indique que le découpage des mots ne sera pas indiqué par une balise.


Exemple 1 - Texte exporté en XML-TEI avec milestone

<?xml version="1.0" encoding="utf-8"?>
<teiCorpus xmlns="http://www.tei-c.org/ns/1.0" xmlns:xi="http://www.w3.org/2001/XInclude">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Deux fables de La Fontaine<;/title>
</titleStmt>
<publicationStmt> <p>Document produit par le logiciel SATO</p></publicationStmt>
<sourceDesc> <p>fable</p></sourceDesc>
</fileDesc>
<encodingDesc>
<refsDecl>
<p>Les balises «milestone n="valeur-de-propriété" unit="nom-de-propriété"» concernent les mots qui suivent la balise jusqu'à l'apparition d'un nouveau milestone de même «unit».</p>
<p>Les références de pagination utilisent les balises pb (début de page), lb(début de ligne) et w (word).</p>

<p>Sauf pour les mots déjà marqués, le découpage en mots a été effectué par le logiciel SATO en utilisant les règles décrites dans les déclarations d'alphabet suivantes.</p>

<?sato cmd="Alphabet fr ,0 .0 ,1 .1 ,2 .2 ,3 .3 ,4 .4 ,5 .5 ,6 .6 ,7 .7 ,8 .8 ,9 .9 '_ aujourd' presqu'île presqu'ile 's *séparateur - , : ; . ? ¿ ! ... &#38;#2056; &#60; &#62; ( ) [ ] { } « » % $ £ ¢ ¥ # &#34; @ &#38; + = / \ | * ÷ ± ® ­ ¦ *terminal ' ´ ª º"?>
<?sato cmd="Information Corpus de démonstration"?>
</refsDecl>
</encodingDesc>
</teiHeader>

<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Deux fables de La Fontaine</title>
</titleStmt>
<publicationStmt> <p>Document produit par le logiciel SATO</p></publicationStmt>
<sourceDesc> <p>fable</p></sourceDesc> </fileDesc>
<encodingDesc>
<refsDecl>
<p> </p>
</refsDecl>
</encodingDesc>
</teiHeader>
<text type="tex" n="corbeau">
<body>
<pb n="corbeau/1"/>
<p xml:id="p1">
<!--*{ La fable suivante est de Jean De La Fontaine
____________________________________________ } -->
<lb n="1"/><milestone unit="locuteur" n="nil"/><w xml:id="w2">LE</w> <w xml:id="w3">CORBEAU</w> <w xml:id="w4">ET</w> <w xml:id="w5">LE</w> <w xml:id="w6">RENARD</w>
<lb n="2"/><w xml:id="w8">Maître</w> <w xml:id="w9"><c>C</c>orbeau</w>
<!-- Le reste de la fable est omis de l'exemple -->
</p>
</body>
</text>
</TEI>

<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Deux fables de La Fontaine&lt;/title>
</titleStmt>
<publicationStmt> <p>Document produit par le logiciel SATO</p></publicationStmt>
<sourceDesc> <p>fable</p></sourceDesc>
</fileDesc>
<encodingDesc>
<refsDecl>
<p> </p>
</refsDecl>
</encodingDesc>
</teiHeader>
<text type="tex" n="grenouil">
<body>
<pb n="grenouil/1"/>
<p xml:id="p2">
<!-- Le texte de la deuxième fable est omis de l'exemple -->
</p>
</body>
</text>
</TEI>
</teiCorpus>

Voici une description sommaire des balises utilisées par SATO pour dans cette traduction en XML-TEI.

Puisqu'il s'agit d'un fichier TEI, on retrouve d'abord une partie teiHeader qui documente le contenu du fichier. On retrouve ensuite autant d'éléments TEI qu'il y a de documents dans le corpus. à l'intérieur de chacun des éléments TEI on retrouve un élément teiHeader qui documente le contenu spécifique du document. Ensuite, on trouve un élément text avec un élément body qui correspond au contenu effectif du texte. Pour décrire le texte, on utilise généralement les balises suivantes.


Exemple 2 - Lexique exporté en XML-TEI avec structures de traits

<?xml version="1.0" encoding="utf-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Deux fables de La Fontaine</title>
</titleStmt>
<publicationStmt> <p>Document produit par le logiciel SATO</p></publicationStmt>
<sourceDesc> <p>fable</p></sourceDesc>
</fileDesc>
<encodingDesc>
<refsDecl>
<p> </p>
</refsDecl>
</encodingDesc>
</teiHeader>
<fsdDecl>
<fsDecl type="prolex">
<fsDescr>Définition des propriétés lexicales</fsDescr>
<fDecl name="Fréqtot"><fDescr></fDescr>
<vRange>
<numeric value="0" max="65535"/>
</vRange>
<vDefault><numeric value="1"/></vDefault>
</fDecl>

<fDecl name="Gramr"><fDescr></fDescr>
<vRange>
<vColl org="set">
<symbol value="nil" n="0"/>
<symbol value="Abr" n="1"/>
<symbol value="Adjdém" n="2"/>
<symbol value="Adjexc" n="3"/>
<symbol value="Adjind" n="4"/>
<symbol value="Adjint" n="5"/>
<symbol value="Adjnum" n="6"/>
<symbol value="Adjpos" n="7"/>
<symbol value="Adjqua" n="8"/>
<symbol value="Adjrel" n="9"/>
<symbol value="Adv" n="10"/>
<symbol value="Artdéf" n="11"/>
<symbol value="Artind" n="12"/>
<symbol value="Artpar" n="13"/>
<symbol value="Con" n="14"/>
<symbol value="Dél" n="15"/>
<symbol value="Int" n="16"/>
<symbol value="Mor" n="17"/>
<symbol value="Nomcom" n="18"/>
<symbol value="Nompro" n="19"/>
<symbol value="Ono" n="20"/>
<symbol value="Pon" n="21"/>
<symbol value="Pré" n="22"/>
<symbol value="Prodém" n="23"/>
<symbol value="Proexc" n="24"/>
<symbol value="Proind" n="25"/>
<symbol value="Proint" n="26"/>
<symbol value="Proper" n="27"/>
<symbol value="Propos" n="28"/>
<symbol value="Proréf" n="29"/>
<symbol value="Prorel" n="30"/>
<symbol value="Rés" n="31"/>
<symbol value="X" n="32"/>
<symbol value="Vaux" n="33"/>
<symbol value="Vconj" n="34"/>
<symbol value="Vinf" n="35"/>
<symbol value="Vparpas" n="36"/>
<symbol value="Vparpré" n="37"/>
</vColl>
</vRange>
<vDefault><symbol value="nil" n="0"/></vDefault>
</fDecl>

</fsDecl>

</fsdDecl>
<text type="lex">
<body>
<ab>
<fs xml:id="lex3" n=",">
<f name="Fréqtot"> <numeric value="24"/></f>
<f name="Gramr"> <symbol value="Pon"/></f>
</fs>

<fs xml:id="lex5" n=".">
<f name="Fréqtot"> <numeric value="12"/></f>
<f name="Gramr"> <symbol value="Pon"/></f>
</fs>

<fs xml:id="lex79" n="le">
<f name="Fréqtot"> <numeric value="8"/></f>
<f name="Gramr"> <vColl org="set"> 
	<symbol value="Artdéf"/> 
	<symbol value="Proper"/> 
</vColl></f> </fs>

<fs xml:id="lex149" n="un">
<f name="Fréqtot"> <numeric value="7"/></f>
<f name="Gramr"> <vColl org="set"> 
	<symbol value="Adjnum"/> 
	<symbol value="Artind"/> 
	<symbol value="Proind"/> 
</vColl></f> </fs>

<fs xml:id="lex6" n=":">
<f name="Fréqtot"> <numeric value="6"/></f>
<f name="Gramr"> <symbol value="Pon"/></f>
</fs>

<fs xml:id="lex2" n="&#34;">
<f name="Fréqtot"> <numeric value="6"/></f>
<f name="Gramr"> <symbol value="Dél"/></f>
</fs>

<fs xml:id="lex57" n="et">
<f name="Fréqtot"> <numeric value="6"/></f>
<f name="Gramr"> <symbol value="Con"/></f>
</fs>

<fs xml:id="lex147" n="tout">
<f name="Fréqtot"> <numeric value="6"/></f>
<f name="Gramr"> <vColl org="set"> 
	<symbol value="Adjind"/>
	<symbol value="Adjqua"/> 
	<symbol value="Adv"/> 
	<symbol value="Con"/> 
	<symbol value="Nomcom"/> 
	<symbol value="Proind"/> 
</vColl></f> </fs>

<fs xml:id="lex39" n="corbeau">
<f name="Fréqtot"> <numeric value="5"/></f>
<f name="Gramr"> <symbol value="Nomcom"/></f>
</fs>

<fs xml:id="lex41" n="de">
<f name="Fréqtot"> <numeric value="5"/></f>
<f name="Gramr"> <symbol value="Pré"/></f>
</fs>

<fs xml:id="lex51" n="en">
<f name="Fréqtot"> <numeric value="5"/></f>
<f name="Gramr"> <vColl org="set"> 
	<symbol value="Adv"/>
	<symbol value="Pré"/> 
	<symbol value="Proind"/> 
	<symbol value="Proper"/> 
</vColl></f> </fs>

<fs xml:id="lex121" n="qui">
<f name="Fréqtot"> <numeric value="5"/></f>
<f name="Gramr"> <vColl org="set"> 
	<symbol value="Proint"/> 
	<symbol value="Prorel"/> 
</vColl></f> </fs>
</ab>
</body>
</text>
</TEI>

Puisqu'il s'agit d'un fichier TEI, on retrouve d'abord une partie teiHeader qui documente le contenu du fichier. On trouve ensuite une partie fsdDecl (feature structure declaration) qui traduit la définition des propriétés SATO présentées avec le lexique dans un formalisme nommé structure de traits. Le système de structures de traits fait non seulement partie des recommandations de la TEI, mais il constitue aussi une norme ISO. On retrouve enfin une partie text de type lex qui correspond au contenu effectif du texte prenant ici la forme d'annotations référant au lexique du corpus.

L'anntotation lexicale utilisera les traits déjà définis. Chaque entrée lexicale annotée utilise une balise fs comme <fs xml:id="lex39" n="corbeau">. La valeur de l'attribut xml:id (ici lex39) renvoie au numéro de la forme lexicale dans le corpus. La valeur de l'attribut n est la forme graphique de l'entrée lexicale. Les éléments f qui suient correspondent à chacune des propriétés lexicales sous forme de trait. On a ensuite les valeurs de propriété introduites par leur type : numeric, symbolet vcoll suivi de symbol pour un ensemble de symboles.