SATO 4.4, Manuel de référence (mars 2007)
Table des matières | Définitions
Analyseur Comptage
... permet de compter des objets dans chacun des segments ou contextes déjà produits par une commande SATO.

La commande produit deux types de résultats. D'abord, il y a le décompte lui-même qui est déposé dans le fichier d'extraction. Ce fichier en format ASCII pourra être transmis à un logiciel d'analyse de données tel SPSS, SAS, SPAD, etc. Ensuite, on obtient un sommaire qui contient un ensemble d'indices numériques mesurant la concentration et la dispersion des objets comptés sur l'ensemble des contextes.
Exploitation :
APPLIQUER { DIFFÉRENCES | FRÉQUENCES | LEXÈMES | MOTS | NOUVEAUX | VALEURS }
Gestion :
SUPPRIMER
Configuration :
CARACTÉRISER { EXTRACTION | SAUVEGARDE | SOMMAIRE }

Indices

Exemples :
Exemples 1 et 2 - Analyseur comptage appliquer

Indices

L'analyseur calcule d'abord des indices de répartition du décompte. Ces indices sont le nombre total d'occurrences, la moyenne par contexte des objets comptés et l'écart-type associé. On a finalement un indice de répartition, exprimé en pourcentage, qui indique la proportion de segments ou contextes où apparaît l'objet compté par rapport au nombre total de segments ou contextes. Si les objets comptés sont des occurrences de mots, la moyenne et l'écart-type seront calculés sur les fréquences relatives. La fréquence relative est le rapport entre le nombre d'occurrences de l'objet compté et le nombre total d'occurrences dans le segment ou contexte. Si les objets comptés sont des formes lexicales, la moyenne est le nombre total de formes comptées divisé par le nombre de segments ou contextes.

Pour les options FRÉQUENCES, MOTS et VALEURS, on obtient des indices complémentaires.

On a un indice discriminant dû à Salton et qui donne le poids discriminant maximum de l'objet compté pour l'ensemble des contextes considérés (cf. Salton, Gerald, Automatic Text Processing, The Transformation, Analysis, and Retrieval of Information by Computer, Addison Wesley 1989, p.279). Pour une forme lexicale donnée, cet indice est calculé de la façon suivante :

Fréq-max x ln(1/répartition)

Fréq-max est la plus grande des fréquences relatives du lexème calculées pour chacun des contextes, et répartition est le rapport entre le nombre de contextes où apparaît le lexème et le nombre total de contextes. x indique la multiplication et ln le logarithme naturel. Cette mesure est nulle lorsque l'indice de répartition est de 100% et elle croit de façon logarithmique avec la diminution de l'indice de répartition, comme cela est illustré dans le tableau suivant :

répartition (%) 100  90  80  70  60  50  30  10
ln(1/répartition) 0.0 0.11 0.22 0.36 0.51 0.69 1.20 2.30

Finalement, on a un Chi2 qui mesure l'écart entre les fréquences relatives observées et les fréquences relatives attendues sous l'hypothèse d'une répartition uniforme de l'objet compté. Le nombre de degrés de liberté du Chi2 est de n-1n est le nombre de contextes. Lorsque le nombre de degrés de liberté dépasse 30, on utilise plutôt la loi normale pour vérifier si l'écart type observé s'écarte significativement de la moyenne attendu. La mesure d'écart sera ramenée à l'échelle de la courbe normale centrée réduite, c'est-à-dire de moyenne 0 et de variance 1. C'est l'écart réduit, aussi appelé cote Z = (X - µ)/σ, où µ est la moyenne arithmétique et σ est l'écart type. X est la répartition observée et Z est sa transformation à comparer à la courbe normale centrée et réduite.

L'indice de Salton et la mesure du Chi2 (ou cote Z) n'ont pas la même portée. Le Chi2 s'applique aux objets fréquents ayant un fort taux de répartition. Inversement, l'indice de Salton, de nature heuristique, est destiné aux objets peu fréquents et ayant un faible taux de répartition.


Appliquer

APPLIQUER lance l'exécution de l'analyseur.

Six options s'appliquent à l'application : DIFFÉRENCES, FRÉQUENCES, LEXÈMES, MOTS, NOUVEAUX et VALEURS.

Les options DIFFÉRENCES et NOUVEAUX permettent de repérer l'arrivée de nouveaux termes dans le déroulement d'un texte. On peut donc avoir une idée des points de discontinuité correspondant à des changements de thème par exemple. DIFFÉRENCES donne le nombre de lexèmes du segment courant qui n'étaient pas présents dans le segment précédent. NOUVEAUX donne le nombre de lexèmes du segment courant qui n'apparaissaient dans aucun segment précédent. L'option LEXÈMES permet quant à elle d'évaluer la présence d'un vocabulaire donné dans les différents segments. Finalement, l'option MOTS évalue l'importance de l'utilisation (nombre d'occurrences) de ce vocabulaire.

L'option FRÉQUENCES est semblable à l'option MOTS. La différence tient à ceci : avec l'option MOTS, le décompte se fait sur l'ensemble des lexèmes désignés par un filtre; avec l'option FRÉQUENCES, le décompte s'effectue sur chacun des lexèmes désignés par un filtre.


Appliquer Différences

DIFFÉRENCES : pour compter le nombre de lexèmes d'un contexte qui diffèrent de ceux du contexte précédent.

Syntaxe :
ANALYSEUR COMPTAGE APPLIQUER DIFFÉRENCES filtre DANS nom

Les occurrences qui seront soumises au décompte sont désignées par le patron de fouille filtre; la valeur implicite du filtre est «$» (tous les mots).

Le paramètre nom sert à identifier la liste des résultats du décompte. Il suit la syntaxe du symbole, c'est-à-dire qu'il doit s'exprimer comme une chaîne alphanumérique ou comme une chaine de caractères entre guillemets anglais (").


Appliquer Fréquences

FRÉQUENCES : pour compter les fréquences (nombre d'occurrences par contexte) pour chacun des lexèmes.

Syntaxe :
ANALYSEUR COMPTAGE APPLIQUER FRÉQUENCES filtre

Les occurrences qui seront soumises au décompte sont désignées par le patron de fouille filtre; la valeur implicite du filtre est «$» (tous les mots).

L'option FRÉQUENCES ne requiert pas d'identificateur de liste. Les caractères de chacun des lexèmes désignés par le filtre serviront alors d'identificateurs.


Appliquer Lexèmes

LEXÈMES : pour compter le nombre de lexèmes par contexte.

Syntaxe :
ANALYSEUR COMPTAGE APPLIQUER LEXÈMES filtre DANS nom

Les occurrences qui seront soumises au décompte sont désignées par le patron de fouille filtre; la valeur implicite du filtre est «$» (tous les mots).

Le paramètre nom sert à identifier la liste des résultats du décompte. Il suit la syntaxe du symbole, c'est-à-dire qu'il doit s'exprimer comme une chaîne alphanumérique ou comme une chaine de caractères entre guillemets anglais (").

Voir : Exemple 2 - Analyseur comptage appliquer lexèmes.


Appliquer Mots

MOTS : pour compter le nombre d'occurrences par contexte pour l'ensemble des lexèmes.

Syntaxe :
ANALYSEUR COMPTAGE APPLIQUER MOTS filtre DANS nom

Les occurrences qui seront soumises au décompte sont désignées par le patron de fouille filtre; la valeur implicite du filtre est «$» (tous les mots).

Le paramètre nom sert à identifier la liste des résultats du décompte. Il suit la syntaxe du symbole, c'est-à-dire qu'il doit s'exprimer comme une chaîne alphanumérique ou comme une chaine de caractères entre guillemets anglais (").

Voir : Exemple 2 - Analyseur comptage appliquer mots.


Appliquer Nouveaux

NOUVEAUX : pour compter le nombre de lexèmes par contexte qui diffèrent de l'ensemble des contextes précédents.

Syntaxe :
ANALYSEUR COMPTAGE APPLIQUER NOUVEAUX filtre DANS nom

Les occurrences qui seront soumises au décompte sont désignées par le patron de fouille filtre; la valeur implicite du filtre est «$» (tous les mots).

Le paramètre nom sert à identifier la liste des résultats du décompte. Il suit la syntaxe du symbole, c'est-à-dire qu'il doit s'exprimer comme une chaîne alphanumérique ou comme une chaine de caractères entre guillemets anglais (").


Appliquer Valeurs

VALEURS : pour compter le nombre d'occurrences par contexte pour chacune des valeurs d'une propriété lexicale.

Syntaxe :
ANALYSEUR COMPTAGE APPLIQUER VALEURS filtre propriété

Les occurrences qui seront soumises au décompte sont désignées par le patron de fouille filtre; la valeur implicite du filtre est «$» (tous les mots).

L'option VALEURS ne requiert pas d'identificateur de liste. Dans ce cas, chacune des valeurs d'une propriété désignée servira d'identificateur.

Le paramètre propriété désigne le nom d'une propriété lexicale dont les valeurs serviront d'entrées aux décomptes.


Supprimer

Cette action supprime le contenu du fichier d'extraction, aussi appelé fichier de statistiques, sur lequel sont inscrits les résultats du comptage.


Caractériser

CARACTÉRISER permet de modifier certains traits de fonctionnement de l'analyseur. Ces paramètres sont : EXTRACTION, SOMMAIRE et SAUVEGARDE.


Caractériser Extraction
Syntaxe :
ANALYSEUR COMPTAGE CARACTÉRISER EXTRACTION {= OUI|= NON|?|?? variable}

La production du décompte pour chaque contexte et son inscription dans le fichier d'extraction n'est pas toujours nécessaire. Quelques fois, le sommaire suffit. Dans ce cas, on peut caractériser le trait EXTRACTION à la valeur NON. La valeur implicite du trait EXTRACTION est OUI.

L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.

Le fichier d'extraction accumule les résultats de la commande ANALYSEUR COMPTAGE d'une même session de travail. On peut manipuler ces listes de l'intérieur de SATO (cf. POSTE EXTRACTION). Comme SATO réinitialise le fichier «.sta» au début de chaque session de travail, on doit prendre la précaution de le renommer à la fin d'une session si on désire le conserver. Si on utilise le même nom de liste dans des commandes ANALYSEUR COMPTAGE successives, plusieurs listes portant ce nom vont se retrouver dans le fichier d'extraction.

Il est aussi possible de déposer différents résultats de comptage dans des fichiers distincts en changeant le nom du fichier d'extraction (cf. POSTE EXTRACTION CARACTÉRISER FICHIER).


Caractériser Sauvegarde
Syntaxe :
ANALYSEUR COMPTAGE CARACTÉRISER SAUVEGARDE {= OUI|= NON|?|?? variable}

Le décompte des lexèmes par l'option FRÉQUENCES produit divers indicateurs pour chacun des lexèmes sélectionnés. On peut conserver un ou plusieurs de ces indices en caractérisant le trait SAUVEGARDE à OUI.

L'option SAUVEGARDE permet de sauvegarder les résultats du sommaire dans des propriétés lexicales entières portant le nom d'une rubrique du sommaire, à savoir : «moyenne», «écart», «répart», «discri» et «chi2». L'affectation ne s'effectuera que si la propriété existe au moment du comptage. Seules les valeurs des lexèmes décrits dans le filtre seront modifiées. Comme les valeurs sont conservées dans une propriété entière, elles sont multipliées par le multiple approprié pour faire disparaître la partie fractionnaire. Ainsi, par exemple, un chi2 de 4.17 sera transformé en 417.

L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.


Caractériser Sommaire
Syntaxe :
ANALYSEUR COMPTAGE CARACTÉRISER SOMMAIRE {= OUI|= NON|?|?? variable}

Le sommaire fournissant divers indices statistiques sur la répartition des objets comptés peut être assez long, surtout avec l'option FRÉQUENCES. Aussi, si on sauvegarde les résultats du sommaire dans une propriété, on pourrait s'abstenir de faire afficher le sommaire. Dans ce cas, on peut caractériser le trait SOMMAIRE à la valeur NON. La valeur implicite du trait SOMMAIRE est OUI.

L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.


Exemples

Exemple 1. Si l'on a segmenté le texte en documents (cf. ANALYSEUR SEGMENTATION), la commande suivante comptera le nombre de virgules par document (ici les deux documents correspondent à chacune des deux fables) en identifiant le résultat sous le titre «virgule».

On notera que nous avons inséré «\» avant la virgule dans la commande parce que «,» est un caractère spécial dans un patron de caractères.

* ANALYSEUR COMPTAGE APPLIQUER MOTS \, DANS virgule

Nb-occ Moyenne Écart Répart. Discri. Chi2
247.36%2.64100.0%0.002.91 virgule

Les résultats s'interprètent de la façon suivante : l'algorithme a compté 24 virgules; la fréquence relative de la virgule par document est de 7.36% avec un écart type de 2.73; la virgule est répartie dans 100% des segments dans le sens qu'elle apparaît au moins une fois dans tous les segments; par conséquent, son indice de discrimination est nul; par ailleurs, le Chi2 de 2.91 (à un degré de liberté) est significativement élevé, c'est-à-dire que la fréquence relative de la virgule dans chacune des deux fables s'écarte significativement de l'hypothèse d'une distribution uniforme.

Exemple 2. De même, la commande suivante comptera le nombre de noms propres différents (lexèmes) dans chaque chaque document».

* ANALYSEUR COMPTAGE APPLIQUER LEXÈMES (A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,Q,R,S,T,U,V,W,X,Y,Z)$ DANS nomprop

Nb-occ Moyenne Écart Répart.
3 1.50 1.50 50.0% nomprop

Les noms propres sont repérés par la présence de lexèmes débutant par une majuscule. La répartition à 50% indique qu'il n'y a présence des noms propres quand dans un document sur deux. La moyenne correspond ici au nombre total d'objets comptés divisé par le nombre de segments.