SATO 4.4, Manuel de référence (mars 2007)
Table des matières | Définitions
Analyseur Participation
... permet de mesurer le pourcentage d'utilisation d'un vocabulaire décrit par un filtre. Si le filtre contient une propriété textuelle, le décompte portera sur les occurrences dans le texte et dans le sous-texte courant, s'il existe. Si le filtre ne contient pas de propriétés textuelles, le décompte s'effectuera à partir des fréquences contenues dans une ou plusieurs propriétés lexicales contenant la fréquence des occurrences dans des sous-textes.
Exploitation :
APPLIQUER

Algorithme
Indices

Exemples :
Exemple 1, 2 et 3 - Analyseur participation appliquer

Algorithme

L'analyseur PARTICIPATION s'emploie souvent en tandem avec l'analyseur DISTANCE. Alors que DISTANCE compare deux sous-textes dans un espace lexical multidimentionnel, PARTICIPATION compare les lexiques de plusieurs sous-textes en ne considérant qu'un seul axe lexical regroupant, s'il y a lieu, plusieurs entrées lexicales. Ainsi, lorsqu'un filtre concerne uniquement le lexique, l'analyseur pourra prendre en compte plusieurs propriétés lexicales entières correspondant aux fréquences dans divers sous-textes.

Si on fournit à l'analyseur un filtre qui fait référence à une propriété textuelle, SATO ne pourra pas effectuer son calcul en s'appuyant sur les fréquences lexicales. Il devra donc parcourir le texte pour calculer la proportion des occurrences recouvertes par le filtre. Le décompte se fera sur l'ensemble du corpus ou sur le sous-texte courant, s'il est actif.


Indices

Dans le cas d'un filtre purement lexical, plusieurs indices seront calculés pour chacune des propriétés lexicales entières associées à autant de sous-textes. La Couverture indique la dimension relative du sous-texte dans le corpus. Elle est calculée en divisant la somme des occurrences dans le sous-texte par le nombre d'occurrences dans l'ensemble du corpus. L'analyseur calcule aussi Lexèmes qui donne la proportion des lexèmes filtrés utilisés dans le sous-texte par rapport au nombre total de lexèmes dans le corpus. Occurrences calcule la fréquence relative d'utilisation de ces lexèmes dans le sous-texte. Enfin, la cote Z permet d'évaluer l'écart entre la fréquence relative des mots filtrés dans le sous-texte et fréquence relative calculée sur l'ensemble du corpus.

L'analyseur fournit aussi un indice statistique, la cote Z (scores centrés-réduits). Essentiellement, l'idée derrière l'utilisation de la cote Z est la suivante. La fréquence de la catégorie dans le corpus est considérée comme la moyenne d'une variable aléatoire X estimant la fréquence d'utilisation de la catégorie dans le discours. On nomme ici «catégorie» l'ensemble des mots recouverts par le filtre fourni à l'analyseur. L'algorithme utilise la loi normale comme modèle de distribution de la variable X.

Supposons qu'on ait créé des sous-textes sur la base de variables susceptibles de constituer des frontières du discours, par exemple entre les hommes et les femmes, entre les vieux et les jeunes, etc. On se demande si l'utilisation relative de la catégorie dans le sous-texte homme, par exemple, s'écarte de façon purement aléatoire de la moyenne d'utilisation dans l'ensemble du corpus. Si l'écart entre les deux fréquences dépasse deux écarts-types, par exemple, on sera tenté de rejeter l'hypothèse nulle et de considérer que la fréquence de la catégorie dans notre «sous-population» s'écarte significativement de celle de la population totale. Pour comparer la variable aléatoire X avec une courbe normale N(0,1), on la centre, en soustrayant la fréquence d'utilisation de la catégorie dans l'ensemble du corpus, et on la réduit en divisant par l'écart-type, ce qui nous donne la variable Z. L'estimé de l'écart-type dépend de la taille du sous-texte et de la fréquence de la catégorie. On le calcule par la formule suivante : F x (100.0- F) / NF est la fréquence relative de la catégorie et N est la taille du sous-texte. En comparant cette mesure normalisée de l'écart aux tables de la courbe N(0,1), on sera mieux en mesure d'en mesurer l'importance.


Appliquer

APPLIQUER lance l'exécution de l'analyseur.

Syntaxe :
ANALYSEUR PARTICIPATION APPLIQUER filtre

Le filtre est un patron de fouille qui définit la classe des formes lexicales dont on veut mesurer la participation au texte.

Syntaxe :
ANALYSEUR PARTICIPATION APPLIQUER filtre propriété

Si le filtre désignant les occurrences à comptabiliser ne contient pas de propriétés textuelles, il est nécessaire de fournir à l'analyseur PARTICIPATION le nom d'une propriété entière pour le lexique. Cette propriété pourrait correspondre au lexique d'un sous-texte (cf. TEXTE CARACTÉRISER SOUS-TEXTE). Dans ce cas, l'analyseur va donner le nombre et le pourcentage de lexèmes et d'occurrences calculés à partir de la propriété correspondant au lexique du sous-texte.


Exemples: Afficher

Voici des exemples d'utilisation de la commande PARTICIPATION.

Exemple 1. Le premier exemple permet de comptabiliser des occurrences décrites par un filtre qui contient une propriété textuelle.

ANALYSEUR PARTICIPATION AFFICHER $*Longueur=1*locuteur=lafont
Nombre d'occurrences dans le texte : 33 (10.38%)

Exemple 2. L'exemple suivant utilise un filtre qui ne contient pas de propriétés textuelles. De plus, en spécifiant que l'analyseur doit utiliser la propriété Fréqtot, on indique que le décompte doit porter sur le lexique total.

ANALYSEUR PARTICIPATION AFFICHER $*longueur=1 FréqTot
PropriétéCouvertureLexèmesOccurrences Cote Z
Fréqtot318/31811/16668/3180.00
100.00%6.63%21.38%

Exemple 3. Les exemples suivants vont porter sur des lexiques correspondant à des sous-textes. Ils font appel à deux propriétés entières pour le lexique, f1 et f2. Elles contiennent la fréquence des formes dans la première et la seconde fable respectivement.

PROPRIÉTÉ DÉFINIR f1 ENTIÈRE POUR LEXIQUE
propriété f1 entière pour lexique

 

TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*page=corbeau Corbeau_renard LEXIQUE f1
nombre de mots dans le sous-texte: 170

 

PROPRIÉTÉ DÉFINIR f2 ENTIÈRE POUR LEXIQUE
propriété f2 entière pour lexique

 

TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*page=grenouil Grenouille_boeuf LEXIQUE f2
nombre de mots dans le sous-texte: 148

 

ANALYSEUR PARTICIPATION AFFICHER $*longueur=1 f1 f2
PropriétéCouvertureLexèmesOccurrencesCote Z
f1170/3188/10338/1700.31
53.46% 7.77%22.35%

f2148/318 9/9430/148-0.33
46.54% 9.57%20.27%

On obtient ici le nombre de lexèmes filtrés et le cumul de leur fréquence relative calculée à partir de la propriété f1.

On obtient ici le nombre de lexèmes filtrés et le cumul de leur fréquence relative calculée à partir de la propriété f2

Ces résultats nous indiquent que les mots de longueur 1 constituent, respectivement, 22.35% des occurrences de la première fable et 20.27% des occurrences de la seconde. Dans l'exemple 2, on voyait que la fréquence des mots de longueur 1 pour l'ensemble du corpus était de 21.38%. Les écarts de fréquences dans chacune des fables par rapport à la fréquence calculée sur l'ensemble du corpus peuvent être ramenés l'échelle de la courbe normale centrée réduite (cote Z). Les valeurs obtenues ici (0.31 et -0.33) sont très près de la moyenne et indiquent qu'il ne semble pas y avoir de différences significatives dans l'utilisation des mots de longueur 1 entre les deux fables.