SATO 5, Manuel de référence (septembre 2022)

Table des matières | Définitions

Analyseur Distance

... permet de comparer statistiquement les lexiques de deux sous-textes quelconques d'un corpus. Plus la distance calculée est grande, plus les deux sous-textes diffèrent dans l'utilisation d'un vocabulaire désigné.

Pour utiliser l'analyseur, on doit d'abord compiler les fréquences des lexiques associés aux parties comparées. Ces fréquences doivent avoir été conservées dans des propriétés entières pour le lexique.


Introduction

Algorithme

Exploitation :

APPLIQUER

Configuration :

CARACTÉRISER { PONDÉRATION | PRÉSENTATION}

Exemple :

Exemple 1 - Analyseur distance appliquer

Introduction

Imaginons que nous ayons deux propriétés entières pour le lexique, f1 et f2. La première (f1) contient la fréquence des formes lexicales dans la fable Le corbeau et le renard. La seconde (f2) contient la fréquence de ces formes dans la fable La grenouille qui veut se faire aussi grosse que le boeuf.

Il serait intéressant de savoir jusqu'à quel point les fréquences obtenues en f1 s'écartent de celles obtenues en f2. En d'autres mots, ce que l'on veut, c'est savoir jusqu'à quel point l'utilisation d'un vocabulaire donné varie d'une fable à l'autre. La distance est donc ici une mesure d'originalité, de différenciation dans l'utilisation d'un vocabulaire donné dans deux sous-textes.

En termes géométriques, on peut voir les deux propriétés, par exemple f1 et f2, comme les coordonnées de deux points dans l'espace lexical (plus précisément le sous-espace des entrées lexicales sélectionnées par un filtre). Ces coordonnées représentent en fait les fréquences d'utilisation de chaque lexème dans deux sous-textes. L'analyseur DISTANCE calcule la distance entre ces deux points qui représentent les deux textes dans l'espace lexical.

Supposons, à titre d'illustration, que notre espace lexical ne soit composé que de trois formes : le point d'interrogation (?), la virgule (,) et le point d'exclamation (!). Les fréquences relatives d'utilisation de ces trois formes dans les deux sous-textes sont les suivantes :

?

,

!

fable1

0.00%

10.00%

1.76%

fable2

2.70%

4.73%

0.00%

Ces chiffres peuvent être reportés sur un système d'axes : l'axe des fréquences d'utilisation du point d'interrogation, l'axe des fréquences d'utilisation de la virgule et l'axe des fréquences d'utilisation du point d'exclamation. f1 et f2 peuvent donc être associées à deux points dans cet espace à trois dimensions. La distance mesure l'éloignement entre ces deux points.

Alors que l'analyseur DISTANCE permet de qualifier l'utilisation d'un vocabulaire, on peut aussi mesurer, par l'analyseur PARTICIPATION, jusqu'à quel point le vocabulaire désigné, utilisé dans un sous-texte quelconque, s'écarte significativement de la moyenne d'un point de vue probabiliste. En termes imagés, on pourrait dire que PARTICIPATION mesure la masse relative d'un univers lexical, alors que DISTANCE en mesure les spécificités.


Algorithme

En termes algorithmiques, l'analyseur DISTANCE fonctionne de la façon suivante, en quatre étapes :

1- D'abord, on ramène les valeurs des deux propriétés, qui contiennent le nombre d'occurrences des formes lexicales pour chacun des deux sous-textes, à une même échelle exprimée en pourcentage. En d'autres mots, on considère les fréquences relatives plutôt que les fréquences absolues. Les fréquences relatives se calculent selon la formule suivante.

F(i) x 100 / Ft

F(i) est la fréquence absolue d'une forme lexicale donnée multipliée par 100 et divisée par Ft, la somme des occurrences de toutes les formes dénombrées dans la propriété.

Pour l'option PROPRIÉTÉ, on utilise en numérateur la fréquence cumulée des formes qui possèdent une même valeur de propriété.

2- Ensuite, on calcule la distance entre les deux propriétés, considérées ici comme les coordonnées des points-textes dans l'espace lexical. Chaque axe de cet espace porte, en effet, la fréquence relative d'une forme lexicale, ou de l'ensemble des formes partageant une même valeur de propriété (option PROPRIÉTÉ). Les formes choisies sont sélectionnées par un filtre.

La mesure de distance utilisée est une mesure connue sous le nom de distance du Chi-carré (ou Chi2 ou Khi2). Voir Lebart et Salem (1994).

Distance du Khi2. Tj désigne le texte j et tji la fréquence pour le texte j de l’entrée lexicale i.

Distance euclidienne entre les textes X et Y. Les xi et yi et désignent la fréquence de l’entrée lexicale i pour les textes X et Y.

La distance du Chi2 a la particularité de pondérer les écarts de fréquence des formes lexicales par une fréquence moyenne. En effet, le carré de la distance est calculé de la manière suivante. Pour chacun des axes lexicaux, on calcule (t2i - t3i)2 / t1i, c'est-à-dire le carré de la différence des fréquences entre le sous-texte (T2) et le sous-texte (T3), le tout divisé par les fréquences de pondération associées au sous-texte de référence T1. Ce sont ces carrés qui seront triés du plus grand ou plus petit pour indiquer la contribution relative de chaque axe lexical à la distance totale. Finalement, la mesure affichée est la racine carrée de la somme des carrés.

La fréquence de pondération est généralement fréqtot, la fréquence calculée sur l'ensemble du corpus considéré comme texte de référence. Notons que ce texte de référence devrait être un sur-ensemble des deux autres.

Il ne faut pas confondre la distance du Chi2 avec le test du Chi2. Il s'agit bien ici d'une distance et non pas d'un test statistique basé sur une loi de distribution probabiliste. En complément de DISTANCE, on pourra utiliser l'ANALYSEUR PARTICIPATION pour faire un test statistique sur des écarts de fréquences entre divers sous-textes pour un ou plusieurs items lexicaux considérés comme un ensemble.

3- Après avoir calculé la distance, la commande ANALYSEUR DISTANCE repère les axes lexicaux qui contribuent le plus à cette mesure de distance. Ainsi peut-on voir quelles sont les formes (ou valeurs de propriété) qui marquent davantage l'originalité du vocabulaire d'une partie du corpus par rapport à une autre.

4- Finalement, pour chacun des axes, la commande fournit les items suivants :


Appliquer

Syntaxe :

ANALYSEUR DISTANCE APPLIQUER propriété [PROPRIÉTÉ propriété] filtre

APPLIQUER lance l'exécution de l'analyseur.

L'analyseur requiert d'abord que l'on spécifie le nom des deux propriétés entières pour le lexique qui sont associées à chacune des parties du texte à comparer. Elles doivent contenir le nombre d'occurrences des formes dans les deux sous-textes que l'on veut comparer. Il est possible d'omettre le nom de la deuxième propriété en lui substituant le caractère ~ pour désigner les fréquences d'utilisation des mots dans le sous-texte complémentaire, c'est-à-dire le sous-texte défini comme l'ensemble du corpus excluant la partie du texte correspondant à la première propriété. Dans la présentation des résultats, la deuxième propriété sera alors représentée par ~propriété où «propriété» est le nom de la première propriété.

Le patron de fouille filtre permet de définir l'univers lexical sur lequel on veut faire porter la mesure de distance. Par exemple, on pourrait restreindre la mesure aux mots qui apparaissent plus d'une fois dans l'ensemble du texte. On pourrait tout aussi bien ne s'intéresser qu'aux mots constituant des qualificatifs : beau, belle, grosse, etc. La valeur implicite du filtre est «$» (tous les mots).

L'option PROPRIÉTÉ permet de fusionner les fréquences d'utilisation des lexèmes qui possèdent une même valeur de propriété symbolique lexicale. Les valeurs résultantes s'interprètent alors comme la fréquence d'utilisation de chacun des symboles de la propriété. Le mot clé PROPRIÉTÉ doit être suivi du nom de la propriété qui définira l'espace de référence de la commande DISTANCE.

Voir : Exemple 1 - Analyseur distance appliquer.


Caractériser permet de modifier certains traits de fonctionnement de l'analyseur.


Caractériser Ponderation

Syntaxe :

ANALYSEUR DISTANCE CARACTÉRISER PONDERATION {?|?? variable|= propriété}

L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.

La distance du Chi2 utilisée dans l'algorithme de DISTANCE est une mesure pondérée par des valeurs de référence s'appliquant chacune à un des axes de l'espace lexical choisi. Ces valeurs de pondération sont contenues dans une propriété entière pour le lexique. Cette propriété est définie par défaut dans SATO lors de l'appel de l'analyseur de distance comme étant la propriété prédéfinie fréqtot. On peut modifier cette propriété de référence en caractérisant le trait PONDÉRATION auquel on peut associer une propriété entière pour le lexique. Cette nouvelle propriété sera utilisée lors du prochain appel à l'analyseur.


Caractériser Présentation

Syntaxe :

ANALYSEUR DISTANCE CARACTÉRISER PRÉSENTATION {?|?? variable|+ propriété|- propriété|= propriété}

Le trait PRÉSENTATION permet de sélectionner les propriétés qui feront partie de la présentation des résultats de l'analyseur distance. Ce trait contient la liste des propriétés qui seront présentées dans le tableau de distance en supplément des colonnes standards. Au départ, aucune propriété ne fait partie de cette liste de présentation.

Les opérateurs «+» et «-» indiquent que l'on veut ajouter ou retrancher des propriétés à la liste de présentation existante. L'opérateur «=» signifie que les propriétés indiquées remplaceront la liste existante.

Le paramètre propriété désigne le nom d'une propriété lexicale à inclure ou à exclure de la liste de présentation. Ce paramètre peut être répété et il est facultatif.

Si on procède à une sauvegarde (cf. QUITTER SAUVEGARDE ou PROPRIÉTÉ SAUVEGARDER), cette spécification sera conservée d'une session de travail à l'autre.

L'opérateur ? provoque l'affichage la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.


Exemple: Appliquer

Exemple 1. Les propriétés lexicales entières «f1» et «f2» contiendront les fréquences des mots de la première et la deuxième fable respectivement. Les commandes TEXTE CARACTÉRISER SOUS-TEXTE permettront de définir les sous-textes et les fréquences lexicales de chacune des deux fables.

TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*page=corbeau Corbeau_renard NOUVEAU-LEXIQUE f1

nombre de mots dans le sous-texte Corbeau_renard : 170


TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*page=grenouil Grenouille_boeuf nouveau-LEXIQUE f2

nombre de mots dans le sous-texte: 148


ANALYSEUR DISTANCE APPLIQUER f1 f2 $*fréqtot>1

distance : 10.33
nombre d'items (dimensions lexicales) : 59
filtre : $*freq>1
pondération : Fréqtot


Liste des unités contribuant le plus à la distance :


Fréqtot f1 f2 explique cumul Item
1.258 0.000 2.703 5.449 5.449 ?
0.943 0.000 2.027 4.087 9.535 -
0.943 0.000 2.027 4.087 13.622 n'
0.943 0.000 2.027 4.087 17.708 point
0.943 0.000 2.027 4.087 21.795 veut
1.887 0.588 3.378 3.871 25.666 tout
7.547 10.000 4.730 3.453 29.120 , *
0.943 1.765 0.000 3.097 32.217 ! *
0.943 1.765 0.000 3.097 35.314 corbeau *
0.943 1.765 0.000 3.097 38.411 à *
0.629 0.000 1.351 2.724 41.136 boeuf
0.629 0.000 1.351 2.724 43.860 comme
0.629 0.000 1.351 2.724 46.585 elle
0.629 0.000 1.351 2.724 49.309 est
0.629 0.000 1.351 2.724 52.033 grenouille
0.629 0.000 1.351 2.724 54.758 grosse
0.629 0.000 1.351 2.724 57.482 la
0.629 0.000 1.351 2.724 60.207 m'
1.572 0.588 2.703 2.703 62.875 qui
0.629 1.176 0.000 2.065 64.939 Corbeau *
0.629 1.176 0.000 2.065 67.004 Monsieur *
0.629 1.176 0.000 2.065 69.069 bec *
0.629 1.176 0.000 2.065 71.134 ces *
0.629 1.176 0.000 2.065 73.199 fromage *
0.629 1.176 0.000 2.065 75.264 maître *
0.629 1.176 0.000 2.065 77.329 peu *
0.629 1.176 0.000 2.065 79.394 renard *
0.629 1.176 0.000 2.065 81.458 sa *
0.629 1.176 0.000 2.065 83.523 sans *
0.629 1.176 0.000 2.065 85.588 votre *
0.629 1.176 0.000 2.065 87.653 êtes *
2.516 3.529 1.361 1.769 89.422 le *
1.258 0.588 2.027 1.544 90.967 s'
1.258 0.588 2.027 1.544 92.511 y
2.201 2.941 1.361 1.077 93.588 un *
1.258 1.765 0.676 0.885 94.473 l' *
1.258 1.765 0.676 0.885 95.357 que *
1.258 1.765 0.676 0.885 96.242 vous *
0.943 0.588 1.351 0.579 96.821 bien
0.943 0.588 1.351 0.579 97.400 des
0.943 0.588 1.351 0.579 97.980 pas
1.887 2.353 1.351 0.499 98.479 " *
1.258 2.353 1.351 0.499 99.977 et *
1.572 1.176 2.027 0.432 99.409 en
0.943 1.176 0.676 0.249 99.659 ne *
1.572 1.765 1.351 0.102 99.761 de *
3.774 3.529 4.054 0.068 99.829 .
1.887 1.765 2.027 0.034 99.863 :
1.258 1.176 1.351 0.023 99.886 se
0.629 0.588 0.676 0.011 99.897 ;
0.629 0.588 0.676 0.011 99.909 belle
0.629 0.588 0.676 0.011 99.920 ce
0.629 0.588 0.676 0.011 99.932 du
0.629 0.588 0.676 0.011 99.943 lui
0.629 0.588 0.676 0.011 99.954 plus
0.629 0.588 0.676 0.011 99.966 pour
0.629 0.588 0.676 0.011 99.977 qu'
0.629 0.588 0.676 0.011 99.989 si
0.629 0.588 0.676 0.011 100.000 vit

Dans notre exemple, on a choisi comme liste de vocabulaire l'ensemble des formes minimalement fréquentes. L'astérisque apparaissant à la suite de certains mots est simplement un renvoi au premier texte (représenté par f1) et indique que le mot ainsi marqué appartient davantage à la première fable plutôt qu'à la seconde. Aussi, on voit que ce qui distingue le plus les deux fables dans l'utilisation de ce vocabulaire, c'est l'emploi très différencié du point d'interrogation et du trait d'union «-» qui accompagne l'inversion du pronom et du verbe dans la forme interrogative. De même, on remarque une utilisation très différente des particules de négation «n'» et «point». Les formes interrogatives et négatives caractérisent en effet de façon marquée notre deuxième fable.

On constate aussi que les noms corbeau, boeuf et grenouille sont, évidemment, utilisés de façon distincte dans l'une et l'autre fable. Cependant, comme ils sont peu fréquents dans le texte, ce ne sont pas eux qui contribuent le plus à maximiser la distance.

© Centre ATO, UQAM.