SATO 5, Manuel de référence (septembre 2022) |
Analyseur Distance |
---|
... permet de comparer statistiquement les lexiques de deux sous-textes quelconques d'un corpus. Plus la distance calculée est grande, plus les deux sous-textes diffèrent dans l'utilisation d'un vocabulaire désigné. Pour utiliser l'analyseur, on doit d'abord compiler les fréquences des lexiques associés aux parties comparées. Ces fréquences doivent avoir été conservées dans des propriétés entières pour le lexique. |
Exploitation : Configuration : CARACTÉRISER { PONDÉRATION | PRÉSENTATION} Exemple : |
Introduction
Imaginons que nous ayons deux propriétés entières pour le lexique, f1 et f2. La première (f1) contient la fréquence des formes lexicales dans la fable Le corbeau et le renard. La seconde (f2) contient la fréquence de ces formes dans la fable La grenouille qui veut se faire aussi grosse que le boeuf.
Il serait intéressant de savoir jusqu'à quel point les fréquences obtenues en f1 s'écartent de celles obtenues en f2. En d'autres mots, ce que l'on veut, c'est savoir jusqu'à quel point l'utilisation d'un vocabulaire donné varie d'une fable à l'autre. La distance est donc ici une mesure d'originalité, de différenciation dans l'utilisation d'un vocabulaire donné dans deux sous-textes.
En termes géométriques, on peut voir les deux propriétés, par exemple f1 et f2, comme les coordonnées de deux points dans l'espace lexical (plus précisément le sous-espace des entrées lexicales sélectionnées par un filtre). Ces coordonnées représentent en fait les fréquences d'utilisation de chaque lexème dans deux sous-textes. L'analyseur DISTANCE calcule la distance entre ces deux points qui représentent les deux textes dans l'espace lexical.
Supposons, à titre d'illustration, que notre espace lexical ne soit composé que de trois formes : le point d'interrogation (?), la virgule (,) et le point d'exclamation (!). Les fréquences relatives d'utilisation de ces trois formes dans les deux sous-textes sont les suivantes :
? |
, |
! |
|
fable1 |
0.00% |
10.00% |
1.76% |
fable2 |
2.70% |
4.73% |
0.00% |
Ces chiffres peuvent être reportés sur un système d'axes : l'axe des fréquences d'utilisation du point d'interrogation, l'axe des fréquences d'utilisation de la virgule et l'axe des fréquences d'utilisation du point d'exclamation. f1 et f2 peuvent donc être associées à deux points dans cet espace à trois dimensions. La distance mesure l'éloignement entre ces deux points.
Alors que l'analyseur DISTANCE permet de qualifier l'utilisation d'un vocabulaire, on peut aussi mesurer, par l'analyseur PARTICIPATION, jusqu'à quel point le vocabulaire désigné, utilisé dans un sous-texte quelconque, s'écarte significativement de la moyenne d'un point de vue probabiliste. En termes imagés, on pourrait dire que PARTICIPATION mesure la masse relative d'un univers lexical, alors que DISTANCE en mesure les spécificités.
En termes algorithmiques, l'analyseur DISTANCE fonctionne de la façon suivante, en quatre étapes :
1- D'abord, on ramène les valeurs des deux propriétés, qui contiennent le nombre d'occurrences des formes lexicales pour chacun des deux sous-textes, à une même échelle exprimée en pourcentage. En d'autres mots, on considère les fréquences relatives plutôt que les fréquences absolues. Les fréquences relatives se calculent selon la formule suivante.
F(i) x 100 / Ft
où F(i) est la fréquence absolue d'une forme lexicale donnée multipliée par 100 et divisée par Ft, la somme des occurrences de toutes les formes dénombrées dans la propriété.
Pour l'option PROPRIÉTÉ, on utilise en numérateur la fréquence cumulée des formes qui possèdent une même valeur de propriété.
2- Ensuite, on calcule la distance entre les deux propriétés, considérées ici comme les coordonnées des points-textes dans l'espace lexical. Chaque axe de cet espace porte, en effet, la fréquence relative d'une forme lexicale, ou de l'ensemble des formes partageant une même valeur de propriété (option PROPRIÉTÉ). Les formes choisies sont sélectionnées par un filtre.
La mesure de distance utilisée est une mesure connue sous le nom de distance du Chi-carré (ou Chi2 ou Khi2). Voir Lebart et Salem (1994).
Distance du Khi2. Tj désigne le texte j et tji la fréquence pour le texte j de l’entrée lexicale i.
Distance euclidienne entre les textes X et Y. Les xi et yi et désignent la fréquence de l’entrée lexicale i pour les textes X et Y.
La distance du Chi2 a la particularité de pondérer les écarts de fréquence des formes lexicales par une fréquence moyenne. En effet, le carré de la distance est calculé de la manière suivante. Pour chacun des axes lexicaux, on calcule (t2i - t3i)2 / t1i, c'est-à-dire le carré de la différence des fréquences entre le sous-texte (T2) et le sous-texte (T3), le tout divisé par les fréquences de pondération associées au sous-texte de référence T1. Ce sont ces carrés qui seront triés du plus grand ou plus petit pour indiquer la contribution relative de chaque axe lexical à la distance totale. Finalement, la mesure affichée est la racine carrée de la somme des carrés.
La fréquence de pondération est généralement fréqtot, la fréquence calculée sur l'ensemble du corpus considéré comme texte de référence. Notons que ce texte de référence devrait être un sur-ensemble des deux autres.
Il ne faut pas confondre la distance du Chi2 avec le test du Chi2. Il s'agit bien ici d'une distance et non pas d'un test statistique basé sur une loi de distribution probabiliste. En complément de DISTANCE, on pourra utiliser l'ANALYSEUR PARTICIPATION pour faire un test statistique sur des écarts de fréquences entre divers sous-textes pour un ou plusieurs items lexicaux considérés comme un ensemble.
3- Après avoir calculé la distance, la commande ANALYSEUR DISTANCE repère les axes lexicaux qui contribuent le plus à cette mesure de distance. Ainsi peut-on voir quelles sont les formes (ou valeurs de propriété) qui marquent davantage l'originalité du vocabulaire d'une partie du corpus par rapport à une autre.
4- Finalement, pour chacun des axes, la commande fournit les items suivants :
la fréquence relative de la forme (ou des formes ayant la même valeur de propriété) dans le corpus de référence (pondération);
la fréquence relative calculée à partir de la première propriété;
la fréquence relative calculée à partir de la deuxième propriété;
la part relative en pourcentage de chacune des formes (ou valeurs de propriété) à la mesure de distance; ainsi on dira que l'écart dans l'utilisation du point d'interrogation explique 5.47% de la distance dans l'illustration présentée en introduction;
une colonne cumul nous donne la somme, ou la mesure cumulée, des pourcentages d'explication de la distance;
Finalement, on a la forme (ou valeur de propriété) correspondant à l'axe lexical. Le caractère * à la fin de la ligne indique que cet item lexical est sur-représenté dans le premier sous-texte. S'il s'agit d'une forme lexicale, on peut cliquer sur le mot pour activer le menu de catégorisation avec la possibilité de voir les contextes.
Syntaxe :
ANALYSEUR DISTANCE APPLIQUER propriété [PROPRIÉTÉ propriété] filtre
APPLIQUER lance l'exécution de l'analyseur.
L'analyseur requiert d'abord que l'on spécifie le nom des deux propriétés entières pour le lexique qui sont associées à chacune des parties du texte à comparer. Elles doivent contenir le nombre d'occurrences des formes dans les deux sous-textes que l'on veut comparer. Il est possible d'omettre le nom de la deuxième propriété en lui substituant le caractère ~ pour désigner les fréquences d'utilisation des mots dans le sous-texte complémentaire, c'est-à-dire le sous-texte défini comme l'ensemble du corpus excluant la partie du texte correspondant à la première propriété. Dans la présentation des résultats, la deuxième propriété sera alors représentée par ~propriété où «propriété» est le nom de la première propriété.
Le patron de fouille filtre permet de définir l'univers lexical sur lequel on veut faire porter la mesure de distance. Par exemple, on pourrait restreindre la mesure aux mots qui apparaissent plus d'une fois dans l'ensemble du texte. On pourrait tout aussi bien ne s'intéresser qu'aux mots constituant des qualificatifs : beau, belle, grosse, etc. La valeur implicite du filtre est «$» (tous les mots).
L'option PROPRIÉTÉ permet de fusionner les fréquences d'utilisation des lexèmes qui possèdent une même valeur de propriété symbolique lexicale. Les valeurs résultantes s'interprètent alors comme la fréquence d'utilisation de chacun des symboles de la propriété. Le mot clé PROPRIÉTÉ doit être suivi du nom de la propriété qui définira l'espace de référence de la commande DISTANCE.
Voir : Exemple
1 - Analyseur distance appliquer.
Caractériser permet de modifier certains traits de fonctionnement de l'analyseur.
Syntaxe :
ANALYSEUR DISTANCE CARACTÉRISER PONDERATION {?|?? variable|= propriété}
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
La distance du Chi2 utilisée dans l'algorithme de DISTANCE est une mesure pondérée par des valeurs de référence s'appliquant chacune à un des axes de l'espace lexical choisi. Ces valeurs de pondération sont contenues dans une propriété entière pour le lexique. Cette propriété est définie par défaut dans SATO lors de l'appel de l'analyseur de distance comme étant la propriété prédéfinie fréqtot. On peut modifier cette propriété de référence en caractérisant le trait PONDÉRATION auquel on peut associer une propriété entière pour le lexique. Cette nouvelle propriété sera utilisée lors du prochain appel à l'analyseur.
Caractériser Présentation
Syntaxe :
ANALYSEUR DISTANCE CARACTÉRISER PRÉSENTATION {?|?? variable|+ propriété|- propriété|= propriété}
Le trait PRÉSENTATION permet de sélectionner les propriétés qui feront partie de la présentation des résultats de l'analyseur distance. Ce trait contient la liste des propriétés qui seront présentées dans le tableau de distance en supplément des colonnes standards. Au départ, aucune propriété ne fait partie de cette liste de présentation.
Les opérateurs «+» et «-» indiquent que l'on veut ajouter ou retrancher des propriétés à la liste de présentation existante. L'opérateur «=» signifie que les propriétés indiquées remplaceront la liste existante.
Le paramètre propriété désigne le nom d'une propriété lexicale à inclure ou à exclure de la liste de présentation. Ce paramètre peut être répété et il est facultatif.
Si on procède à une sauvegarde (cf. QUITTER SAUVEGARDE ou PROPRIÉTÉ SAUVEGARDER), cette spécification sera conservée d'une session de travail à l'autre.
L'opérateur ? provoque l'affichage la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
Exemple: Appliquer
Exemple 1. Les propriétés lexicales entières «f1» et «f2» contiendront les fréquences des mots de la première et la deuxième fable respectivement. Les commandes TEXTE CARACTÉRISER SOUS-TEXTE permettront de définir les sous-textes et les fréquences lexicales de chacune des deux fables.
TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*page=corbeau Corbeau_renard NOUVEAU-LEXIQUE f1 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
nombre de mots dans le sous-texte Corbeau_renard : 170 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*page=grenouil Grenouille_boeuf nouveau-LEXIQUE f2 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
nombre de mots dans le sous-texte: 148 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ANALYSEUR DISTANCE APPLIQUER f1 f2 $*fréqtot>1 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
distance : 10.33 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Dans notre exemple, on a choisi comme liste de vocabulaire l'ensemble des formes minimalement fréquentes. L'astérisque apparaissant à la suite de certains mots est simplement un renvoi au premier texte (représenté par f1) et indique que le mot ainsi marqué appartient davantage à la première fable plutôt qu'à la seconde. Aussi, on voit que ce qui distingue le plus les deux fables dans l'utilisation de ce vocabulaire, c'est l'emploi très différencié du point d'interrogation et du trait d'union «-» qui accompagne l'inversion du pronom et du verbe dans la forme interrogative. De même, on remarque une utilisation très différente des particules de négation «n'» et «point». Les formes interrogatives et négatives caractérisent en effet de façon marquée notre deuxième fable.
On constate aussi que les noms corbeau, boeuf et grenouille sont, évidemment, utilisés de façon distincte dans l'une et l'autre fable. Cependant, comme ils sont peu fréquents dans le texte, ce ne sont pas eux qui contribuent le plus à maximiser la distance.