SATO 5 Manuel

Analyseur Distance
SATO 5, Manuel de référence (septembre 2022)
Table des matières \| Définitions
... permet de comparer statistiquement les lexiques de deux sous-textes quelconques d'un corpus. Plus la distance calculée est grande, plus les deux sous-textes diffèrent dans l'utilisation d'un vocabulaire désigné. Pour utiliser l'analyseur, on doit d'abord compiler les fréquences des lexiques associés aux parties comparées. Ces fréquences doivent avoir été conservées dans des propriétés entières pour le lexique.
Introduction Algorithme Exploitation : APPLIQUER Configuration : CARACTÉRISER { PONDÉRATION \| PRÉSENTATION} Exemple : Exemple 1 - Analyseur distance appliquer

Introduction

Imaginons que nous ayons deux propriétés entières pour le lexique, f1 et f2. La première (f1) contient la fréquence des formes lexicales dans la fable Le corbeau et le renard. La seconde (f2) contient la fréquence de ces formes dans la fable La grenouille qui veut se faire aussi grosse que le boeuf.

Il serait intéressant de savoir jusqu'à quel point les fréquences obtenues en f1 s'écartent de celles obtenues en f2. En d'autres mots, ce que l'on veut, c'est savoir jusqu'à quel point l'utilisation d'un vocabulaire donné varie d'une fable à l'autre. La distance est donc ici une mesure d'originalité, de différenciation dans l'utilisation d'un vocabulaire donné dans deux sous-textes.

En termes géométriques, on peut voir les deux propriétés, par exemple f1 et f2, comme les coordonnées de deux points dans l'espace lexical (plus précisément le sous-espace des entrées lexicales sélectionnées par un filtre). Ces coordonnées représentent en fait les fréquences d'utilisation de chaque lexème dans deux sous-textes. L'analyseur DISTANCE calcule la distance entre ces deux points qui représentent les deux textes dans l'espace lexical.

Supposons, à titre d'illustration, que notre espace lexical ne soit composé que de trois formes : le point d'interrogation (?), la virgule (,) et le point d'exclamation (!). Les fréquences relatives d'utilisation de ces trois formes dans les deux sous-textes sont les suivantes :

	?	,	!
fable1	0.00%	10.00%	1.76%
fable2	2.70%	4.73%	0.00%

Ces chiffres peuvent être reportés sur un système d'axes : l'axe des fréquences d'utilisation du point d'interrogation, l'axe des fréquences d'utilisation de la virgule et l'axe des fréquences d'utilisation du point d'exclamation. f1 et f2 peuvent donc être associées à deux points dans cet espace à trois dimensions. La distance mesure l'éloignement entre ces deux points.

Alors que l'analyseur DISTANCE permet de qualifier l'utilisation d'un vocabulaire, on peut aussi mesurer, par l'analyseur PARTICIPATION, jusqu'à quel point le vocabulaire désigné, utilisé dans un sous-texte quelconque, s'écarte significativement de la moyenne d'un point de vue probabiliste. En termes imagés, on pourrait dire que PARTICIPATION mesure la masse relative d'un univers lexical, alors que DISTANCE en mesure les spécificités.

Algorithme

En termes algorithmiques, l'analyseur DISTANCE fonctionne de la façon suivante, en quatre étapes :

1- D'abord, on ramène les valeurs des deux propriétés, qui contiennent le nombre d'occurrences des formes lexicales pour chacun des deux sous-textes, à une même échelle exprimée en pourcentage. En d'autres mots, on considère les fréquences relatives plutôt que les fréquences absolues. Les fréquences relatives se calculent selon la formule suivante.

F(i) x 100 / Ft

où F(i) est la fréquence absolue d'une forme lexicale donnée multipliée par 100 et divisée par Ft, la somme des occurrences de toutes les formes dénombrées dans la propriété.

Pour l'option PROPRIÉTÉ, on utilise en numérateur la fréquence cumulée des formes qui possèdent une même valeur de propriété.

2- Ensuite, on calcule la distance entre les deux propriétés, considérées ici comme les coordonnées des points-textes dans l'espace lexical. Chaque axe de cet espace porte, en effet, la fréquence relative d'une forme lexicale, ou de l'ensemble des formes partageant une même valeur de propriété (option PROPRIÉTÉ). Les formes choisies sont sélectionnées par un filtre.

La mesure de distance utilisée est une mesure connue sous le nom de distance du Chi-carré (ou Chi2 ou Khi2). Voir Lebart et Salem (1994).

Distance du Khi2. T_j désigne le texte j et t_jila fréquence pour le texte j de l’entrée lexicale i.

Distance euclidienne entre les textes X et Y. Les x_i et y_i et désignent la fréquence de l’entrée lexicale i pour les textes X et Y.

La distance du Chi2 a la particularité de pondérer les écarts de fréquence des formes lexicales par une fréquence moyenne. En effet, le carré de la distance est calculé de la manière suivante. Pour chacun des axes lexicaux, on calcule (t_2i - t_3i)² / t_1i, c'est-à-dire le carré de la différence des fréquences entre le sous-texte (T₂) et le sous-texte (T₃), le tout divisé par les fréquences de pondération associées au sous-texte de référence T₁. Ce sont ces carrés qui seront triés du plus grand ou plus petit pour indiquer la contribution relative de chaque axe lexical à la distance totale. Finalement, la mesure affichée est la racine carrée de la somme des carrés.

La fréquence de pondération est généralement fréqtot, la fréquence calculée sur l'ensemble du corpus considéré comme texte de référence. Notons que ce texte de référence devrait être un sur-ensemble des deux autres.

Il ne faut pas confondre la distance du Chi2 avec le test du Chi2. Il s'agit bien ici d'une distance et non pas d'un test statistique basé sur une loi de distribution probabiliste. En complément de DISTANCE, on pourra utiliser l'ANALYSEUR PARTICIPATION pour faire un test statistique sur des écarts de fréquences entre divers sous-textes pour un ou plusieurs items lexicaux considérés comme un ensemble.

3- Après avoir calculé la distance, la commande ANALYSEUR DISTANCE repère les axes lexicaux qui contribuent le plus à cette mesure de distance. Ainsi peut-on voir quelles sont les formes (ou valeurs de propriété) qui marquent davantage l'originalité du vocabulaire d'une partie du corpus par rapport à une autre.

4- Finalement, pour chacun des axes, la commande fournit les items suivants :

la fréquence relative de la forme (ou des formes ayant la même valeur de propriété) dans le corpus de référence (pondération);
la fréquence relative calculée à partir de la première propriété;
la fréquence relative calculée à partir de la deuxième propriété;
la part relative en pourcentage de chacune des formes (ou valeurs de propriété) à la mesure de distance; ainsi on dira que l'écart dans l'utilisation du point d'interrogation explique 5.47% de la distance dans l'illustration présentée en introduction;
une colonne cumul nous donne la somme, ou la mesure cumulée, des pourcentages d'explication de la distance;
Finalement, on a la forme (ou valeur de propriété) correspondant à l'axe lexical. Le caractère * à la fin de la ligne indique que cet item lexical est sur-représenté dans le premier sous-texte. S'il s'agit d'une forme lexicale, on peut cliquer sur le mot pour activer le menu de catégorisation avec la possibilité de voir les contextes.

Appliquer

Syntaxe :

ANALYSEUR DISTANCE APPLIQUER propriété [PROPRIÉTÉ propriété] filtre

APPLIQUER lance l'exécution de l'analyseur.

L'analyseur requiert d'abord que l'on spécifie le nom des deux propriétés entières pour le lexique qui sont associées à chacune des parties du texte à comparer. Elles doivent contenir le nombre d'occurrences des formes dans les deux sous-textes que l'on veut comparer. Il est possible d'omettre le nom de la deuxième propriété en lui substituant le caractère ~ pour désigner les fréquences d'utilisation des mots dans le sous-texte complémentaire, c'est-à-dire le sous-texte défini comme l'ensemble du corpus excluant la partie du texte correspondant à la première propriété. Dans la présentation des résultats, la deuxième propriété sera alors représentée par ~propriété où «propriété» est le nom de la première propriété.

Le patron de fouille filtre permet de définir l'univers lexical sur lequel on veut faire porter la mesure de distance. Par exemple, on pourrait restreindre la mesure aux mots qui apparaissent plus d'une fois dans l'ensemble du texte. On pourrait tout aussi bien ne s'intéresser qu'aux mots constituant des qualificatifs : beau, belle, grosse, etc. La valeur implicite du filtre est «$» (tous les mots).

L'option PROPRIÉTÉ permet de fusionner les fréquences d'utilisation des lexèmes qui possèdent une même valeur de propriété symbolique lexicale. Les valeurs résultantes s'interprètent alors comme la fréquence d'utilisation de chacun des symboles de la propriété. Le mot clé PROPRIÉTÉ doit être suivi du nom de la propriété qui définira l'espace de référence de la commande DISTANCE.

Voir : Exemple 1 - Analyseur distance appliquer.

Caractériser permet de modifier certains traits de fonctionnement de l'analyseur.

Caractériser Ponderation

Syntaxe :

ANALYSEUR DISTANCE CARACTÉRISER PONDERATION {?|?? variable|= propriété}

L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.

La distance du Chi2 utilisée dans l'algorithme de DISTANCE est une mesure pondérée par des valeurs de référence s'appliquant chacune à un des axes de l'espace lexical choisi. Ces valeurs de pondération sont contenues dans une propriété entière pour le lexique. Cette propriété est définie par défaut dans SATO lors de l'appel de l'analyseur de distance comme étant la propriété prédéfinie fréqtot. On peut modifier cette propriété de référence en caractérisant le trait PONDÉRATION auquel on peut associer une propriété entière pour le lexique. Cette nouvelle propriété sera utilisée lors du prochain appel à l'analyseur.

Caractériser Présentation

Syntaxe :

ANALYSEUR DISTANCE CARACTÉRISER PRÉSENTATION {?|?? variable|+ propriété|- propriété|= propriété}

Le trait PRÉSENTATION permet de sélectionner les propriétés qui feront partie de la présentation des résultats de l'analyseur distance. Ce trait contient la liste des propriétés qui seront présentées dans le tableau de distance en supplément des colonnes standards. Au départ, aucune propriété ne fait partie de cette liste de présentation.

Les opérateurs «+» et «-» indiquent que l'on veut ajouter ou retrancher des propriétés à la liste de présentation existante. L'opérateur «=» signifie que les propriétés indiquées remplaceront la liste existante.

Le paramètre propriété désigne le nom d'une propriété lexicale à inclure ou à exclure de la liste de présentation. Ce paramètre peut être répété et il est facultatif.

Si on procède à une sauvegarde (cf. QUITTER SAUVEGARDE ou PROPRIÉTÉ SAUVEGARDER), cette spécification sera conservée d'une session de travail à l'autre.

L'opérateur ? provoque l'affichage la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.

Exemple: Appliquer

Exemple 1. Les propriétés lexicales entières «f1» et «f2» contiendront les fréquences des mots de la première et la deuxième fable respectivement. Les commandes TEXTE CARACTÉRISER SOUS-TEXTE permettront de définir les sous-textes et les fréquences lexicales de chacune des deux fables.

TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*page=corbeau Corbeau_renard NOUVEAU-LEXIQUE f1

nombre de mots dans le sous-texte Corbeau_renard : 170

TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*page=grenouil Grenouille_boeuf nouveau-LEXIQUE f2

nombre de mots dans le sous-texte: 148

ANALYSEUR DISTANCE APPLIQUER f1 f2 $*fréqtot>1

distance : 10.33
nombre d'items (dimensions lexicales) : 59
filtre : $*freq>1
pondération : Fréqtot

Liste des unités contribuant le plus à la distance :

Fréqtot	f1	f2	explique	cumul	Item
1.258	0.000	2.703	5.449	5.449	?
0.943	0.000	2.027	4.087	9.535	-
0.943	0.000	2.027	4.087	13.622	n'
0.943	0.000	2.027	4.087	17.708	point
0.943	0.000	2.027	4.087	21.795	veut
1.887	0.588	3.378	3.871	25.666	tout
7.547	10.000	4.730	3.453	29.120	, *
0.943	1.765	0.000	3.097	32.217	! *
0.943	1.765	0.000	3.097	35.314	corbeau *
0.943	1.765	0.000	3.097	38.411	à *
0.629	0.000	1.351	2.724	41.136	boeuf
0.629	0.000	1.351	2.724	43.860	comme
0.629	0.000	1.351	2.724	46.585	elle
0.629	0.000	1.351	2.724	49.309	est
0.629	0.000	1.351	2.724	52.033	grenouille
0.629	0.000	1.351	2.724	54.758	grosse
0.629	0.000	1.351	2.724	57.482	la
0.629	0.000	1.351	2.724	60.207	m'
1.572	0.588	2.703	2.703	62.875	qui
0.629	1.176	0.000	2.065	64.939	Corbeau *
0.629	1.176	0.000	2.065	67.004	Monsieur *
0.629	1.176	0.000	2.065	69.069	bec *
0.629	1.176	0.000	2.065	71.134	ces *
0.629	1.176	0.000	2.065	73.199	fromage *
0.629	1.176	0.000	2.065	75.264	maître *
0.629	1.176	0.000	2.065	77.329	peu *
0.629	1.176	0.000	2.065	79.394	renard *
0.629	1.176	0.000	2.065	81.458	sa *
0.629	1.176	0.000	2.065	83.523	sans *
0.629	1.176	0.000	2.065	85.588	votre *
0.629	1.176	0.000	2.065	87.653	êtes *
2.516	3.529	1.361	1.769	89.422	le *
1.258	0.588	2.027	1.544	90.967	s'
1.258	0.588	2.027	1.544	92.511	y
2.201	2.941	1.361	1.077	93.588	un *
1.258	1.765	0.676	0.885	94.473	l' *
1.258	1.765	0.676	0.885	95.357	que *
1.258	1.765	0.676	0.885	96.242	vous *
0.943	0.588	1.351	0.579	96.821	bien
0.943	0.588	1.351	0.579	97.400	des
0.943	0.588	1.351	0.579	97.980	pas
1.887	2.353	1.351	0.499	98.479	" *
1.258	2.353	1.351	0.499	99.977	et *
1.572	1.176	2.027	0.432	99.409	en
0.943	1.176	0.676	0.249	99.659	ne *
1.572	1.765	1.351	0.102	99.761	de *
3.774	3.529	4.054	0.068	99.829	.
1.887	1.765	2.027	0.034	99.863	:
1.258	1.176	1.351	0.023	99.886	se
0.629	0.588	0.676	0.011	99.897	;
0.629	0.588	0.676	0.011	99.909	belle
0.629	0.588	0.676	0.011	99.920	ce
0.629	0.588	0.676	0.011	99.932	du
0.629	0.588	0.676	0.011	99.943	lui
0.629	0.588	0.676	0.011	99.954	plus
0.629	0.588	0.676	0.011	99.966	pour
0.629	0.588	0.676	0.011	99.977	qu'
0.629	0.588	0.676	0.011	99.989	si
0.629	0.588	0.676	0.011	100.000	vit

Dans notre exemple, on a choisi comme liste de vocabulaire l'ensemble des formes minimalement fréquentes. L'astérisque apparaissant à la suite de certains mots est simplement un renvoi au premier texte (représenté par f1) et indique que le mot ainsi marqué appartient davantage à la première fable plutôt qu'à la seconde. Aussi, on voit que ce qui distingue le plus les deux fables dans l'utilisation de ce vocabulaire, c'est l'emploi très différencié du point d'interrogation et du trait d'union «-» qui accompagne l'inversion du pronom et du verbe dans la forme interrogative. De même, on remarque une utilisation très différente des particules de négation «n'» et «point». Les formes interrogatives et négatives caractérisent en effet de façon marquée notre deuxième fable.

On constate aussi que les noms corbeau, boeuf et grenouille sont, évidemment, utilisés de façon distincte dans l'une et l'autre fable. Cependant, comme ils sont peu fréquents dans le texte, ce ne sont pas eux qui contribuent le plus à maximiser la distance.