Table des matières | Définitions SATO 4.4, Manuel de référence (décembre 2009)
Analyse de la distance (pas-à-pas)
L'analyseur distance permet de repérer ce qui distingue deux parties d'un corpus en analysant l'utilisation d'un vocabulaire donné dans chacune des deux parties. Dans SATO, ces parties sont appelées des sous-textes. L'analyse est basée sur la distance du Chi2 (Chi carré ou Chi deux) appliquée aux fréquences lexicales de chacun des deux sous-textes à comparer. Par le calcul de distance, on cherche à mesurer la variation d'un vocabulaire donné d'un sous-texte à un autre. La distance est donc ici une mesure d'originalité ou de différenciation dans l'utilisation d'un vocabulaire entre deux sous-textes. L'analyseur distance permet aussi d'indiquer quelles sont les formes lexicales, ou les valeurs de propriété de ces formes, qui contribuent le plus à la distance entre les deux sous-textes. La particularité de la distance du Chi2 est qu'elle pondère, pour chaque unité de vocabulaire, l'écart de fréquence entre les sous-textes par la fréquence de cette unité de vocabulaire dans l'ensemble du corpus, par exemple. Ainsi, un écart de 1% pour un article fréquent comme « le » contribuera moins à la mesure de distance qu'un écart de 1% pour un mot plus rare.

Ce guide propose une description, illustrée pas-à-pas, des opérations techniques à effectuer pour procéder à l'analyse de la distance. Dans ce tutoriel, nous assumons que plusieurs sous-textes ont déjà été créés. Les étapes de création de sous-textes sont illustrées dans le tutoriel Sous-texte avec un filtre (pas-à-pas). Cette illustration suppose une connaissance préalable de notions générales liées à SATO, telle l'utilisation de l'interface web. Voir le chapitre Présentation du logiciel SATO dans le Manuel de référence.

1. Choix du formulaire

Dans cet exemple, nous désirons analyser les caractéristiques lexicales qui distinguent un sous-texte d'un autre. Cette illustration présume que nous avons déjà créé au moins deux sous-textes dans notre corpus. Pour plus d'information sur cette opération, on pourra consulter les tutoriels Sous-texte avec un filtre (pas-à-pas) et Scénario (pas-à-pas). Pour illustrer le fonctionnement de l'analyseur distance, nous ferons appel au corpus public dit du Discours constitutionnel canadien (DCC), qui contient les transcriptions de rondes de discussion tenues entre 1941 et 1987 portant sur la constitution canadienne. Dans ce corpus, nous avons déjà créé plusieurs sous-textes correspondant, respectivement, aux allocutions des représentants du gouvernement fédéral, des gouvernements des provinces des Maritimes, ainsi que des représentants des Autochtones et des Inuits. Pour chacun de ces sous-textes, nous avons défini une propriété lexicale entière qui contient la fréquence des mots utilisés dans le sous-texte.

Pour activer l'analyse de distance, dans le menu de SATO à gauche de l'écran, nous choisissons Analyseur, ensuite, Distance et Appliquer tel que présenté dans l'illustration 1 ci-dessous.

Illustration 1. Choix du formulaire

Illustration 1. Choix du formulaire

2. Choix de la propriété associée au premier sous-texte

Dans un premier temps, nous allons comparer le lexique du sous-texte des déclarations des représentants des Autochtones et Inuits avec celui de l'ensemble des autres représentants (provinciaux et fédéraux). Pour ce faire, dans la liste des propriétés lexicales entières, nous choisissons LexReprAu. Pour rappel, c'est cette propriété qui contient la fréquence des mots utilisés dans le sous-texte des déclarations des représentants des Autochtones et Inuits (cf. étape #5 de la création d'un scénario). On poursuit en cliquant sur le bouton Continuer.

Illustration 2. Sélection du premier sous-texte

Illustration 2. Sélection du la propriété associée au premier sous-texte

3. Choix de la propriété associée au second sous-texte et choix du vocabulaire à comparer

SATO nous demande maintenant de choisir la propriété associée au second sous-texte. Pour comparer les déclarations des représentants des Autochtones et Inuits avec celles de tous les autres représentants, nous choisissons l'étoile (*) dans le menu déroulant du formulaire (voir point 1 sur l'illustration 3 ci-dessous). Dans le contexte de cette commande, l'étoile signifie pour SATO: tout le texte qui est différent du premier sous-texte. La fréquence des mots du deuxième sous-texte sera donc calculée par le logiciel comme la différence entre la fréquence des mots dans l'ensemble du corpus et la fréquence des mots dans le premier sous-texte.

Ensuite, SATO demande d'entrer un filtre lexical qui permet de limiter l'analyse de la distance à un ensemble donné d'entrées dans le lexique du corpus. Ce filtre peut être utilisé pour sélectionner des formes lexicales possédant certaines catégories socio-sémantiques, grammaticales, distributionnelles (par ex: fréquence) ou morphologiques (par ex: longueur). Dans cet exemple, nous sélectionnons tous les mots qui ont une fréquence totale dans le corpus supérieure à trois occurrences et dont la longueur, en nombre de lettres, est supérieure à deux. Comme on le voit dans l'illustration 3 au point 2, la syntaxe pour ce filtre est la suivante: $*fréqtot>3*longueur>2.

NOTE: SATO permet d'abrévier le nom des propriétés à leur plus petite forme non-commune. Ainsi, la propriété longueur peut être abréviée dans le filtre par long tant et aussi longtemps qu'il n'y a pas d'autres propriétés qui commencent par les lettres long. C'est la même chose pour la propriété fréqtot qui peut être désignée par sa forme plus courte freq parce qu'il n'y a aucune autre propriété dans le corpus qui commence par freq. La casse et l'accentuation ne sont pas prises en compte dans le nom des propriétés. Si l'on prend l'exemple des propriétés créées dans le tutoriel Scénario (pas-à-pas) (LxReprFd, LxReprAu, LxReprMa et LxReprQc), il est impossible pour SATO de déterminer quelle propriété invoquer si on utilise uniquement LxRepr. En revanche, LxReprA est suffisant pour invoquer la propriété LxReprAu.

Illustration 3. Choix du second sous-texte et du filtre

Illustration 3. Choix du second sous-texte et du filtre

Dans les options du point 3 de l'illustration 3, nous choisissons Aucune parce que nous cherchons à comparer des formes lexicales et non des valeurs de propriété. Ensuite, nous cliquons sur le bouton Soumettre.


4. Lecture et interprétation des résultats

Une fois l'analyseur distance appliqué, nous obtenons une page de résultat (cf. illustration 4). Parce que cette page présente de nombreuses informations, elle peut paraitre très complexe. Cependant, elle devrait s'interpréter plus facilement une fois que chaque zone de la page aura été expliquée.

Illustration 4. Lecture et interprétation des résultats

Illustration 4. Lecture et interprétation des résultats

5. Autre exemple d'utilisation de distance

Nous venons de comparer le sous-texte des déclarations des représentants autochtones et inuits avec le reste du corpus, soit avec les déclarations des représentants des provinces et celles du gouvernement fédéral. Maintenant, nous cherchons à différencier le lexique des déclarations des représentants autochtones et inuits (LexReprAu) avec leur contrepartie fédérale (LxReprFd) uniquement. Pour choisir le premier sous-texte, nous effectuons les mêmes opérations que celles effectuées précédemment (cf. étape #2 Choix de la propriété associée au premier sous-texte). .

Illustration 5. Choix d'un autre sous-texte à comparer

Illustration 5. Choix d'un autre sous-texte à comparer

Ensuite, nous allons spécifiquement indiquer à SATO que nous voulons comparer LexReprAu avec LxReprFd (cf. point 1 de l'illustration 5). Pour le reste de l'opération, nous faisons comme nous l'avons fait à l'étape #3 (Choix de la propriété associée au second sous-texte et choix du vocabulaire à comparer), nous allons comparer les mots qui ont une fréquence totale supérieure à trois occurrences et dont le nombre de lettres est supérieur à deux. On clique sur le bouton Soumettre.


6. Lecture et interprétation des nouveaux résultats

Une fois l'analyseur distance appliqué, nous obtenons une page de résultat (cf. illustration 6). Cette page s'interprète de la même manière que la précédente (cf. étape #4 Lecture et interprétation des résultats). Cependant, nous relèverons plusieurs éléments nouveaux.

Illustration 6. Lecture et interprétation des nouveaux résultats

Illustration 6. Lecture et interprétation des nouveaux résultats

Comme on le voit, l'analyseur distance permet par comparaison et par contraste entre différentes parties du corpus de mieux saisir leurs les particularités du discours. La comparaison entre deux sous-textes permet d'établir des hypothèses; la comparaison d'un sous-texte avec plusieurs autres sous-textes permet de renforcer ou d'invalider certaines de ces hypothèses. La section suivante de ce guide montre comment retourner aux contextes pour mieux saisir le sens des mots repérés par l'analyseur distance.

7. Utilisation du KWIC

Le KWIC (ou Keyword in context, mot-clé en contexte) est un outil très utile en analyse de texte assistée par ordinateur. Il permet de situer un mot dans son contexte d'énonciation. Dans SATO, le KWIC est disponible à partir du menu de catégorisation qui apparait dans la fenêtre du bas lorsqu'on clique sur un mot. Dans l'exemple présenté ci-dessous (cf. illustration 7), lorsqu'on clique sur le mot autonomie SATO nous donne accès au menu de catégorisation qui présente diverses informations lexicale et textuelles à propos du mot.

Illustration 7. Appel des informations lexicales et textuelles à propos du mot autonomie

Illustration 7. Appel des informations lexicales et textuelles à propos du mot autonomie

Ensuite, dans le menu de catégorisation, on clique sur le lien KWIC. Ce lien fait apparaitre tous les segments de phrase dans lesquels le mot autonomie apparait tel que présenté dans l'illustration 8 ci-dessous.

Illustration 8. KWIC du mot autonomie

Illustration 8. KWIC du mot autonomie