Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Rbrul pour les nuls1: Un petit guide illustré de l’analyse quantitative de variables catégoriques en linguistique
Meredith Tamminga, Université de Pensylvannie Dernière mise à jour le 16 septembre 2011
Traduit par Chantale Cenerini et rédigé par Naomi Nagy, mai 2016 Introduction
Ce guide fait le tour des étapes de base nécessaires à l’analyse statistique de variables linguistiques catégorielles dans le programme Rbrul, qui opère au sein du logiciel R. Nous ne chercherons pas ici à comprendre ou encore à interpréter les statistiques ni les variables continues et nous passerons à côté de la plupart des aspects de l’analyse de données exploratoire. Donc, si vous n’êtes pas sûr de la nature de vos variables, notamment si elles sont catégorielles ou continues, il vous faudra un autre guide.
Un petit mot sur la terminologie
R est, en réalité, un langage de programmation, mais vous pouvez le considérer un programme à télécharger sur votre ordinateur. Vous devez interagir avec le programme au moyen du clavier, en frappant des commandes plutôt que de cliquer des touches de fonction. C’est ce qu’on appelle une interface de ligne de commande (sans doute parce qu’il faut inscrire ses commandes en lignes horizontales…). Plusieurs gens trouvent que ces commandes sont difficiles à utiliser, car il faut apprendre exactement quoi écrire et quand.
Rbrul est un programme écrit en R. Quand vous voulez vous en servir, vous devez d’abord ouvrir R et ensuite ouvrir Rbrul dans R. Ce qui est bien, c’est qu’une fois que Rbrul est exécuté, le programme vous posera des questions à choix multiples : ainsi, vous n’avez pas à connaitre les commandes exactes à écrire dans R.
GoldVarb n’est pas écrit dans R mais ressemble un peu à Rbrul : il y a plusieurs désavantages à GoldVarb, dont le fait pratique que le format de fichier requis n’est pas très flexible ni facile à manipuler. Je crois que Rbrul est beaucoup plus facile à utiliser : c’est pourquoi ce guide se focalisera sur Rbrul et non GoldVarb. Si vous aimeriez apprendre à vous servir de GoldVarb, consultez l’ouvrage Analysing Sociolinguistic Variation (Tagliamonte 2006).
Démarrer dans R
Vous devez d’abord télécharger R. Rendez-‐vous à l’adresse http://cran.r-‐project.org/. La page doit ressembler à ceci :
1 Je dis ça aussi gentiment que possible: j’aurais voulu un guide détaillé comme celui-‐ci quand j’étais en train d’apprendre à me servir de logiciels informatiques pour mon analyse.
Rbrul pour les nuls -‐ M. Tamminga 2
Dans la fiche “Download and Install R”, choisissez le système d’exploitation de votre ordinateur. Puisque je me sers de MacOS 10.11.4, je cliquerais sur le lien MacOS X. La page MacOS X contient beaucoup de jargon technique que vous pouvez, pour la plupart, ignorer :
Si vous n’êtes pas certain de la version de MacOS X installée sur votre ordinateur, appuyez
Rbrul pour les nuls -‐ M. Tamminga 3
d’un clic de souris sur la petite pomme en haut à gauche de votre écran. Choisissez le lien “À propos de ce Mac/About This Mac”, puis “Aperçu/Overview” du menu déroulant.
Comme vous pouvez le voir sur la capture d’écran qui suit, la version 10.11.4. est en cours sur mon ordinateur, ce qui veut dire que je peux avoir accès à la version la plus récente de R.
Sous le titre “Files:”, choisissez le lien lisant “R-‐ 3.3.0.pkg”. Mon navigateur Internet (dans ce cas-‐ci, Firefox), me demande alors si je voudrais sauvegarder le fichier : je réponds oui!!
Assurez-‐vous de connaitre l’emplacement de votre téléchargement (mon navigateur Internet à moi me demande exactement où je veux sauvegarder mon fichier, mais le vôtre pourrait peut-‐être automatiquement le placer dans le dossier Téléchargements, ou ailleurs encore)!
Maintenant, retrouvez votre fichier téléchargé et faites un double-‐clic. J’avais sauvegardé le mien sur mon Bureau. L’icône ressemble à ceci :
Rbrul pour les nuls -‐ M. Tamminga 4
Une fois le double-‐clic effectué, l’installation de R sera amorcée. La fenêtre devrait ressembler à celle-‐ci:
L’installation du programme R est très intuitive: il vous suffit de répondre à toutes les questions à l’affirmative (Continue, Agree, Install, etc.).
Maintenant que R est installé, vous devriez pouvoir le trouver dans votre dossier Applications. Faites un double-‐clic pour ouvrir le programme. Il devrait ressembler à ceci :
Rbrul pour les nuls -‐ M. Tamminga 5
La fenêtre qui s’ouvre alors s’appelle le pupitre de commande, ou la console R. Votre curseur devrait apparaitre près de la flèche > : c’est ici que vous pouvez inscrire des commandes. Lorsque je vous apprendrez des commandes à écrire dans R, la couleur de la police sera verte. Je mettrai tout ce qui sera affiché sur la console sans que vous ayez à le frapper en bleu (comme la flèche >).
Il arrive parfois de voir des exemples de code R accompagnés de la flèche >. Je choisis de l’exclure des exemples que je présenterai pour les raisons suivantes -‐
1. Pour que vous puissiez facilement faire un copier-‐coller des commandes dans R. 2. Pour que vous sachiez qu’il n’est pas nécessaire pour vous de frapper une flèche >
lorsque vous écrivez vos commandes dans R.
Rbrul pour les nuls -‐ M. Tamminga 6
Vous pouvez vous permettre d’ignorer tout ce qui se trouve au-‐dessus de la première flèche > dans la console R. Vous êtes maintenant prêts à vous servir de Rbrul.
Démarrer avec Rbrul
Il y a deux étapes à prendre à chaque fois que vous voulez démarrer Rbrul. La première est d’exécuter la commande source et la deuxième, de faire tourner le programme. Après ces deux étapes, il ne sera plus nécessaire de se rappeler de commandes par cœur.
La commande source indique à R où trouver Rbrul (le code de Rbrul est stocké sur un site Internet). La commande à écrire dans la console R (à droite de la flèche >) est la suivante :
source("http://www.danielezrajohnson.com/Rbrul.R")
La partie source de la commande donne une action à R (notamment, de chercher un programme) et la partie entre parenthèses indique à R où compléter l’action (sur le site Web de Daniel Ezra Johnson, où est stocké le code pour Rbrul).
Assurez-‐vous de frapper la commande exactement comme elle est écrite ci-‐haut: par exemple, le premier s (de source) doit être minuscule, les parenthèses sont normales et il faut inclure les guillemets à l’intérieur des parenthèses. Il ne peut pas y avoir d’espace ou de ponctuation en trop. C’est peut-‐être plus facile de simplement copier-‐coller la commande telle quelle est ci-‐haut. Votre console devrait ressembler à ceci:
Rbrul pour les nuls -‐ M. Tamminga 7
Vous devez maintenant appuyer sur Entrée pour que R exécute la commande. R se mettra à réfléchir et vous saurez que l’action a été complétée lorsqu’une nouvelle flèche > apparaîtra au début de la prochaine ligne. Une fenêtre contextuelle de Google Analytics apparaîtra aussi : ignorez-‐la et même fermez-‐la.
Maintenant que cette première étape est terminée, il ne vous reste qu’à faire tourner, ou « allumer », le programme. La commande qu’il vous faut écrire dans R est la suivante :
rbrul()
Un instantané d’écran suit:
Rbrul pour les nuls -‐ M. Tamminga 8
SI VOUS POUVEZ Y ARRIVER AVANT LE DÉBUT DE L’ATELIER, SUPER!
Appuyez sur Entrée et votre console devrait ressembler à ceci2:
2 Si vous obtenez une erreur comme réponse comme celle-‐ci : Error in source("http://www.danielezrajohnson.com/Rbrul.R"): http://www.danielezrajohnson.com/Rbrul.R:1:1: unexpected '<' 1: < ^ ...répétez la commande une deuxième fois. Elle devrait ensuite par marcher sans problème (il s’agit d’un petit bogue sans danger qui se manifeste de temps à autre).
Rbrul pour les nuls -‐ M. Tamminga 9
Nous voici à la table des matières (MAIN MENU/ MENU PRINCIPAL) que vous pouvez voir au bas de la console. Celle-‐ci contient trois options, chacune portant un numéro:
• 1 – load/save data (charger/sauvegarder données) • 9 – reset (redémarrer) • 0 – exit (sortie)
Suivant ces trois options vous verrez un 1: d’une couleur différente. C’est là où vous frapperez le numéro de l’option que vous désirez choisir. Par exemple, parmi les options disponibles à présent, nous pouvons choisir de quitter le programme en écrivant 0.
Comme il l’est indiqué au-‐dessus de la table de matières, il n’y a pas encore de données chargées dans Rbrul. Notre prochaine étape sera donc de faire le chargement de nos données, mais d’abord, il faut préparer notre table de données pour qu’elle puisse être lue et traitée par Rbrul.
Organiser les données pour Rbrul
Présumons que vos données sont étalées sur une feuille de calcul dans Excel, puisque c’est un format très commun pour des tables de données. Le tableur doit être organisé d’une certaine façon pour qu’il soit compris par Rbrul:
Rbrul pour les nuls -‐ M. Tamminga 10
• Une des colonnes doit contenir la variable dépendante, ou la variable réponse. • Les autres colonnes doivent faire la liste des variables indépendantes (ou libres,
explicatives, descriptives). Vous ne pouvez pas organiser un tableur pour que chaque rangée représente un seul locuteur et que chaque colonne contienne une différente occurrence provenant de ce locuteur.3 (Voici un exemple de quoi faire : La variable dépendante est étalée dans la colonne A : le /r/ est soit présent (r), soit absent (0). Les quatre autres colonnes font la liste des variables indépendantes. Remarquez qu’il y a aucune abréviation : le nom de la variable « Magasin» et celui des valeurs (« Saks») sont instructifs (plutôt que de simplement inscrire « M » ou « S », respectivement), ce qui vous rendra la vie beaucoup plus facile et est un des avantages de Rbrul. Lorsqu’il y a plus d’une occurrence du (r) par locuteur, celles-‐ci sont réparties sur plusieurs rangées. L’ordre des rangées et/ou des colonnes n’est pas particulièrement important, pourvu que l’on traite d’une occurrence par rangée et d’une variable par colonne.
Enfin, il vous faudra aussi convertir votre fichier Excel en format .csv (valeurs séparées par des virgules) ou .txt. .csv s’agit d’un fichier texte qui peut être traité comme un tableur parce que les champs de données sont séparés par des virgules. Pour faire la conversion de votre fichier Excel en fichier .csv, cliquez sur Fichier !Enregistrer sous... dans Excel, et choisissez l’option CSV (valeurs séparées par des virgules) dans le menu déroulant Type.
3 Si vos données sont dans un autre format non-‐compatible avec Rbrul, il vous faudra sans doute un autre tutoriel.
Rbrul pour les nuls -‐ M. Tamminga 11
Assurez-‐vous de prendre note du nom et de l’emplacement de votre fichier!
Charger vos données dans Rbrul
Il est maintenant le temps de charger vos données dans Rbrul. Vous vous rappelez sans doute qu’il y avait trois options dans la table des matières : heureusement, l’une d’entre elles était justement celle de 1 -‐ load/save data (charger/sauvegarder données). Pour compléter cette action, il vous suffit de frapper 1 suivant le prompteur (en appuyant ensuite sur ‘Entrée’).
Rbrul pour les nuls -‐ M. Tamminga 12
Lorsque nous avons fait la saisie du 1, Rbrul nous dit qu’il n’y a pas encore de table de données chargée (et donc, il nous est impossible de sauvegarder quoi que ce soit), mais nous demande d’indiquer ce qui sépare les colonnes dans notre fichier. Puisque notre fichier est en format .csv, nous répondons c (en appuyant ensuite sur ‘Entrée’) pour ‘commas’ (virgules). Une fenêtre de navigation devrait ensuite apparaître pour que vous puissiez retrouver votre fichier. Cliquez ensuite sur ‘Ouvrir’ (Open).
Et voilà, votre table de données est maintenant stockée dans Rbrul! Vous en trouverez la preuve en consultant le titre Current data structure, qui contient des informations sur votre fichier et son organisation.
Voici donc un bon moment pour faire la pause et de regarder de plus près la lecture de votre tableur dans Rbrul. Les « facteurs » font référence aux titres des colonnes de votre tableur et les « valeurs », aux catégories possibles pour chaque facteur. Mais soyez vigilants! Si vous vous attardez sur l’image instantanée de ma session, vous constaterez
Rbrul pour les nuls -‐ M. Tamminga 13
peut-‐être qu’il se passe quelque chose d’un peu bizarre… Il semble en effet que la liste des valeurs du facteur « Emphase» contient « normal» deux fois: il en est de même pour la valeur « Saks» du facteur «Magasin» (et en plus on voit « Sak’s »). Le problème auquel nous faisons face ici, c’est que Rbrul est extrêmement précis dans la lecture du fichier de données. Si, par mégarde, vous faites la saisie d’un espace en trop dans une cellule à la fin d’un mot ou d’une valeur, Rbrul fera la distinction entre la valeur avec et sans espace. Vous pouvez faire un retour au document original pour corriger ces erreurs, ou simplement le faire dans Rbrul. Voici comment…
L’ajustement de données
Maintenant que vos données sont chargées, vous remarquerez que d’autres options sont apparues dans le MENU PRINCIPAL. Puisque nous voulons ajuster notre table de données, vous allez frapper 2 (adjust data) (dorénavant, je n’inclurai pas des captures d’écran de la console R entière, mais que les parties pertinentes).
L’option 2 nous amène au ADJUSTING MENU (Menu d’ajustements). Nous allons recodifier les valeurs qui avaient d’emblée sembler identiques pour nous que nous n’ayons qu’une valeur pour “normale”, et pour “Saks”. Frappez la touche 5 (recode) pour recodifier.
Rbrul pour les nuls -‐ M. Tamminga 14
Rbrul nous demande maintenant de préciser quel facteur nous aimerions recodifier. Pour commencer par le facteur «Emphase», nous allons frapper le 3.
La prochaine étape consiste à choisir quelles valeurs recodifier. Il est temps d’apprendre une chose importante sur Rbrul : lorsque vous voulez choisir deux options ou plus (par exemple, ici, les deux occurrences de « normal » que l’on veut combiner), ne frappez pas les deux chiffres sur la même ligne. Frappez plutôt le premier chiffre suivant le prompteur 1:, puis la touche Entrée et ensuite, le deuxième chiffre suivant le prompteur 2: qui apparaîtra. Comme suit :
Frappez le premier chiffre:
...et le deuxième:
Rbrul pour les nuls -‐ M. Tamminga 15
J’ai frappé un 2 puis un 3 parce que ce sont les chiffres assignés aux deux occurrences de «normal». Lorsque vous avez terminé de faire la saisie des options que vous voulez recodifier, frappez la touche Entrée une dernière fois.
Rbrul vous demandera ensuite comment vous voulez recodifier «normal» et «normal ». La réponse la plus logique ici serait normal, et c’est donc l’entrée que nous allons saisir au prompteur.
Nous sommes donc revenus à l’option de recodifier le facteur « Emphase». Puisque nous
Rbrul pour les nuls -‐ M. Tamminga 16
avons terminé, frappez Entrée : Rbrul vous demandera si vous voudriez recodifier à une nouvelle colonne.
Parce que nous sommes en train d’arranger une erreur dans l’entrée de données, nous voulons que la version recodifiée (ajustée) remplace l’ancienne version (non ajustée) de la valeur. Frappez alors la touche Entrée de nouveau4.
Avez-‐vous remarqué que Rbrul et moi vous faisons les mêmes indications ? Voilà une des raisons pourquoi le programme est assez facile à utiliser. Plutôt que de toujours avoir à se rappeler de commandes à saisir dans R, vous n’avez qu’à choisir parmi les options que vous offre Rbrul à chaque étape. Plutôt que d’écrire un roman, Rbrul est comme suivre les étapes d’un livre Choisis ta propre aventure.5
Rbrul fera alors un retour au menu d’ajustements (ADJUSTING MENU).
Je me suis donc premise de recodifier les erreurs dans les valeurs «Saks», « Saks » et «Sak’s» sans vous en faire le tour des étapes. Nous allons plutôt revenir au MENU PRINCIPAL en frappant la touche 9 à partir du menu d’ajustements (ADJUSTING MENU).
Ces manœuvres devraient commencer à vous sembler familières. 4 Si nous cherchions plutôt à jouer avec des différentes façons de codifier nos tables de données et voulions repêcher un ancien schéma de codage, chaque schéma doit se faire assigner une colonne. 5 Le programme R vous donne la liberté de faire ce que vous voulez avec vos données, tandis que Rbrul vous limite à une certaine boîte d’options et de résultats.
Rbrul pour les nuls -‐ M. Tamminga 17
Faire des tableaux croisés
La prochaine étape sera de parcourir nos données en créant des tableaux croisés. Frappez la touche 4.
Un tableau croisé nous permet de faire l’analyse de deux variables indépendantes à la fois. Nous allons faire un tableau croisé pour les facteurs «Magasin» et «Emphase». Chaque rangée de notre tableau représentera une valeur de la catégorie «Magasin» (parce qu’il y en a plusieurs et que l’espace vertical est illimité) et chaque colonne, une valeur de la catégorie «Emphase» (puisqu’il y en a seulement deux, et que l’espace horizontal est limité).
Nous allons ignorer l’option de créer des ‘pages’ pour le moment (c’est la façon de faire la tabulation croisée de plus que deux variables indépendantes à la fois), et nous contenter de frapper Entrée.
La variable dépendante de notre ensemble de données est la présence/absence de «r» à la fin du mot. Je veux maintenant voir le taux ou la moyenne d’emploi des réponses possibles, afin de comparer le montant de r-‐présent chez les employés de Saks dans les énonces emphatiques, ou chez les employés de Macy’s dans les énonces normales, par exemple.6
C’est maintenant le temps de choisir votre réponse/variable dépendante! Vous devez
6 Vous voudriez peut-‐être plutôt obtenir les données d’énumération si vous prévoyez faire un test statistique chi-‐carré. Si vous faites le rapport des tableaux croisés à d’autres, vous êtes mieux de faire appel aux proportions.
Rbrul pour les nuls -‐ M. Tamminga 18
indiquer si la variable est continue ou discrète:
Ce tutoriel, comme il l’est indiqué dans le titre, porte sur l’analyse des variables catégorielles. Donc, frappez la touche Entrée pour confirmer que le facteur «Variante» est binaire. Rbrul vous posera ensuite une question sur les valeurs:
Qu’est-‐ce que la valeur d’application? Eh bien, est-‐ce que vous voulez obtenir les pourcentages d’emploi des unités r-‐présent ou r-‐absent? Ça ne fait pas grand différence, pourvu que vous sachiez quelle valeur vous avez choisie. Dans ce cas-‐ci, nous choisirons les pourcentages d’emploi de la valeur «présent» ou « r ».
Rbrul pour les nuls -‐ M. Tamminga 19
Et voilà, mon tableau croisé est fait! Si Rbrul vous donne parfois une longue sortie de données, il est facile de ne pas s’en rendre compte et de se demander comment vous êtes arrivés au menu principal. Assurez-‐vous donc de défiler vers le haut pour jeter un coup d’œil à toutes les données de sortie que vous avez obtenues.
En consultant le tableau croisé, je peux conclure que les employés de Macys font peu de différence entre les énonces emphatiques (39%) et normales (36%), bien que pour les employés chez Klein, il y a un taux plus élevé de r-‐présent dans les énonces emphatiques (15%) que normales (6%).
En autres mots, j’ai découvert une interaction entre le magasin et l’emphase pour la production de /r/: c’est là l’utilité des tableaux croisés!
Si vous explorez la fonction « 6-‐plotting » dans le MENU PRINCIPAL, vous pouvez le vérifiez graphiquement :
Magasin
Variante
0.0
0.2
0.4
0.6
0.8
1.0
Klein Macys Saks
emphatique1
Klein Macys Saks
normal1
4thfloor