Lecteur assidu de nos pages, vous savez déjà à quel point il est important d’avoir des données bien ordonnées pour des traitements statistiques efficaces. Et parce qu’on ne les rencontre pas toujours (qui a dit « jamais » ?) dans la nature, voici quelques conseils pour construire vos bases de données correctement, pour travailler avec justesse et éviter à vos collègues une séance d’arrachage de cheveux.
Parce qu’un tutoriel fonctionne mieux par l’exemple, imaginons donc que vous soyez interne en médecine, travaillant sur un processus expérimental (toute ressemblance avec des personnes ayant réellement existé…). Nous aurions donc pu titrer cet article « Comment réaliser une base de données lorsque l’on est étudiant en médecine et que l’on y connaît rien » — mais cet exercice pouvant être utile à bien d’autres secteurs, ne soyez pas effrayés : ces conseils peuvent s’appliquer à tous.
Considérons qu’à ce stade de notre aventure, vous n’avez plus qu’à « remplir votre base » : votre problématique et votre protocole sont bien définis, et vous êtes désormais face à votre tableur vide, sur le point de le remplir. So, now what? Car, vous connaissez l’adage, il y a mille façons de mal faire, et bien souvent une seule de bien faire. Disons-le : tant que la base de donnée pour votre thèse n’est pas parfaitement mise en forme, il vous sera difficile d’analyser efficacement vos données. Mais ne vous inquiétez pas, ThinkR est là pour vous aider à créer une base de données claire ! Voici dix commandements à suivre pour éviter de tomber dans les pièges classiques.
Notez que beaucoup de gens appellent une série de feuilles Excel, une base de données. C’est ce dont nous parlons dans cet article, même si ce n’est peut-être pas la meilleure appellation. Pour les bases de données au sens de SQL, le commandement 1 peut ne pas être adapté, mais les autres doivent être pris en compte lors de la construction des tables de base de données…
Sommaire
Commandement 1 : Tu feras tenir toutes les données dans un seul tableau
Eh oui, pas question de dispatcher ses données dans trois onglets de son tableur, et encore moins dans plusieurs fichiers. Répétons-le : un seul tableau pour vos données.
Commandement 2 : Tu respecteras une mise en page précise
Pour une base parfaite, suivez une règle précise : la table se remplit case par case en commençant en haut, à gauche, et surtout, sans sauter de ligne.
Commandement 3 : Une ligne = un individu statistique
Pas toujours simple de saisir ce qu’est un individu statistique. En clair, une réponse à l’enquête équivaut à un individu de votre protocole expérimental. Si une personne physique répond deux fois, vous pourrez placer ces deux entrées sur deux lignes.
Commandement 4 : Une colonne = une variable
Une variable correspond à une caractéristique mesurable sur l’individu statistique. Par exemple, le sexe, l’âge, ou encore la couleur des yeux : pour ces variables à modalités disjointes (c’est-à-dire pour laquelle la réponse peut être soit une modalité soit une autre, et pas plusieurs), chaque variable doit correspondre à une colonne — il ne s’agit pas de créer une colonne « homme » remplie de « oui/non », et une colonne « femme », complétée de la même manière, mais une seule, « sexe », variant entre homme et femme sur les lignes correspondantes.
Pour des modalités qui peuvent se recouper, utilisez plusieurs colonnes. Par exemple, si vos patients présentent certains symptômes (mal aux yeux, mal au nez, mal au cou), vous devrez ici créer une colonne par symptôme, en remplissant vos lignes par oui et non.
Commandement 5 : Tu ne coderas pas tes variables qualitatives
Évitez au maximum le codage pour les variables qualitatives : inutile par exemple d’insérer un codage 1/2 pour faire référence au genre, préférez directement « femme » et « homme », pour une meilleure lisibilité. Si vraiment vous tenez à noter numériquement des facteurs, limitez-vous à un 1/0 pour signifier une présence/absence, un oui/non. Pas plus !
Et surtout (amateur d’Excel, attention !) : ne codez pas vos variables avec des couleurs ou encore des gras / italique / souligné. Pas de « témoin en bleu, cas en rouge » : rien de pire que ce format pour perdre de l’information lors de l’export de ces données. Tout du moins, si vraiment cela vous tient à coeur, vous pouvez utiliser quelques couleurs — mais ce ne doit pas être votre unique repère, qui est illisible par R, comme par l’immense majorité des interfaces de gestion de base de données.
Commandement 6 : Ta base ne contiendra que les données
Il n’est pas rare de croiser des bases visiblement mis en forme pour l’esthétique, qui possèdent des titres, des espaces vides, des textes en annotation, des explications, et bien d’autres choses plus ou moins exotiques autour des données… Rien de pire que ce type de format pour se casser la tête à l’import dans R. Alors, répétez après nous : la base ne doit contenir QUE la base.
Et si vous avez des commentaires à mettre, vous pouvez toujours leur réserver une colonne spécifique.
Commandement 7 : Homogène, tu resteras
Pour la lecture comme pour le traitement, il est indispensable de suivre une notation homogène. Par exemple, ne mélangez pas « garçon », « homme », « masculin ». Si vous choisissez l’un des trois, il faudra vous y tenir tout du long… en respectant au détail près : R est sensible à la casse, et aux espaces, « Homme 1 » ne sera donc pas la même chose qu’« homme 1 », ni même que« homme1 » ou « homme_1 ». Quant aux données manquantes, laissez une case vide, tout simplement. En clair, pour vos noms de colonnes : exit les « m1 glycemie », « taux glucose mois3 », « glycemie mois6 », préférez plutôt « glycemie_mois_1 », « glycemie_mois_3 » et « glycemie_mois_6 » !
Commandement 8 : Tu respecteras tes variables numériques
Vous entrez des données numériques dans votre base. Très bien, mais veillez bien à ce qu’elle ne soit que numérique ! Par exemple, l’âge du patient devra être uniquement chiffré, pas de « 25 ans », juste « 25 ».
Quant aux dates, pour une gestion simplifiée, choisissez une notation universelle, nativement reconnue par R : YYYY-MM-DD (année-mois-jour). Sans oublier de respecter le commandement 7, en uniformisant le format !
Commandement 9 : Tu anonymiseras ta base
N’oubliez pas d’anonymiser votre base de données (encore plus si vous êtes interne de médecine). Si vous souhaitez communiquer, partager ou publier vos résultats, pas question de laissez les identités des individus tels quels : numérotez-les, en gardant dans une autre base la correspondance de ces références avec les noms, prénoms, dossier… et toutes les informations qui ne sont pas pertinentes à l’analyse statistique.
Commandement 10 : Tu garderas ta base compréhensible par l’humain
Tout au long de votre création de bases, il ne faudra pas l’oublier : vos données doivent être parfaitement lisibles par la machine… mais aussi par l’homme ! Que ce soit par vous ou par l’un de vos collègues, votre base doit être compréhensible et lisible : nommez vos variables pour vous comprendre à nouveau lorsque vous ouvrirez votre base dans 6 mois, en évitant le piège de la facilité, qui vous ferait écrit G1, G2, G3… plutôt que glycemie_mois1, glycemie_mois2.
Voilà, vous connaissez maintenant toutes les clés pour une base de données propre. Pour en savoir plus, n’hésitez pas à nous contacter, nous serons ravis de vous en dire plus !
[…] dans la recherche médicale, l’anonymisation est primordiale (on vous en parlait déjà ici : forcément, il y a une fonction pour ça […]
[…] le blog de ThinkR, une fois que vous savez faire un beau jeu de données, on vous parle des représentations graphiques. Par exemple : “Il n’y a pas que ggplot dans la […]