Qu’est-ce qu’un bon graphique statistique?
France | 9 février 2021
Par Anne-Claire Nonnotte
Nous vous proposons de découvrir un extrait de l'ouvrage Lecture critique et communication en sciences de la santé S’ouvre dans une nouvelle fenêtre
Qu’est-ce qu’un bon graphique statistique?
«Il n’y a qu’une seule beauté, celle de la vérité qui se révèle.» Auguste Rodin
L’essentiel à retenir
Un graphique doit montrer de la variation intéressante pour le lecteur.
La variable indépendante principale est habituellement représentée sur l’abscisse et la variable dépendante sur l’ordonnée.
Le graphique doit représenter correctement le niveau de mesure et de continuité des variables représentées.
Un graphique est dit intègre quand il représente correctement la nature et l’importance quantitative des données.
La non-proportionnalité peut résulter de données manquantes cachées, de variations de la taille d’échantillon, d’échelles variables ou d’échelles arithmétiques pour des données multiplicatives.
Variation intéressante pour le lecteur
Définition d’un graphique et de la variation intéressante
Un graphique statistique est une figure fondée sur des données recueillies sur des populations ou des échantillons. Un bon graphique doit montrer de la variation intéressante pour le lecteur. La variation peut ressortir de :
la forme de la distribution d’une ou plusieurs variables (figure 76.1);
de différences entre plusieurs groupes (figure 76.2);
ou d’une évolution dans le temps (figure 76.3).
L’intérêt doit résulter du caractère nouveau ou inattendu de la variation représentée ou de la révélation des caractéristiques principales de données complexes.
Objectifs des graphiques
Les objectifs des graphiques statistiques peuvent donc être de :
visualiser une distribution ; la visualisation d’une distribution peut utiliser des valeurs individuelles, un nombre d’observations ou des pourcentages ;
résumer une distribution; les distributions sont mieux résumées si le graphique montre les paramètres de tendance centrale (proportions, pourcentages, taux, moyennes, médianes…) et les paramètres de dispersion (écarts types, percentiles, intervalles de confiance…);
résumer un contraste entre plusieurs groupes; pour visualiser un contraste, un graphique peut comparer la distribution dans des sous-groupes. Les techniques possibles sont, d’une part, la visualisation de mesures de contraste, telles que les différences, les coefficients ou les rapports et, d’autre part, la stratification. La stratification consiste à r
épéter les graphiques pour des groupes définis par les catégories d’une ou plusieurs variables (figure 76.3).
Représentation correcte des variables
Abscisse horizontale et ordonnée verticale
La convention mathématique est, depuis Descartes, d’afficher la variable indépendante principale sur l’abscisse (l’axe horizontal) et la variable dépendante sur l’ordonnée (l’axe vertical). Si d’autres variables indépendantes peuvent affecter la relation entre variable indépendante principale et variable dépendante (cf. définitions chapitre 19), elles peuvent servir à réaliser la stratification du graphique. Quel que soit le nombre de variables utilisées dans le graphique, celui-ci doit refléter le niveau de mesure (cf. définition chapitre 38) et le degré de continuité de ces variables. Les règles graphiques nécessitent cependant de préciser la notion de niveau de mesure pour les variables quantitatives.
Variables quantitatives additives ou multiplicatives
Une variable quantitative peut être mesurée sur une échelle additive ou multiplicative. Dans ces deux types d’échelle, il y a un ordre logique et une mesure de distance entre les catégories. Dans les échelles additives, il n’y a pas de zéro absolu : la valeur de référence (le zéro de l’échelle de mesure) et l’étendue des valeurs observées dépendent de la nature du phénomène mesuré et des unités de mesure. Les différences, les coefficients et les rapports n’ont pas de zéro absolu et sont donc des mesures additives. Dans les échelles multiplicatives, le zéro est une vraie valeur de référence. L’étendue des valeurs observées dépend de la nature du phénomène observé et des unités de mesure ; elle peut inclure le vrai zéro ou non. Les nombres de sujets, les pourcentages et les taux ont un vrai zéro et sont donc des mesures multiplicatives.
Exemples
Échelles additives La pression artérielle (l’étendue des valeurs possibles varie selon qu’elle est mesurée en Pa, en bar, ou en mm Hg) et la température mesurée en degrés Celsius (il y a une différence constante de 15 °C entre 30 °C, 15 °C, 0 °C et – 15 °C, mais on ne peut pas dire que 30 °C est respectivement deux, trois et quatre fois les autres valeurs). Échelles multiplicatives La température mesurée en kelvins, les concentrations et le poids (des individus pesant 25, 50, 75, 100 et 125 kg ont une différence constante de poids [25 kg] et pèsent respectivement une, deux, trois, quatre et cinq fois plus que le premier individu).
Le temps peut être additif (année de naissance, mois de survenue) ou multiplicatif (durée de la maladie). Les paramètres de tendances centrales et de dispersion peuvent être additifs ou multiplicatifs, selon la nature du phénomène mesuré.
Intégrité graphique
Un graphique doit montrer toute la vérité et rien que la vérité. L’intégrité graphique est respectée quand la visualisation est une représentation correcte de la nature et de l’importance quantitative des données, que le contexte est une description claire de ce qui est montré et que certaines erreurs grossières sont évitées. Ces erreurs concernent le manque de clarté, la non-proportionnalité et la distorsion optique.
Manque de clarté
Le manque de clarté peut être lié à une mauvaise rédaction des titres, des légendes et des étiquettes. Par exemple, j’ai rédigé les titres et légendes des figures de ce chapitre et des suivants pour expliquer le type de graphique. Ces titres et légendes sont insuffisants pour expliquer la question posée, les méthodes utilisées et garantir la validité des données. Le manque de clarté peut aussi être dû à l’abondance de données inintéressantes et d’éléments non informatifs. Ces éléments non informatifs sont discutés dans le chapitre 77, car ils peuvent aussi être sources de distorsion optique.
Non-proportionnalité
La non-proportionnalité existe quand les représentations des données ne reflètent pas le type et le nombre de variables, les vraies valeurs des données individuelles ou l’importance des contrastes. Les données manquantes cachées et les variations de tailles de l’échantillon sont des sources de non proportionnalité. Par exemple, dans la figure 76.4A, rien n’indique que les tailles des échantillons n’étaient pas les mêmes aux différents temps d’observation. La figure 76.4B est plus «intègre» parce que la largeur de l’intervalle de confiance reflète les variations de la taille des échantillons. La non-proportionnalité peut aussi être due à l’utilisation d’échelles différentes sur les axes représentant les mêmes variables (figure 76.4, A et B, par exemple). L’utilisation de barres descendant jusqu’au zéro et d’échelles arithmétiques pour représenter des rapports est une source de non-proportionnalité déjà évoquée à propos de la causalité (cf. figure 49.1).
L'auteur
Louis Rachid Salmi est Professeur en santé publique ; ex-Directeur de l’Institut de santé publique, d’épidémiologie et de développement (ISPED) de l’université de Bordeaux ; Chercheur au Centre de recherche Inserm U-1219 ; Praticien hospitalier, responsable de l’Unité Méthodes d’Évaluation du Centre hospitalier universitaire de Bordeaux.
Vous venez de découvrir un extrait de l'ouvrage Lecture critique et communication en sciences de la santé S’ouvre dans une nouvelle fenêtre
© 2021, Elsevier Masson SAS. Tous droits réservés
Je découvre le livre S’ouvre dans une nouvelle fenêtre
Découvrez l'ensemble des articles dans cette spécialité S’ouvre dans une nouvelle fenêtre