Étude Godbout—St-Cerny sur l’évolution des revenus – Deuxième problème de méthode : la fiabilité des données

26 août 2015

FF

Francis Fortier

Je poursuis ici mes réflexions sur l’étude de Luc Godbout et Suzie St-Cerny portant sur l’évolution des revenus des ménages. Dans un précédent billet, j’ai exposé ma première réserve méthodologique (très importante me semble-t-il) à propos du choix des années. J’aimerais me concentrer maintenant sur une partie très précise de l’étude, partie à laquelle on a offert une importante couverture médiatique.

Dans cette partie, Luc Godbout et Suzie St-Cerny développent une méthodologie pour comparer les revenus individuels entre 1976 et 2011. Brièvement, ceux-ci appliquent un poids aux différents individus dans les ménages et calculent non pas le revenu familial, mais le revenu attribuable à chacun des individus composant le ménage. Par exemple, une famille gagnant 60 000$ (en dollars constants) annuellement, mais qui était composée en 1976 de 6 personnes, aura un revenu pour chacun des membres de la famille de 24 995$, tandis qu’une famille avec le même revenu en 2011, mais composée de 4 personnes aura un revenu individuel de 30 000$. Ensuite, les auteur·e·s font une analyse comparative de l’évolution des revenus individuels selon le type de ménage (seul, couple sans enfants, avec enfants, monoparental) et par quintile. C’est cet usage des quintiles qui pose problème sur le plan méthodologique.

Pourquoi est-ce un problème de projeter les résultats de la recherche sur l’ensemble de la population? Parce que dans ce cas-ci, l’échantillon est trop petit.

Normalement, lorsque nous voulons faire de la projection d’une donnée statistique, nous vérifions sa validité avec des indicateurs de qualité. Celui qui est le plus souvent utilisé est le coefficient de variation (CV). Comme l’explique Statistique Canada : «Les indicateurs de qualité sont basés sur le coefficient de variation (CV) et le nombre d’observations. Ils indiquent ce qui suit : A – Excellent (CV entre 0 % et 2 %); B – Très bon (CV entre 2 % et 4 %); C – Bon (CV entre 4 % et 8 %); D – Acceptable (CV entre 8 % et 16 %); E – À utiliser avec prudence (CV supérieur ou égal à 16 %)»

D’abord, il faut noter qu’aucune référence à l’utilisation d’un indicateur de qualité n’est faite dans l’étude. Comme nous l’avons vu dans le billet précédent, lorsque les revenus sont séparés selon le type de ménage, il y a des variations importantes d’une année à l’autre. Si nous regardons les CV de ces données, ils sont souvent au-dessus de 8% et quelque fois au-dessus de 16%. Ce qui veut dire que les données vont de «acceptable» à «à utiliser avec prudence». Il aurait été préférable que l’étude spécifie cet élément sur la fiabilité des données utilisées, mais nous demeurons dans le spectre du statistiquement acceptable pour la projection sur la population.

Le problème est que le travail de fragmentation des données ne s’arrête pas là dans l’étude. Après avoir fragmenté les données de l’enquête sur la dynamique du travail et du revenu (EDTR) et l’enquête sur les finances des consommateurs (EFC), l’étude fragmente ces sous-groupes en 5 sous-groupes, pour faire une analyse basée sur les quintiles. Que change cette opération? Puisque les auteur·e·s travaillent avec des données possédant déjà un CV élevé, cette nouvelle subdivision fait augmenter considérablement les CV et les rend, fort probablement, non fiables à la projection sur la population.

Par exemple, l’échantillon pour les familles monoparentales québécoises est, pour 2011, d’environ 270 familles, avant de les analyser en quintile. Si l’on subdivise cet échantillon qui est déjà peu fiable selon le CV fourni par Statistique Canada, nous nous retrouvons avec des échantillons par quintile d’environ 50 familles, ce qui est extrêmement petit pour un échantillon.

En d’autres termes, l’étude expose dans sa seconde partie des chiffres dont la fiabilité est plus que douteuse statistiquement et les auteur·e·s n’en font aucun cas. Ils vont même jusqu’à prétendre que leurs données sont applicables à l’ensemble de la population. Cette affirmation est infondée et ce problème méthodologique invalide, me semble-t-il, l’ensemble des conclusions de cette section de l’étude.