Les tests de significativité : comment faire ?

Quels outils ?

Lorsque l’on travaille avec un logiciel de statistiques généraliste tel que R, SAS, SPSS, Stata ou SPAD, les tests de significativité (souvent paramétriques seulement, parfois on peut choisir lesquels) sont en général fournis automatiquement dès qu’on demande, par exemple, un tableau croisé. Sinon, ils s’obtiennent par des instructions simples.

Si on travaille en seulement sous Excel, les choses se compliquent : il faut utiliser des formules un peu alambiquées, ou se procurer des macros spécialisées, par exemple celles fournies avec le livre de Jean-Pierre Georgin et Michel Gouet, Statistiques avec Excel, Rennes, PUR, 2005.

Cependant, alléluia, il y a plus simple : on peut faire ses tests tout simplement en ligne, il suffit d’avoir une connexion (le site fait travailler le logiciel R pour répondre, mais vous dispense de l’installer et de savoir le faire fonctionner). Cela se passe dans une interface pensée pour les recherches biologiques et médicales, mais ce n’est pas une raison pour ne pas essayer : http://marne.u707.jussieu.fr/biostatgv/

Cliquer sur « Réaliser de nombreux tests statistiques » renvoie à un tableau des principaux tests (à noter que les autres rubriques permettent de comprendre ce qu’ils font...). En excluant les cas peu probables en histoire, on peut résumer ce tableau ainsi :

- croisement de deux variables qualitatives ou découpées en classes (comme le tableau croisé confrontant activité et date d’entrée à la chambre de commerce de Paris) : khi-deux (paramétrique) ou test exact de Fisher (recommandé en cas de petits effectifs – biostatgv vous indique d’ailleurs, si c’est le cas pour vos données, qu’il faut l’utiliser à la place du khi-deux).
- comparaison de moyennes (donc d’une variable quantitative) entre deux ou plusieurs groupes : il s’agit de savoir si ces deux groupes ont une distribution significativement différente. S’il n’y a que deux groupes, t de Student (paramétrique) ou Wilcoxon (non paramétrique, recommandé si la distribution de la variable étudiée ne ressemble en rien à une courbe en cloche) ; s’il y a plus de deux groupes, ANOVA (paramétrique) ou test de Kruskal-Wallis (non paramétrique, même remarque).
- recherche d’une corrélation entre deux variables quantitatives : le coefficient de corrélation de Pearson (paramétrique) peut rendre des services. Toutefois, on a surtout intérêt à essayer une régression linéaire ou autre (ce qui peut se faire sous Excel ; voir notre chapitre V), ce qui donnera en même temps une représentation graphique aidant à affiner l’interprétation.

Comment lire les résultats ?

Tout cela a l’air très barbare – les noms des tests y sont pour beaucoup. C’est pourtant très faisable : exercez-vous, sur vos données ou des données inventées... Il faut seulement savoir que :

- l’interface a besoin des effectifs concernés, et non pas seulement des pourcentages ou moyennes à comparer (elle a même besoin de l’ensemble des données pour les tests sur les moyennes), puisque le but est justement de tenir compte des marges d’erreurs liées au nombre d’observations. Ce qu’il faut copier-coller à partir de votre feuille Excel (ou autre), c’est l’intérieur du tableau croisé : c’est à dire les effectifs pour chaque croisement de variables (pas les pourcentages ; et pas les effectifs totaux qui sont dans la dernière colonne et la dernière ligne). Voir l’exemple ci-dessous si ce n’est pas clair !
- dans les résultats, ce qu’il faut regarder avant tout, c’est la P-value. C’est la probabilité que les variables considérées ne soient pas liées significativement, ou que les moyennes ne diffèrent pas significativement. Donc plus la P-value est petite, plus il est incontestable que les variables sont liées (elles sont corrélées ; mais cela n’implique pas forcément une causalité) ou que les moyennes diffèrent. Par convention, on se fixe souvent le seuil de 5 %. Or 5 %, c’est la même chose que 0,05. Donc si la P-value est inférieure à 0,05, on peut dire avec pas trop de chances de se tromper que les variables sont liées, ou que les moyennes diffèrent.
- parfois, on obtient une P-value qui se présente ainsi : « < 2.2e-16  ». « e-16 » est une notation informatique courante pour ce qu’on appelait au lycée « x 10-16 », c’est à dire « fois dix puissance moins seize », soit un nombre vraiment minuscule (puisque 10-1=0,1, 10-2=0,01, 10-3=0,001, et ainsi de suite). Donc si notre P-value est inférieure à 2,2 fois cela, c’est qu’elle frise le zéro : le test indique une nette significativité des écarts.
- attention : le résultat donné ici concerne l’ensemble des cases du tableau. Or, si vous avez beaucoup de modalités pour chaque variable, il peut très bien arriver que certains couples de modalités soient les seuls à présenter une corrélation. En outre, de trop nombreuses modalités (un grand tableau croisé avec beaucoup de lignes et de colonnes) dispersent les effectifs : cela va rendre plus improbable la présence de corrélations significatives. Ainsi, un test de khi-deux non significatif peut vouloir dire, non pas qu’« il n’y a pas de corrélation » dans l’absolu, mais bien que vous avez mal posé votre question, en découpant vos variables en modalités trop nombreuses. Par exemple, un tableau croisant les professions de parlementaires et leurs groupes politiques, avec 6 groupes et 8 catégories professionnelles différentes, peut très bien, dans l’ensemble, montrer peu de corrélations (en général, « c’est comme si c’était réparti au hasard ») tout en ayant une case porteuse de fortes corrélations (tous les parlementaires ouvriers sont communistes). Le test de khi-deux sur le tableau global peut ainsi être non significatif, tandis que si on recode les variables pour obtenir un tableau plus simple, qui croise « communiste ou non » avec « ouvrier ou non », on aura un résultat fortement significatif. On a ainsi deux résultats aussi intéressants l’un que l’autre : pas de corrélation en général, mais une corrélation pour des modalités particulières. Faire le test dans un logiciel de statistiques généraliste vous permet de le voir directement (on peut demander le détail du khi-deux par case du tableau) ; avec biostatgv, il faut passer par un recodage, ce qui est de toute façon intéressant en soi.

Un exemple

Cet exemple est tiré de l’HDR de Claire Lemercier. En Angleterre, en 1873, différents organismes ont été interrogés sur leur opinion quant à une réforme de la justice. Elle a pré-codé leurs réponses pour obtenir le tableau croisé suivant.

 

 

Chambres de commerce

Autorités municipales (corporations)

Associations de branche

Marchands, manufacturiers, banquiers, assureurs, administrateurs

Juristes (avocats, juges) ou associations de juristes

Total

option 1

1

5

2

13

10

31

Préférence pour l’arbitrage

0

0

4

0

0

4

option 2

7

6

1

14

6

35

option 3

9

6

0

7

0

21

option 4

4

0

0

1

0

5

Autre

0

1

1

3

0

5

Total

21

18

8

38

16

101

Ce tableau (qui donne des effectifs, et pas des pourcentages) est utile pour son propos, car certains contrastes s’y lisent immédiatement. Elle voudrait toutefois dire si ces contrastes sont significatifs, ce qui n’est pas toujours évident vu les faibles effectifs.

Cependant, et justement à cause des faibles effectifs concernés (et du grand nombre de modalités), il est clair dès le départ qu’un test de khi-deux ne sera pas approprié : il faut faire un test exact de Fisher. Essayons tout de même le test de khi-deux pour voir ce qui se passe, à partir de http://marne.u707.jussieu.fr/biostatgv/?module=tests/chideux

On indique d’abord qu’on a besoin de 6 lignes (X) et 5 colonnes (Y). On peut y recopier manuellement le contenu du tableau ci-dessus ou bien le copier-coller à partir d’Excel [NB : si vous copiez-collez à partir de cette page web, il faut passer par l’étape intermédiaire Excel]. L’expression « le contenu du tableau » désigne les cases contenant les nombres de 1 (en haut à gauche) à zéro (en bas à droite). On ne prend pas la ligne ni la colonne « Total ».

Le site nous renvoie une p-value de « 1.1732573898334E-9 », c’est-à-dire quasiment égale à 0, ce qui pointerait des fortes corrélations. Mais il nous prévient aussi : « Certaines cases des effectifs attendus sont inférieures à 5. Les conditions de validité du Chi2 ne sont pas remplie. La valeur p (p-value) de votre test est 1.1732573898334E-9. Toutefois, étant donné que les conditions de validité du test ne sont pas remplies (voir ci-dessus), nous vous conseillons de vous référer au tableau de classification des tests pour choisir un test plus approprié. » Nous voilà prévenus... En prime, nous avons le tableau des effectifs attendus, ce qui est très intéressant : cela souligne que notre problème d’effectifs se concentre sur certaines lignes. Surtout, si on compare visuellement ce tableau aux effectifs observés, on voit où sont les corrélations intéressantes (par exemple, dans la première case en haut à gauche, on observe 1 alors qu’on attendrait 6). Mais on n’a encore rien prouvé...

Allons donc essayer un test exact de Fisher, sur la page http://marne.u707.jussieu.fr/biostatgv/?module=tests/fisher

Par défaut, un tableau de 2 lignes et 2 colonnes seulement est proposé, mais le bouton + permet d’ajouter des lignes et des colonnes : ici, on a besoin de 6 lignes et 5 colonnes. On procède comme ci-dessus, mais (en octobre 2011 en tout cas), cela produit une erreur dans biostatgv, qui dit qu’il n’a pas assez de mémoire pour calculer. C’est un problème circonstanciel (en ce moment, biostatgv ne semble en pratique accepter de test de Fisher que pour des tableaux à 2 lignes et 2 colonnes), mais qui est lié de toute façon au trop grand nombre de catégories du tableau. L’inspection visuelle des effectifs observés et attendus permet de penser à un recodage pertinent pour ce qu’on veut démontrer, en 2 lignes et 2 colonnes (et donc avec des effectifs un peu plus grands). Claire Lemercier peut ainsi conclure : « En particulier, si on regroupe d’un côté chambres de commerce et autorités municipales, de l’autre côté les autres catégories, on observe que les chambres de commerce et autorités municipales sont divisées également (19 contre 19) entre les options 1 ou 2 d’une part, 3 ou 4 d’autre part, tandis que parmi les autres catégories, les options 1 ou 2 regroupent 51 réponses et les options 3 ou 4 seulement 7 réponses. Un test exact de Fisher confirme la significativité de cet écart. »

De fait, le test sur les effectifs suivants : 19 19 51 7 se déroule sans encombre et conclut : « La valeur p (p-value) de votre test est 0.00010636524005955. »

Pourquoi le khi-deux ne résout pas tous les problèmes

Dans notre livre, pour souligner l’importance des questions de significativité, nous présentons essentiellement le test du khi-deux. En effet, dans l’ensemble, il n’est pas mal adapté du tout à une question qui se présente très fréquemment en histoire (comme en sociologie et dans bien d’autres endroits) : celle de savoir si un tableau croisant deux variables permet de conclure que certaines de ses modalités sont liées ou non. En gros, « 25 %, est-ce différent de 20 % » ? Eh bien cela dépend des situations... et notamment des effectifs concernés : si on a vingt personnes dans chaque cas, on ne pourra pas conclure, tandis que si on en a mille, cette différence, quoique pas énorme, pourra être considérée comme « significative ».

Un statisticien orthodoxe vous dira, et il aura raison, qu’il y a en réalité différents tests de significativité (ceux présentés dans la tableau de biostatgv), adaptés à différents types de données (pourcentages, moyennes...), différents effectifs de la population et même différentes hypothèses que l’on fait (ou pas) sur la distribution de la variable observée1.

Cependant, en pratique, les différents tests applicables aux mêmes données, notamment les tests paramétriques et non paramétriques, donnent souvent des résultats proches. Mais il est plus sage, comme on l’a vu ci-dessus, de privilégier les tests non-paramétriques, en particulier lorsqu’on est face à des effectifs très faibles, i. e. 5 ou moins pour certaines cases du tableau croisé, non pas dans l’effectif réel de la population observée, mais dans l’effectif « attendu » si tout était réparti au hasard. En particulier, dans ce cas-là, il vaut mieux utiliser le « test exact de Fisher » plutôt que le test du khi-deux. Un article par ailleurs très intéressant et très simple sur le plan statistique d’Hervé Piant, «  Des procès innombrables. Éléments méthodologiques pour une histoire de la justice civile d’Ancien Régime  », Histoire & Mesure, XXII-2, 2007, p. 13-38 montre les bénéfices que l’on peut tirer de tels tests, sur de petits effectifs, pour appuyer ou nuancer une argumentation fondée sur des moyennes ou tableaux croisés.

Et pour aller plus loin

Philippe Cibois, outre qu’il a rédigé un excellent manuel en ligne qui explique la notion d’indépendance et les tests de khi-deux, a créé son propre indicateur de liaison entre variables (dans le cas des tableaux croisés), le PEM, ou pourcentage de l’écart maximum. Il a pour avantage d’être d’interprétation intuitive et de calcul simple, mais l’inconvénient de n’être pas universellement connu (il l’est surtout des sociologues français) : si vous l’employez dans une publication, il faut donc bien expliquer ce qu’il est et ce qu’il fait. Le logiciel Tri-deux, élaboré par Philippe Cibois, très efficace aussi pour les tableaux croisés et les tests de khi-deux, et qui réalise des analyses factorielles (mais de façon un peu moins ergonomique, il faut l’avouer, que certains concurrents), calcule les PEM, mais on peut aussi assez facilement envisager leur calcul en Excel. Pour en savoir plus, voir dans le manuel précité ou sur le site personnel de Philippe Cibois, en particulier ici.

Philippe Cibois a également produit une note très intéressante qui souligne que, si des « recettes de cuisine » pour l’interprétation des tests (en particulier de khi-deux) se sont progressivement mises en place avec le développement des usages de la statistique, ces « recettes » sont plus fondées sur l’établissement progressif de pratiques consensuelles que sur de réels impératifs mathématiques. Il est bon de le savoir pour ne pas les utiliser sans distance.

1 C’est-à-dire que si on étudie la taille de la population française, on peut globalement penser qu’on aura une courbe en cloche autour de la taille moyenne ; si on étudie les revenus c’est très différent (un des côtés de la cloche s’étire loin vers les hauts revenus) ; et dans bien d’autres cas c’est beaucoup plus irrégulier (surtout avec des données historiques sur des cas « micro » et des variables inhabituelles).