Test du χ²

Page d'aide sur les redirections Pour la loi de probabilité, voir Loi du χ2.
Densité du χ² en fonction du nombre de degrés de liberté

Le test du χ2[1] est un test statistique permettant de tester l'adéquation d'une série de données à une famille de lois de probabilités ou de tester l'indépendance entre deux variables aléatoires.

Sommaire

Histoire

Il a été proposé par le statisticien Karl Pearson en 1900[2].

Principe

À la base d'un test statistique il y a la formulation d'une hypothèse appelée hypothèse nulle (ou hypothèse zéro), notée H0. Dans le cas présent, elle suppose que toutes les données considérées dérivent de la même loi de probabilité (ou, dit différemment, la distribution observée n'est pas différente de la distribution supposée d'après la loi que l'on souhaite tester).

Ces données ayant été réparties en classes, il faut :

  • déterminer le nombre de degrés de liberté du problème à partir du nombre de classes ;
  • se donner a priori un risque de se tromper (la valeur 5 % est souvent choisie (par défaut); il s'agit plus souvent d'une coutume que du résultat d'une réflexion) ;
  • à l'aide d'une table de χ², déduire en tenant compte du nombre de degrés de liberté la distance critique qui a une probabilité de dépassement égale à ce risque ;
  • calculer algébriquement la distance entre les ensembles d'informations à comparer.

Si cette distance est supérieure à la distance critique, on conclut que le résultat n'est pas dû seulement aux fluctuations d'échantillonnage et que l'hypothèse nulle H0 doit donc être rejetée. Le risque choisi au départ est celui de donner une réponse fausse lorsque les fluctuations d'échantillonnage sont seules en cause. Le rejet est évidemment une réponse négative dans les tests d'adéquation et d'homogénéité mais il apporte une information positive dans les tests d'indépendance. Pour ceux-ci, il montre le caractère significatif de la différence, ce qui est intéressant en particulier dans les tests de traitement d'une maladie.

Test du χ² d'adéquation

Test d'adéquation à une loi multinomiale

On observe un échantillon de données y_1,\ldots, y_N d'une variable aléatoire y qui prend un nombre fini de valeurs J. On veut tester l'hypothèse nulle selon laquelle les probabilités que y prenne les valeurs 1 à J sont respectivement p_1, \ldots, p_J avec \sum_{j=1}^{J} p_j = 1. On appelle \hat{p_j} la probabilité empirique que y prenne la valeur j, c'est-à-dire le nombre d'observations qui prennent la valeur j dans l'échantillon divisé par le nombre total d'observations N : \hat{p_j} = \frac{1}{N} \sum_{i=1}^{N}\mathbb{I}(y_i = j)[3].

On peut alors définir la statistique du \chi^2 : T = \sum_{j=1}^{J} \frac{(N\hat{p_j} - N p_j)^2}{N p_j}.

Sous l'hypothèse nulle, cette statistique suit asymptotiquement une loi du χ² à (J-1) degrés de libertés[4].

On peut donc construire un test de niveau \alpha en rejetant l'hypothèse nulle lorsque la statistique de test est plus grande que le quantile d'ordre 1-\alpha de la loi du χ² à (J-1) degrés de libertés : T \geqslant F^{-1}_{\chi^2(J-1)}(1-\alpha) avec F^{-1}_{\chi^2(J-1)}(1-\alpha) le quantile d'ordre 1-\alpha de la loi du \chi^2 à J-1 degrés de libertés.

Généralités

Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie a priori (comme une loi uniforme discrète ou une loi de Poisson par exemple).

Exemple concret : Soit un nombre donné de cultures cellulaires rigoureusement identiques. Chacune comporte un certain nombre de colonies. Toutes les cultures sont en fait des cultures de cellules cancéreuses et on cherche à déterminer dans quelle mesure l'action d'un produit empêche leur division. Précisément on veut savoir si le nombre de colonies dont la croissance sera interrompue par le produit suit une loi de Poisson de paramètre λ.

Après avoir exposé les cellules au produit, on obtient des résultats précis: X1 colonies de la première culture ont subi l'influence du produit, X2 pour la deuxième culture... Xn pour la n-ième culture. On effectuera un test du χ² sur ces valeurs pour juger l'hypothèse selon laquelle leur distribution suit une loi de Poisson.

Description

La statistique mathématique a pour but la description d'une population dont on ne connaît qu'un nombre relativement petit d'individus. Pour cela on associe une loi de probabilité à cette population. Mis à part certains problèmes de physique fondamentale et, à l'opposé, certains problèmes élémentaires (jeux de hasard équitables, par exemple), cette loi de probabilité est en toute rigueur inconnue. L'hypothèse selon laquelle la population suit une loi de probabilité donnée a priori peut être testée par la méthode décrite ci-après.

Lorsqu'on découvre un élément de la population, celui-ci est considéré comme une réalisation d'une variable aléatoire correspondant à la loi de probabilité choisie. Plus généralement, un ensemble d'éléments est une réalisation de ce qu'on appelle un échantillon aléatoire.

Les valeurs connues doivent être réparties entre diverses classes. En supposant l'indépendance des n\, valeurs considérées regroupées dans m\, classes, l'effectif de chaque classe i\, est une variable aléatoire définie par la loi multinomiale. La loi de probabilité testée permet de définir également pour chaque classe la probabilité p_i\,.

Les effectifs mesurés étant n_i\,, la quantité \sum_{i=1}^m \frac {(n_i - n \times p_i)^2} {n \times p_i} représente, d'une certaine manière, la distance entre les données et la loi de probabilité supposée. C'est une réalisation d'une variable aléatoire qui dérive d'une loi du χ² à (m-1) degrés de liberté. La probabilité donnée par les tables de dépassement de la valeur calculée donne alors une indication sur le réalisme de l'hypothèse.

Il est peu vraisemblable que les paramètres qui caractérisent la loi de probabilité (moyenne, variance, ...) soient connus au moment du test. Les données sont donc utilisées pour estimer ceux-ci, ce qui facilite l'adéquation. Il faut alors diminuer le nombre de degrés de liberté du nombre de paramètres estimés.

Choix des classes

Celles-ci doivent être assez nombreuses pour ne pas perdre trop d'information mais, à l'inverse, pour satisfaire les conditions requises par la méthode, elles ne doivent pas être trop petites. En théorie, il faudrait que les effectifs soient infinis pour que la loi normale s'applique mais il est généralement admis qu'il faut 5 éléments dans chaque classe. Cette règle a été très discutée et celle qui semble recueillir le plus de suffrages est due à Cochran : 80 % des classes doivent satisfaire la règle des cinq éléments tandis que les autres doivent être non vides. On peut utiliser le critère de Yates pour déterminer ce nombre  C = 1 + 3.33 Log (n)\, .

Le critère porte sur les np_i\, déduits de la distribution de référence et non sur les n_i\, des données analysées. Il est souvent satisfait sans difficulté car, à la différence de la construction d'un histogramme, il est possible de jouer sur la largeur des classes.

Test du χ² d'homogénéité

Il s'agit alors de se demander si deux listes de nombres de même effectif peuvent dériver de la même loi de probabilité. La méthode précédente s'applique en remplaçant le terme n p_i\, relatif à la loi de probabilité par n'_i\, relatif à la seconde liste et le \chi^2\, est donné par \sum_{i=1}^m \frac {(n_i - n'_i)^2} {n'_i}.

Cette notation s'inspire de celle utilisée pour le test d'adéquation, elle-même déduite de la notation classique de la loi multinomiale. Ici, comme dans le test d'indépendance, la notion de probabilité n'apparaît plus de manière explicite. De nombreux utilisateurs préfèrent donc adopter la notation qui utilise les symboles O_i\, pour les valeurs observées et E_i\, pour les valeurs espérées, ce qui conduit à l'expression \sum_{i=1}^m \frac {(O_i - E_i)^2} {E_i}.

Test du χ² d'indépendance

Exemple

Problème

Lorsqu'on considère plusieurs populations auxquelles on associe le même ensemble de critères qualitatifs, l'hypothèse à tester est l'indépendance entre la population d'appartenance de l'individu et la valeur des critères. L'hypothèse affirme donc que le fait de connaître la population d'un individu n'influence pas la valeur des critères.

Pour ce problème, il est commode de partir d'un exemple concret, comme la relation entre le revenu et le sexe d'un individu. La distribution du revenu des hommes est-elle différente de celle des femmes ? Une représentation sur une table de contingence des occurrences des variables permet d'illustrer la question.

Salaire 1000-2000 2000-3000 3000-4000 4000-5000 Total
Hommes 50 70 110 60 290
Femmes 60 75 100 50 285
Total 110 145 210 110 575

Dans cet exemple fictif on remarque que les femmes sont plus nombreuses dans les classes à bas salaires et moins nombreuses dans celles à haut salaire que les hommes. Cette différence (c’est-à-dire cette dépendance entre les variables) est-elle statistiquement significative ? Le test du χ² aide à répondre à cette question.

Préparation

On peut constater que pour chaque ligne, il y a 4-1 = 3 variables indépendantes, et pour chaque colonne il y a 2-1 = 1 variable indépendante, ce qui conduit à 3 x 1 = 3 degrés de liberté.

Si on se donne un risque de se tromper (rejeter à tort l'hypothèse nulle) égal à 5 %, la valeur critique trouvée dans les tables est 7,81.

Hypothèse

Il faut bâtir l'hypothèse nulle qui, dans ce cas, ne dépend ni d'une loi de probabilité, ni d'une distribution de référence. On suppose qu'il n'y a pas de différence entre les salaires des hommes et ceux des femmes, les proportions des différentes catégories de salaires étant donc conservées d'une ligne à l'autre.

Les données correspondantes sont obtenues en remplaçant la valeur de chaque cellule par le total de sa colonne, divisé par le total général, et multiplié par le total de sa ligne. On vérifie que les totaux sont inchangés.

Hypothèse 1000-2000 2000-3000 3000-4000 4000-5000 Total
Hommes 55,5 73,1 105,9 55,5 290,0
Femmes 54,5 71,9 104,1 54,5 285,0
Total 110,0 145,0 210,0 110,0 575,0

Calcul

Le calcul du χ² des données s'effectue en remplaçant le terme relatif à chaque cellule par la quantité \frac {(O-E)^2} E\, indiquée pour le test d'homogénéité et calculée à partir des deux tableaux précédents.

\chi^2\, 1000-2000 2000-3000 3000-4000 4000-5000 Total
Hommes 0,54 0,13 0,16 0,37 1,20
Femmes 0,55 0,14 0,16 0,38 1,23
Total 1,09 0,27 0,32 0,75 2,43

Conclusion

La distance calculée (2,43) étant inférieure à la distance critique (7,81), il n'y a pas lieu de mettre en cause l'égalité des salaires, avec un risque de se tromper égal à 5 %.

Il convient de rappeler que ce résultat repose sur des données choisies arbitrairement qui ont... peu de chance de représenter une réalité quelconque.

De manière plus profonde, les classes choisies, à la différence de ce qui se passait dans les tests d'adéquation et d'homogénéité, bien que présentant ici un aspect numérique, pourraient fort bien être associées à des notions qualitatives sans que le raisonnement soit modifié.

Test utilisé

Le test utilisé, le Khi-carré de Pearson, s'intéresse à la différence entre la valeur observée Oij (ou valeur empirique) et la valeur attendue s'il y avait indépendance Eij; (ou valeur théorique).

 \chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

avec

  • Oij la valeur observée
  • Eij la valeur attendue sous l'hypothèse d'indépendance.

On a :

 E_{i,j} = \frac{O_{i+} \times O_{+j}}{N}

  O_{i+}=\sum_{j=1}^{J}{O_{ij}}

et

  O_{+j}=\sum_{i=1}^{I}{O_{ij}}

Formulation du test

H0 : p(\mathrm{A \cap B})=p(\mathrm{A})\times p(\mathrm{B}) : les variables sont indépendantes (Hypothèse nulle).

H1 : p(\mathrm{A \cap B}) \ne p(\mathrm{A}) \times p(\mathrm{B}) : les variables ne sont pas indépendantes (l'écart entre valeur observée et attendue n'est pas dû au hasard).

Distribution du test

Cette statistique suit asymptotiquement une Loi du χ² à (I-1)(J-1) degrés de liberté, avec I le nombre de modalités de la première variable et J les nombre de modalités de la seconde variable.

Conditions du test

Plusieurs auteurs proposent des critères pour savoir si un test est valide, voir par exemple [PDF] The Power of Categorical Goodness-Of-Fit Test Statistics p. 19 (p. 11 du ch. 2), Michael C. Steele. On utilise en général le critère de Cochran de 1954 selon lequel toutes les classes i, j doivent avoir une valeur théorique non nulle (E i, j ≥ 1), et que 80 % des classes doivent avoir une valeur théorique supérieure ou égale à 5 :

E i,j ≥ 5

Lorsque le nombre de classes est petit, cela revient à dire que toutes les classes doivent contenir un effectif théorique supérieur ou égal à 5.

D'autres valeurs ont été proposées pour l'effectif théorique minimal : 5 ou 10 pour tous (Cochran, 1952), 10 (Cramér, 1946) ou 20 (Kendall, 1952). Dans tous les cas, ces valeurs sont arbitraires.

Certains auteurs ont proposé des critères basés sur des simulations, par exemple :

  • effectif théorique supérieur à 5r/k pour chaque classe, où r est le nombre de classes ayant un effectif supérieur ou égal à 5 et k est le nombre de catégories (Yarnold, 1970) ;
  • N²/k ≥ 10, où N est l'effectif total et k est toujours le nombre de catégories (Koehler et Larntz, 1980) ;
  • des recommandations plus récentes se trouvent, par exemple, dans P. Greenwood et M. Nikulin, "A Guide to Chi-Squared Testing", (1996), John Wiley and Sons.

Tests apparentés

Il existe un test asymptotique très semblable, le test du rapport de vraisemblance (likelihood ratio test), ainsi qu'un test exact, le test exact de Fisher.

Justification

Le développement des méthodes bayésiennes - seules utilisables lorsqu'on n'a que peu de données sous la main - a dégagé un test de vraisemblance nommé le psi-test, dont Myron Tribus fait remarquer qu'il devient asymptotiquement identique au χ² à mesure que le nombre de données augmente[5].

Indépendance

Soient A et B les deux variables dont on souhaite tester l'indépendance.

Pour rappel, si A et B sont indépendantes on a la relation suivante :

p(A\cap B) = p(A) \times p(B)

ou pour la fonction de densité conjointe :

 f_{X,Y}(x,y)=\ f_X(x) \times f_Y(y)

Soit ici

E_{ij} = p(\mathrm{A} = i \cap \mathrm{B} = j) \times N = p(\mathrm{A} = i) \times p(\mathrm{B} = j) \times N

Estimation des valeurs attendues (théoriques)

Que vaut p(A=i ) ?

À partir de la table de contingence, on prendra simplement la somme de toutes les valeurs où A = 1, soit, dans notre notation

O1+

Ainsi

E_{ij} = \frac{O_{i+}}{N} \times \frac{O_{+j}}{N} \times N = \frac{O_{i+} \times O_{+j}}{N}

Distribution du test

Pour la preuve que le test suit une loi Khi-carré, on n'en donnera ici que quelques « pistes ».

Si on suppose que chaque xij suit une loi de Poisson, on peut montrer que les valeurs standardisées

z_{ij}=(x_{ij}-\bar x_{ij})/\sqrt {\bar x_{ij}}

suivent asymptotiquement une loi normale. Alors

\sum_{i} \sum_{j} z_{ij}^2

suit asymptotiquement une loi Khi-carré à IJ-1 degrés de liberté

Quant aux degrés de libertés, comme on doit estimer les \bar x_{ij}, on perd (I-1)+(J-1) degrés de liberté (et non pas I+J car \sum O_{i+} = \sum O_{+j} =1  : le dernier paramètre se déduit des autres). On a alors au final

IJ-1-(I-1)-(J-1) = I(J-1)-(J-1) = (I-1)×(J-1)

Notes et références

  1. prononcer « khi-deux » ou « khi carré »
  2. (en) Stephen Stigler, « Karl Pearson’s theoretical errors and the advances they inspired », Statistical Science, no 23, 2008, p. 261–271 [texte intégral (page consultée le 28 décembre 2011)] 
  3. avec \mathbb{I}(y_i = j) la fonction indicatrice qui vaut 1 lorsque y_i=j et 0 sinon.
  4. Cameron et Trivedi 2005, p. 266.
  5. Myron Tribus, Décisions rationnelles dans l'incertain, traduction française de Jacques Pézier, Masson, 1974

Voir aussi

Bibliographie

  • (en) Colin Cameron et Pravin Trivedi, Microeconometrics: Methods And Applications, Cambridge University Press, 2005, 1056 p. (ISBN 978-0521848053) 
  • P. E. Greenwood et M. S. Nikulin, A Guide to Chi-Squared Testing, John Wiley and Sons, 1996.

Articles connexes

Liens externes

mentions légales Wikipédia
logo wikimediapolitique de confidentialité à propos de Wikipédia avertissements contacts logo wikimedia faire un don

ADSL . Comparatif ADSL et Test ADSL sur Echos du Net


Test ADSL...Vous pouvez également nous formuler vos besoins depuis notre page test d'éligibilité ADSL personnalisé , ou directement via le formulaire de contact , en nous précisant votre numéro de...

Test ADSL : tester sa connexion, bande passante et débit avec le JDN


Test ADSL, câble, fibre optique .... Test de débit ADSL et autres types de connexion. Le Journal du Net vous propose d'évaluer en permanence et gratuitement la vitesse de votre connexion Internet et l...

Rugby - Tests - Lions - North titulaire contre l'Australie


Incertain en raison d'une douleur aux ischio-jambiers, George North
Plus d'infos Sur le web

  • Le test du χ 2 est un test statistique permettant de tester l'adéquation d'une série de données à une famille de lois de probabilités ou de ...
    19 Kio (2913 mots) - 4 juin 2013 à 10:45

  • Un test du χ² d'adéquation à la loi normale est possible pour tester ... alpha/2 sont les quantiles de la loi du χ² à \scriptstyle n-1 degrés de ...
    121 Kio (16974 mots) - 30 mai 2013 à 05:42

  • La loi du χ 2 (prononcer « khi-deux » ou « khi carré ») est une loi ... distribution empirique en utilisant le test du χ 2 basé sur la loi multinomiale . ...
    6 Kio (868 mots) - 24 mai 2013 à 09:24

  • Il est aujourd'hui principalement connu pour avoir développé le coefficient de corrélation et le Test du χ². Il est l'un des fondateurs de ...
    7 Kio (870 mots) - 13 mars 2013 à 06:55

  • également que (n-1) s 2 / σ 2 suit une loi de χ 2 à n-1 degrés de liberté. ... Estimation : Test du χ² l'exemple d'un test qui utilise la loi du χ². ...
    12 Kio (1731 mots) - 20 mars 2013 à 12:23

  • Méthode de cryptanalyse statistique inventée par Serge Vaudenay et basée sur le test du χ². Elle est plus efficace que la cryptanalyse ...
    1 Kio (95 mots) - 25 septembre 2011 à 08:12

  • mentionné ci dessus qui compare les fonctions de répartition et le test d'adéquation du χ² qui compare les effectifs observés avec une loi du χ². ...
    91 Kio (11585 mots) - 17 juin 2013 à 10:58

  • Cette dernière remarque est à la base du test du χ². Probabilités et statistiques. probabilités et statistiques. Catégorie:Loi de probabilité ...
    4 Kio (539 mots) - 16 mai 2013 à 01:57

  • Le test du χ 2 est utilisé pour apprécier la valeur de l'adéquation d'une loi de probabilité sur une distribution empirique. variable de χ ...
    22 Kio (2996 mots) - 23 janvier 2013 à 07:53

  • L'écart par rapport à la loi de Hardy-Weinberg est estimé grâce au Test du χ² de Pearson , en comparant la structure des fréquences ...
    24 Kio (1758 mots) - 13 mars 2013 à 07:19

  • On utilise un test du χ² d'indépendance, ou test du χ² de Pearson : on a deux hypothèses. l'écart constaté est dû à des fluctuations statistiques ; ...
    18 Kio (2566 mots) - 24 avril 2013 à 01:40

  • ce soit, à partir du moment où il fait intervenir des hypothèses de normalité (par exemple, le test t , le test de Fisher ou le test du χ²). ...
    8 Kio (841 mots) - 17 mars 2013 à 01:48

  • En statistique s, un test d'hypothèse est une démarche consistant à évaluer une ... exemple le cas des tests d'adéquation à une loi ou des Test du χ². ...
    11 Kio (1512 mots) - 12 mars 2013 à 04:53

  • Le nombre de lancers minimal est de 30 (5 divisé par la fréquence théorique, 1 | 6 0,16 6…, cf. Test du χ² Conditions du test ). ...
    22 Kio (3029 mots) - 10 juin 2013 à 01:14

  • la fréquence d'apparition de chaque nombre, celle-ci doit s'approcher de 1/6 grâce au test du χ² qui s'applique aux distributions discrètes. ...
    16 Kio (2205 mots) - 27 mai 2013 à 03:37

  • χ² (ou khi carré) peut faire référence à: la loi du Formule | χ exp | 2 ... le test du Formule | χ exp | 2 , basé sur la loi du χ² ...
    0 Kio (49 mots) - 23 avril 2013 à 09:29

  • Chi ou khi (capitale Χ, minuscule χ), en grec χῖ, est la vingt-deuxième lettre ... La loi de χ² et le test du χ² en statistique s ; ...
    3 Kio (303 mots) - 12 juin 2013 à 07:56

  • de procéder à des tests d'hypothèse , le plus utilisé étant le Test du χ² pour mesurer l'adéquation de la loi de probabilité choisie à ...
    31 Kio (3923 mots) - 14 juin 2013 à 03:54

  • Le test de Jarque-Bera cherche à déterminer si des données suivent une loi normale . ... Notes Voir aussi : Test du χ², section Test d'adéquation ...
    4 Kio (495 mots) - 13 mars 2013 à 09:45

  • étape : On calcule la valeur de la statistique qui correspond à la distance de \scriptstyle o_p à la valeur théorique p 1/2 pour le test du χ². ...
    67 Kio (8928 mots) - 10 juin 2013 à 02:53