Test statistique du KHI2 – Idfolles

Test statistique du KHI2

Objectifs du cours

I. Dans l’introduction : faire le lien avec les cours des années précédentes. Resituer le contexte et ainsi l’utilité du test du KHI2

II. Présenter les applications du KHI2

III. Présenter un test de KHI2 par l’exemple. Démythifier la complication du test

IV. Exercices d’applications

I. Introduction du cours : 5 min

En stav vous avez vu les tableaux de contingences ou diagramme de Caroll.
Ces tableaux consiste à croiser les données. Cette à dire que l’on mesure sur un échantillon ou sur tous les individus d’une population deux caractères A et B (c-a-d deux variables statistiques) qualitatifs ou quantitatifs et l’on crée un tableau où l’on donne le nombre d’individus pour chaque modalité du premier caractère en fonction des modalités du deuxième caractère.

Exemple

Tableau de contingences
Fumeur Non fumeur Totaux marginaux
Femme 50 35 85
Homme 40 37 77
Totaux marginaux 90 72 162

On les appelle dans un tableur, des tableaux croisés dynamiques et on les crée avec le menu outil pilote de données sous openoffice calc.

Une fois le tableaux créés on peut se demander si les 2 caractères sont dépendants l’un de l’autre, c’est-à-dire dans notre exemple s’il y a significativement statistiquement plus de fumeurs femme, que de furmeurs homme, et ainsi dire que le caractère fumeur ou non est dépendant du sexe de la personne.

Et souvent des pourcentages qui peuvent nous apparaître comme différents après test du KHI2 deviennnent non significatif.

C’est donc l’objet du test du KHI2 de déterminer si deux caractères sur une population donnée sont dépendant ou non.

II. Cas d’utilisation du KHI2 : 5 min

On utilise donc le KHI2 dans deux cas :

Le premier pour savoir si deux caractères sont dépendants ou on

Le second pour savoir si une distribution réelle suit ou on une loi donnée (un exemple très connu est la détermination du caractère pipé ou non d’un dé sachant qu’un dé doit suivre une loi uniforme)

III. Test du KHI2 à partir d’un exemple : 30 min

Nous allons prendre un exemple d’expérimentation agricole. Plus précisément en arboriculture. Cet exemple est tiré du livre “Mathématiques pour le BTSA” de Burg, Cabanac et Piedevache aux éditions CEPADUES.

Un arboriculteur veut tester 4 traitements qui influent sur la fructification. Ils veut savoir si les quatre traitements ont le même effet ou non. Un test de KHI2 qui détermine s’il y a dépendance ou non entre le caractère qualitatif traitement (on notera A, B, C , D les quatre traitements) et le caractère quantitatif (nombres de rameaux fructifiés ou non) va justement permettre de déterminer s’il y a des différences significatives entre les traitements.

Voici le résultat de l’expérimentation

tableau contingence 2
Traitements A B C D Totaux
Sans fruits 280 350 320 350 1300
Avec fruits 200 150 180 170 700
Totaux 480 500 500 520 2000

Nous formulons maintenant l’hypothèse $H_0$ :

“Il y a indépendance entre traitement et présence du fruit”

Il nous faut maintenant construire le tableau des effectifs théoriques, c’est-à-dire comme s’il y avait indépendance entre les deux caractères

En probabilité on dit que deux évènements A et B sont indépendants si :

$P(A \cap B) = P(A)P(B)$

Nous allons appliquer cette formule à notre cas en utilisant les totaux marginaux.

La probabilité pour qu’un rameau choisi au hasard soit sans fruit est de $1300 \over 2000$

La probabilité pour qu’un rameau choisi au hasard soit issu d’un traitement A est de $480 \over 2000$

Donc si l’hypothèse $H_0$ est vérifiée :

La probabilité q’un rameau pris au hasard soit sans fruit et issu d’un traitement A est de : $1300 \over 2000 \times 480 \over 2000$

Donc en multipliant par l’effectif total 2000, on obtient l’effectif des rameaux sans fruits issus d’un traitement A

On obtient donc le calcul des effectifs théoriques suivant :

effectifs théoriques
Traitement A B C D Totaux
Sans fruits $1300 \times 480 \over 2000$ $1300 \times 500 \over 2000$ $1300 \times 500 \over 2000$ $1300 \times 520 \over 2000$ 1300
Avec fruits $700 \times 480 \over 2000$ $700 \times 500 \over 2000$ $700 \times 500 \over 2000$ $700 \times 520 \over 2000$ 700
Totaux 480 500 500 520 2000

Pour déterminer un élément du tableau, on effectue le produit du total de la ligne par le total de la colonne de cet élément et l’on divise par l’effectif

A partir des deux tableaux on en calcule un troisième qui va nous permettre de calculer le $\chi^2_calcule$

calcul du KHI2 calculé
Traitement A B C D Totaux
Sans fruits 3,28 1,92 0,08 0,43
Avec fruits 6,10 3,57 0,14 0,79
Totaux 16,31

Chaque cellule du tableau ci-dessus est calculé en faisant

$(n_reel-n_theorique)^2 \over n_theorique$

le KHI2 calculé $\chi^2_calcule = 16,31$ est la somme de chaque cellule

IV. Fin du test et conclusion

Enfin il n’y a plus qu’à comparer le KHI2 calculé au KHI2 critique ou théorique pour accepter ou rejeter l’hypothèse Hzéro

Si $\chi^2_calcule < \chi^2_critique$ alors Hzéro est acceptée

Si $\chi^2_calcule > \chi^2_critique$ alors Hzéro est rejetée

Si $\chi^2_critique$ est donné par la table suivante où l’on choisit le risque 1% ou 5% et le degré de liberté = ddl = (l-1)(c-1) -k

où l = nombre de ligne du tableau de contingences (sans les totaux)
et c = nombre de colonne du tableau de contingences (sans les totaux)
et k = nombre de paramètres estimés

ici avec un risque de 5% et un ddl = (2-1)(4-1) – 0 = 3

on a $\chi^2_critique = 7.81$

Donc on rejette $H_0$ il n’y a pas indépendance entre la nature du traitement et la présence de fruits.

V. Exercices