Objectifs du cours
I. Dans l’introduction : faire le lien avec les cours des années précédentes. Resituer le contexte et ainsi l’utilité du test du KHI2
II. Présenter les applications du KHI2
III. Présenter un test de KHI2 par l’exemple. Démythifier la complication du test
IV. Exercices d’applications
I. Introduction du cours : 5 min
En stav vous avez vu les tableaux de contingences ou diagramme de Caroll.
Ces tableaux consiste à croiser les données. Cette à dire que l’on mesure sur un échantillon ou sur tous les individus d’une population deux caractères A et B (c-a-d deux variables statistiques) qualitatifs ou quantitatifs et l’on crée un tableau où l’on donne le nombre d’individus pour chaque modalité du premier caractère en fonction des modalités du deuxième caractère.
Exemple
Fumeur | Non fumeur | Totaux marginaux | |
Femme | 50 | 35 | 85 |
Homme | 40 | 37 | 77 |
Totaux marginaux | 90 | 72 | 162 |
On les appelle dans un tableur, des tableaux croisés dynamiques et on les crée avec le menu outil pilote de données sous openoffice calc.
Une fois le tableaux créés on peut se demander si les 2 caractères sont dépendants l’un de l’autre, c’est-à-dire dans notre exemple s’il y a significativement statistiquement plus de fumeurs femme, que de furmeurs homme, et ainsi dire que le caractère fumeur ou non est dépendant du sexe de la personne.
Et souvent des pourcentages qui peuvent nous apparaître comme différents après test du KHI2 deviennnent non significatif.
C’est donc l’objet du test du KHI2 de déterminer si deux caractères sur une population donnée sont dépendant ou non.
II. Cas d’utilisation du KHI2 : 5 min
On utilise donc le KHI2 dans deux cas :
Le premier pour savoir si deux caractères sont dépendants ou on
Le second pour savoir si une distribution réelle suit ou on une loi donnée (un exemple très connu est la détermination du caractère pipé ou non d’un dé sachant qu’un dé doit suivre une loi uniforme)
III. Test du KHI2 à partir d’un exemple : 30 min
Nous allons prendre un exemple d’expérimentation agricole. Plus précisément en arboriculture. Cet exemple est tiré du livre “Mathématiques pour le BTSA” de Burg, Cabanac et Piedevache aux éditions CEPADUES.
Un arboriculteur veut tester 4 traitements qui influent sur la fructification. Ils veut savoir si les quatre traitements ont le même effet ou non. Un test de KHI2 qui détermine s’il y a dépendance ou non entre le caractère qualitatif traitement (on notera A, B, C , D les quatre traitements) et le caractère quantitatif (nombres de rameaux fructifiés ou non) va justement permettre de déterminer s’il y a des différences significatives entre les traitements.
Voici le résultat de l’expérimentation
Traitements | A | B | C | D | Totaux |
Sans fruits | 280 | 350 | 320 | 350 | 1300 |
Avec fruits | 200 | 150 | 180 | 170 | 700 |
Totaux | 480 | 500 | 500 | 520 | 2000 |
Nous formulons maintenant l’hypothèse :
“Il y a indépendance entre traitement et présence du fruit”
Il nous faut maintenant construire le tableau des effectifs théoriques, c’est-à-dire comme s’il y avait indépendance entre les deux caractères
En probabilité on dit que deux évènements A et B sont indépendants si :
Nous allons appliquer cette formule à notre cas en utilisant les totaux marginaux.
La probabilité pour qu’un rameau choisi au hasard soit sans fruit est de
La probabilité pour qu’un rameau choisi au hasard soit issu d’un traitement A est de
Donc si l’hypothèse est vérifiée :
La probabilité q’un rameau pris au hasard soit sans fruit et issu d’un traitement A est de :
Donc en multipliant par l’effectif total 2000, on obtient l’effectif des rameaux sans fruits issus d’un traitement A
On obtient donc le calcul des effectifs théoriques suivant :
Traitement | A | B | C | D | Totaux |
Sans fruits | 1300 | ||||
Avec fruits | 700 | ||||
Totaux | 480 | 500 | 500 | 520 | 2000 |
Pour déterminer un élément du tableau, on effectue le produit du total de la ligne par le total de la colonne de cet élément et l’on divise par l’effectif
A partir des deux tableaux on en calcule un troisième qui va nous permettre de calculer le
Traitement | A | B | C | D | Totaux |
Sans fruits | 3,28 | 1,92 | 0,08 | 0,43 | |
Avec fruits | 6,10 | 3,57 | 0,14 | 0,79 | |
Totaux | 16,31 |
Chaque cellule du tableau ci-dessus est calculé en faisant
le KHI2 calculé est la somme de chaque cellule
IV. Fin du test et conclusion
Enfin il n’y a plus qu’à comparer le KHI2 calculé au KHI2 critique ou théorique pour accepter ou rejeter l’hypothèse Hzéro
Si alors Hzéro est acceptée
Si alors Hzéro est rejetée
Si est donné par la table suivante où l’on choisit le risque 1% ou 5% et le degré de liberté = ddl = (l-1)(c-1) -k
où l = nombre de ligne du tableau de contingences (sans les totaux)
et c = nombre de colonne du tableau de contingences (sans les totaux)
et k = nombre de paramètres estimés
ici avec un risque de 5% et un ddl = (2-1)(4-1) – 0 = 3
on a
Donc on rejette il n’y a pas indépendance entre la nature du traitement et la présence de fruits.
V. Exercices