Python - Test d'adéquation d'une série statistique à une loi de probabilité par la méthode du khi carré,

Un billet blog de Denis Hulo

Le 10 mai 2023, par User

0PARTAGES

I. Introduction

En statistique, le test du khi carré, aussi dit du khi-deux, d’après sa désignation symbolique χ², est un test statistique où la statistique de test suit une loi du χ² sous l'hypothèse nulle.

Par exemple, il permet de tester l'adéquation d'une série de données à une famille de lois de probabilité ou de tester l'indépendance entre deux variables aléatoires.

On souhaite dans notre cas implémenter le test du khi carré à l'aide de la librairie Python scipy.stats, pour nous permettre ensuite de vérifier qu'une série statistique suit une certaine loi de probabilité (Loi uniforme, loi de poisson, etc.).

Note : les exemples proposés dans ce billet ainsi que les définitions sont tous issus de la page wikipedia Test du χ²

II. Principe du test d'adéquation

Le test du χ² d'adéquation ou de conformité permet de vérifier si un échantillon d'une variable aléatoire Y donne des observations comparables à celles d'une loi de probabilité P définie a priori dont on pense, pour des raisons théoriques ou pratiques, qu'elle devrait être la loi de Y.

L’hypothèse nulle (notée H₀) est donc la suivante : « la variable aléatoire Y suit la loi de probabilité P ».

En termes de p-valeur, l'hypothèse nulle (l'observation est suffisamment proche de la théorie) est généralement rejetée lorsque p ≤ 0.05.

Il s'agit donc de vérifier qu'une série de données statistiques suit bien une loi de probabilité définie a priori, comme une loi de Poisson pour une variable discrète, ou une loi normale pour une variable continue.

II-A. Adéquation à une loi uniforme

On va maintenant tester l'hypothèse selon laquelle un dé à six faces n'est pas truqué, avec un risque α = 0.05.

L'hypothèse nulle H₀ que l'on souhaite rejeter est donc ici : « Le dé est équilibré ».

Si le dé est lancé 600 fois de suite et s'il est équilibré, on s'attend donc que sur ces 600 jets, chaque chiffre tombe près de 100 fois.

Autrement dit, si le dé est équilibré, alors la variable k, représentant le numéro de la face supérieure, suit une loi uniforme. Elle peut ainsi prendre les 6 valeurs (1, 2, 3,.., 6) avec la même probabilité 1/6 pour chaque valeur.

Vérifier l'hypothèse « Le dé est équilibré », revient donc à vérifier que la variable k suit bien une loi uniforme.

Supposons que notre expérience donne les résultats suivants :

En considérant l'hypothèse nulle vraie, la valeur de la variable T du khi carré est donnée par la formule :

T = (88 − 100)²/100 + (109 − 100)²/100 + (107 − 100²/100 + (94 − 100)²/100 + (105 − 100)²/100 + (97 − 100)²/100 = 3.44

Le nombre de degrés de liberté est ici de 6-1 = 5. En effet, 88 + 109 + 107 + 94 + 105 + 97 = 600 et si l'on connaît par exemple les nombres de fois où l'on obtient les chiffres 1 à 5, on connaît le nombre de fois où l'on obtient le chiffre 6 : 600 - (88 + 109 + 107 + 94 + 105) = 97.

Ainsi, la statistique T suit la loi du χ² à cinq degrés de liberté.

Cette loi du χ² donne la valeur en deçà de laquelle on considère le tirage comme conforme avec un risque α = 0.05 :

P(T < 11.07) = 0.95

Puisque 3.50 < 11.07, on ne peut pas rejeter l'hypothèse nulle : ces données statistiques ne permettent pas de considérer que le dé est truqué, et on ne peut pas non plus rejeter l'hypothèse que la variable k suive une loi uniforme.

II-B. Conformité à une loi de Poisson

On considère une variable aléatoire Y prenant des valeurs entières positives ou nulles. Un échantillonnage de 100 valeurs de cette variable se répartit comme suit :

On souhaite tester l'hypothèse selon laquelle Y suit une loi de Poisson, avec un risque α = 0.05.

La valeur du paramètre de cette loi de Poisson est obtenue en calculant la moyenne pondérée de la série statistique, ce qui donne ici λ = 1,02.

Comme il s'agit d'une estimation on diminuera le nombre de degrés de liberté d'une unité.

Les effectifs attendus pour une loi de Poisson de paramètre λ sont :

On regroupe les effectifs supérieurs ou égaux à 3 dans une même classe, ceux supérieurs à 4 étant trop petits. La variable T prend alors la valeur 2.97. Or, la loi du χ² à deux degrés de liberté donne :

P(T < 5.99) = 0.95

Donc, on ne rejette pas l'hypothèse que la variable aléatoire Y suive une loi de Poisson, au risque d'erreur de 5 %.

Si vous souhaitez avoir plus de précisions sur ce test vous pouvez consulter cette page wikipedia.

III. Module scipy.stats

Cette librairie Python contient un grand nombre de distributions de probabilités (distribution uniforme, de Poisson, etc..) ainsi que des fonctions permettant d'effectuer des tests statistiques comme le test du khi-carré.

III-A. Loi uniforme

Un objet uniform est utilisé pour une variable aléatoire continue suivant une loi uniforme :

Dans sa forme standard, la distribution est uniforme sur [0, 1]. En utilisant les paramètres loc=a et scale=b-a, on obtient une distribution uniforme sur [loc, loc + scale].

Code Python :

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Python - Test d'adéquation d'une série statistique à une loi de probabilité par la méthode du khi carré, Un billet blog de Denis Hulo

Python - Test d'adéquation d'une série statistique à une loi de probabilité par la méthode du khi carré,

Un billet blog de Denis Hulo