Avis

Comprendre l'intervalle interquartile en statistique

Comprendre l'intervalle interquartile en statistique

L'intervalle interquartile (IQR) est la différence entre le premier quartile et le troisième quartile. La formule pour cela est:

IQR = Q3 - Q1

Il existe de nombreuses mesures de la variabilité d'un ensemble de données. La plage et l'écart type nous indiquent à quel point nos données sont dispersées. Le problème avec ces statistiques descriptives est qu’elles sont très sensibles aux valeurs aberrantes. L'intervalle interquartile est une mesure de la dispersion d'un ensemble de données plus résistant à la présence de valeurs aberrantes.

Définition de l'intervalle interquartile

Comme on l’a vu plus haut, l’intervalle interquartile s’appuie sur le calcul d’autres statistiques. Avant de déterminer l'intervalle interquartile, nous devons d'abord connaître les valeurs du premier et du troisième quartiles. (Bien entendu, les premier et troisième quartiles dépendent de la valeur de la médiane).

Une fois que nous avons déterminé les valeurs des premier et troisième quartiles, la plage interquartile est très facile à calculer. Tout ce que nous devons faire est de soustraire le premier quartile du troisième quartile. Ceci explique l'utilisation du terme gamme interquartile pour cette statistique.

Exemple

Pour voir un exemple de calcul d'une plage interquartile, considérons l'ensemble des données: 2, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9. Le résumé en cinq chiffres de cette ensemble de données est:

  • Minimum de 2
  • Premier quartile de 3,5
  • Médiane de 6
  • Troisième quartile de 8
  • Maximum de 9

Nous voyons donc que l'intervalle interquartile est 8 - 3,5 = 4,5.

L'importance de l'intervalle interquartile

La plage nous donne une mesure de l'étendue de l'ensemble de notre ensemble de données. L'intervalle interquartile, qui indique l'écart entre le premier et le troisième quartile, indique l'étendue des 50% moyens de notre ensemble de données.

Résistance aux valeurs aberrantes

Le principal avantage de l’utilisation de la plage interquartile plutôt que de la plage de mesure de la dispersion d’un jeu de données est que la plage interquartile n’est pas sensible aux valeurs aberrantes. Pour voir cela, nous allons regarder un exemple.

Parmi les données ci-dessus, nous avons un intervalle interquartile de 3,5, un intervalle de 9 - 2 = 7 et un écart type de 2,34. Si nous remplaçons la valeur la plus élevée de 9 par une valeur extrême extrême de 100, l'écart-type devient alors 27,37 et la plage est 98. Même si nous avons des changements assez radicaux de ces valeurs, les premier et troisième quartiles ne sont pas affectés et donc la plage interquartile. ne change pas.

Utilisation de l'intervalle interquartile

En plus d’être une mesure moins sensible de la propagation d’un ensemble de données, la plage interquartile a une autre utilisation importante. En raison de sa résistance aux valeurs aberrantes, la plage interquartile est utile pour identifier le moment où une valeur est aberrante.

La règle d'intervalle interquartile est ce qui nous informe si nous avons une valeur aberrante légère ou forte. Pour rechercher une valeur aberrante, nous devons regarder au-dessous du premier quartile ou au-dessus du troisième quartile. Jusqu'où nous devrions aller dépend de la valeur de l'intervalle interquartile.