|
Intervalle de confiance Dans une classe, je sais
calculer la moyenne de la taille de mes
élèves. Mais comment connaître la taille
moyenne dans un département, dans la France? On procédait* par
échantillonnage en choisissant un petit nombre d'individus et en projetant la
moyenne de l'échantillon sur la population complète. Deux questions reliées:
quelle taille doit faire l'échantillon et sur quel degré de confiance je peux
compter pour toucher juste la moyenne cherchée? Nous allons procéder en
quatre temps:
Notion d'intervalle de confiance; c'est quoi au
juste?
Calcul "mécanique" de l'intervalle de
confiance;
Fondement de la notion d'intervalle de confiance;
et
Exemple d'application au médical. Cette
notion n'est pas une fourchette de précision comme vous avez l'habitude d'en
rencontrer en physique. Ni la probabilité qu'une valeur se trouve dans cet
intervalle. C'est plus subtil. Nous sommes plus dans la comptabilisation des
coups réussis ou ratés pour atteindre notre but. * Aujourd'hui, le recensement de la population est bien entendu
nominatif. On compte tout le monde, un par un. |
Anglais: Confidence
interval
|
|
Imaginons un maitre qui connait tout, et un élève qui, lui, doit estimer.
Notre population (population mère
ou population réelle) comprend des milliers
d'individus dont le maitre sait que la moyenne de leur taille est 180 cm (µ =
180).
L'élève doit tenter de retrouver cette moyenne en se
fiant à un petit nombre de personnes interrogées (échantillon).
Collecte des infos puis calculs faits, il trouve 181 cm. Sauter le pas et
dire que c'est la bonne valeur (inférence)
serait fallacieux, n'est-ce pas?
Le but est de trouver une fourchette de valeurs (intervalle de confiance) telle qu'il est
possible d'affirmer que la moyenne réelle (µ) est quasi-certainement dans
cette fourchette. Dans notre cas: µ = 180 est bien dans IC = [178 et 183],
par exemple. Avec un fusil,
mettre ma balle en plein dans le mille les yeux bandés? Pas possible, ou
alors je suis hyper-chanceux. Par contre, avec un tromblon qui disperse
légèrement les balles, j'ai plus de chance de toucher le mille. Sur 100 tirs
combien de fois vais-je réussir? Tout est dans la taille de l'ouverture du
tromblon …
Quasi-certainement? Oui, ce n'est pas du 100% garanti!
Nous ne sommes pas des devins et nous indiquerons quelle est la probabilité pour que cet
intervalle de confiance marche, pour que la moyenne soit effectivement dans
la fourchette. Cette probabilité est le niveau
de confiance (C) ou le niveau de risque
(.
L'élève recommence son expérience cent fois. On dira
que son estimation de la moyenne est acceptable à 95% s'il touche la cible
dans 95 cas sur 100. On admet le risque de rater dans 5 cas sur 100 (5%).
Plus on veut un niveau de confiance élevé, plus il
faudra agrandir l'échantillon jusqu'à tendre … à 100% en prenant toute la
population. Rappel: Nous constatons
que l'intervalle de confiance n'est pas l'imprécision
sur une mesure, mais une condition pour
qu'un panel de mesures soit qualifiable pour représenter la valeur réelle. |
|
|
Le calcul "mécanique", certains diraient
"bestial" de l'intervalle de confiance n'est pas compliqué.
Application d'une formule.
Le coefficient critique est une fonction du niveau
(degré, indice) de confiance:
Exemple: Excel dispose de la fonction "INTERVALLE.CONFIANCE" qui intègre
les données de la table ci-dessus pour tous les niveaux de confiance. Note: l'écart type de dit standard deviation en anglais.
Graphique montrant que plus
on est exigeant sur le niveau de confiance (de 90% à 99,9%), plus
l'intervalle de confiance s'élargit (courbes qui s'évasent).
D'autre part, l'intervalle
diminue en prenant plus d'individus dans l'échantillon (courbe ocre). |
|
|
L'explication précise nécessite des matériaux qui ne
sont pas encore en ligne sur ce site.
Ce sont des développements sur le calcul des centiles pour une loi de
distribution normale normalisée (centrée
et réduite). En
gros
On sait que la distribution de la variable (le
paramètre) dans la population mère est une distribution normale ou alors, on
a choisi un échantillon suffisamment grand (> 30 voire 50).
On construit une variable centrée réduite
Définition d'un intervalle dans lequel cette varaible a
une certaine probabilité de se situer:
En développant:
Il y a donc une certaine chance (1 – ) que m, moyenne
inconnue, appartienne à un intervalle symétrique, centré autour de la moyenne
observée (), et de longueur . Ce qui définit la
zone de confiance de l'intervalle.
La détermination précise d'un intervalle de confiance
dépend de plusieurs éléments:
le degré de connaissance de la population mère;
les conditions de construction de l'échantillon;
la taille et la valeur des paramètres; et
le niveau de confiance retenu.
Avec un échantillon de plus de 30 individus, l'emploi
de la loi normale est légitime (c'est le cas décrit sur cette page). En
dessous: loi normale ou loi de Student, affaire de spécialiste!
L'écart type à utiliser dépend de ce que l'on sait de
l'écart type de la population mère. Encore affaire de spécialiste pour
l'estimer. |
|
||
Les publications médicales
utilisent un niveau de risque de
Valeur mise au point par le
Pr Fischer, il y a 60 ans, précisant qu'il fallait être prudent avec cette
valeur. Néanmoins c'est elle qui est utilisée par tous les spécialistes des
statistiques médicales pour confirmer l'efficacité d'un produit.
En 2013, le "BMC
Medical Research Methodology"publie un article ("Comment les
intervalles de confiance deviennent des intervalles de confusion"). Il
montre comment, à partir de résultats similaires, les chercheurs et cliniciens
arrivent à des conclusions complètement différentes.
Sur la planche du bas en
bleu, ce sont les intervalles de confiance. Tout se tient dans un mouchoir de
poche. Pourtant certains considèrent que les statines sont très efficaces
pour réduire la mortalité, tandis que d'autres considèrent que ça ne marche
pas. |
|
|
Cela tient à l'excès de confiance
que certains scientifiques donnent à cette valeur. Réduire le niveau de
risque conduirait à une révolution dans les laboratoires. Beaucoup de
médicaments ne passeraient pas la barre. |
||
SOURCE: France 5 – Le magazine de la santé – Les publications scientifiques
sont-elles fiables? – David Zavaglia – 21/11/2013