dimanche 6 avril 2014

Les grandeurs ne sont pas équiprobables ! L'étrange loi de Benford.


Lu / entendu


Avez vous remarqué: qu'il s'agisse de million de dollars, d'habitants ou de kilomètres, les chiffres que l'on entend commencent souvent par 1 ?
Fiction, simplification, oreille sélective, ou... réalité ?

Il est, parait-il, des bonimenteurs qui vous laissent choisir une statistique géographique ou financière au hasard, et parient sur le 1, 2 ou 3 en tête, vous laissant la mise si le premier chiffre est supérieur à 3.

On pourrait pourtant se dire que, pris au hasard parmi toutes les distances, montants ou nombres, les chiffres devraient se répartir uniformément au hasard, comme le jet de dé parmi les 6 faces, ou les numéros du loto ! Si chacun des 9 chiffres est équiprobable, il a 1 chance sur 9 de sortir (11.11%), et le bonimenteur ne devrait gagner qu'1 fois sur 3.
Ne serait-ce pas le cas ?

Regardons ce qu'il en est pour quelques grandeurs dont on peut facilement trouver les chiffres sur le web (on a mis en couleur la proportion cumulée pour un premier chiffre de 1, 2 ou 3):

Longueurs de 130 fleuves de France métropolitaine, en km:
1er chiffre :         1   2   3   4   5  6   7  8  9 
fleuves dans ce cas: 32  22  17  18   7  11  9  9  5
pourcentage:         25% 17% 13% 14%  5%  8% 7% 7% 4%
pourcentage cumulé:  25% 42% 55% 69% 74% 82%89%96%100%

Population des 192 pays du monde:
1er chiffre :        1   2   3   4   5  6   7   8  9 
pays dans ce cas:   56  34  23  22  13  16  11 12  5
pourcentage:        29% 18% 12% 11%  7%  8% 6%  6% 3%
pourcentage cumulé: 29% 47% 59% 70% 77% 85% 91%97%100%

Taux de changes de 117 monnaies (en euro)
1er chiffre :        1   2   3   4  5   6   7  8   9 
monnaie dans ce cas: 43 23  14   6  11  4   4  6   6
pourcentage:        37% 20% 12%  5% 9%  3%  3% 5%  5%
pourcentage cumulé: 37% 57% 69% 74% 83% 86% 89%94%100%

Distances au soleil des 8 planètes en km
1er chiffre :         1   2  3  4    5  6   7  8  9 
planètes dans ce cas: 3   2     1    1      1   
pourcentage:         38% 25%  12.5% 12.5% 12.5%  
pourcentage cumulé:  38% 63%   76%  88%   100%

PIB des 211 pays en dollars
1er chiffre :        1   2   3   4   5   6   7   8  9 
pays dans ce cas:   65  47  20  24  17   10 16   7  5
pourcentage:        31% 22% 10% 11%  8%  4%  8%  3% 2%
pourcentage cumulé: 38% 53% 63% 74% 82% 86% 94%97%100%

Chaque fois, le 1 est de loin le plus probable, environ 3 fois plus qu'il devait avec un hasard uniforme, et les chiffres suivants ont de moins en moins de chance d'être le premier chiffre des grandeurs mesurées. Et le score cumulé des chiffres 1, 2, 3 est toujours assez voire très supérieur à 50% des "tirages", au lieu d'une chance sur trois: le bonimenteur n'est pas fou, bien que les chiffres ne soient pas truqués. Cette répartition paradoxale est dénommée loi de Benford.
Mais comment est-ce possible ?


Analyse


Evidemment, cette étrange propriété ne peut s'appliquer qu'aux grandeurs autorisant une amplitude vaste: la taille d'un humain adulte ne varie pas d'un facteur 1 à 9, ni sa pointure de chaussures.  Les angles sont limités à 360° (sauf à compter en tours); quant aux numéros de téléphones, leur premier chiffre est déterminé artificiellement (opérateur ou région).

Pour ce qui concerne les grandeurs à "échelle ouverte",  allant de l'infiniment petit à l'infiniment grand, du moins, s'étalant sur plusieurs ordres de grandeur (car il est difficile de caser une rivière d'1 million de km sur Terre, et on dénomme rarement "fleuve" un écoulement millimétrique), la propriété ne dépend pas non plus des unités de mesure choisies, ni de la base.

Mais que veut dire "prendre un nombre au hasard" pour une grandeur à échelle ouverte ?

Pour examiner une affirmation avec esprit critique, il est important que chaque terme et notion soit précis:
  • Probabilité d'un nombre, ou de son 1er chiffre, est-ce que ça change quelque chose ?
    Oui et non: un 1er chiffre correspond juste à un intervalle de nombres possibles, par exemple entre 100 et 199 pour un '1' de centaines. Mais de toutes façons quand une infinité de valeurs exactes sont possibles, la probabilité de chacune est zero; il est donc plus commode de considérer des "lots", c'est à dire des intervalles de valeurs.
  • Le 1er chiffre peut correspondre à des dizaines, centaines, milliers... Est-ce qu'on peut impunément ne retenir que le chiffre et oublier sa position ?
    Oui, puisqu'on peut raisonnable supposer que ce qui compte tant qu'on est loin des limites physiques de taille, ce sont les rapports et proportions plus que les valeurs absolues (a fortiori avec une unité de mesure arbitraire): peut être qu'il y a plus de rivières courtes que longues, peut être que la proportion de rivières 10%, 2 fois ou 10 fois plus longue qu'une référence donnée est inégale, par contre on voit mal pourquoi ces proportions changeraient selon que la référence soit le kilomètre ou la centaine de kilomètres (tant qu'on n'est pas gêné par les limites du continent, ou de ce qu'on appelle ou non "rivière").

Cette considération sur les "égales proportions" est en fait la clé du mystère:

Pour des grandeurs à échelle ouverte, ce qui est raisonnablement comparable, ce sont les proportions et non les valeurs absolues: "une rivière deux fois plus longue" n'a pas la même significativité que "une rivière 10% plus longue". L'intervalle de 1 à 2 est plus "vaste" que de 1 à 1.1, indépendamment de s'il s'agit de dizaines ou de milliers. Or l'intervalle des nombres dont le 1er chiffre est 9 couvre un écart allant de 9 à 10 (non compris), c'est à dire de 11%, alors que celui correspondant au chiffre 1 couvre un écart allant de 1 à 2 (non compris), c'est à dire de 100%. Comme il y a la même proportion entre 1 et 2 (1er chiffre = 1) qu'entre 2 et 4 (1er chiffre = 2 ou 3) ou qu'entre 4 et 8 (1er chiffre = 4, 5, 6 ou 7), on comprend alors pourquoi les nombres n'ont pas la même significativité selon que leur premier chiffre est 1 ou 9, d'où la fréquence des premiers et la rareté des derniers (sauf sur les prix, quand ils veulent se signifier comme en dessous d'une barre symbolique :-) ).

Pour boucler la boucle et obtenir une prédiction quantitative que l'on puisse comparer à nos observations, il nous reste à "peser" le dernier intervalle de 8 à 10 (non-compris), par rapport aux trois autres. Comment calculer cela ? Comme les humains préfèrent manipuler des grandeurs "linéaires", c'est a dire dont les graduations sont égales, alors que la physique traite nombre de grandeurs naturelles à échelle ouverte ou "exponentielles" (un exemple typique étant les fréquences musicales, où un octave est un rapport 2 et un demi-ton un rapport de 13/12ème, ou encore les décibels pour les intensités sonores), les mathématiciens ont introduit la fonction logarithme (le contraire de l'exponentielle) qui permet cet "aplanissement" des grandeurs: le log transforme les proportions en différences (donc en "écarts") et les multiplications en additions. A logarithme égal, les intervalles auront la même significativité (et donc la même probabilité), c'est donc en échelle logarithmique (compensant la nature "exponentielle") que les grandeurs sont réparties uniformément. Ce qui nous permet de "peser" toute taille d'intervalle, et en particulier, de "normaliser" l'intervalle de 1 à 2 par rapport à celui de 1 à 10 regroupant toute la succession de 1 à 9 des 1er chiffres (en base 10): le premier "pèse" log(2)-log(1), et le second log(10)-log(1), ce qui donne la probabilité d'un intervalle de 1 à 2 : 0.30 et des poussières. L'intervalle correspondant au chiffre n (de n à n+1 non compris), a donc pour probabilité  log(n+1)-log(n) divisé par log(10)-log(1) (ce que les matheux simplifient en log10(1+1/n) ). On obtient ainsi la probabilité de chaque 1er chiffre: 
1er chiffre :        1   2   3   4   5   6   7  8  9  
probabilité:        30% 18% 12% 10%  8%  7%  6% 5% 5%
probabilité cumulée:30% 48% 60% 70% 78% 85% 91%96%100%

Ce qui colle de très près à nos observation: le mystère est expliqué !  Et ce qui confirme le gain du bonimenteur, qui pour le coup n'est pas menteur mais exploite les faiblesses de nos intuitions...



NB:
Cette repartition inintuitive a une application pratique inattendue: elle permet de détecter des comptabilités bidon et des expériences scientifiques falsifiées. En effet, les humains voulant inventer des montants ou des valeurs physiques ont du mal à reproduire la vraie répartition naturelle, aussi, si les chiffres fournis sont assez nombreux pour que les variations aléatoires normales soient lissées,  une répartition non-conforme à la loi de Benford est louche.
Et si l'on craint un maquillage de chiffres qui en tiendrait compte, il est également possible de caractériser une loi de répartition du second chiffre, plus subtile mais tout aussi mesurable.

Pour en savoir plus:






Aucun commentaire:

Enregistrer un commentaire