Aller au contenu

Histoire de la statistique

Un article de Wikipédia, l'encyclopédie libre.

On attribue à l'histoire de la statistique ou des statistiques la date de commencement de 1749, bien que l'interprétation du terme « statistique » ait changé au cours du temps. Aux temps plus anciens, cette science ne consistait qu'en la collection d'informations des États[1], d'où l'étymologie du nom, de l'allemand Statistik, dérivé de l'italien statista (« Homme d'État »)[2]. Plus tard, cette définition est étendue à tout type d'information collectée et, encore plus tard, les sciences statistiques incluent l'analyse et l'interprétation de ces données. En termes modernes, les statistiques incluent les ensembles de données, telles celles de la comptabilité nationale et les registres de températures (en), ainsi que le travail d'analyse, lequel requiert les méthodes de l'inférence statistique.

Origines : collecte de données

[modifier | modifier le code]

Monde antique jusqu'au XVIIe siècle

[modifier | modifier le code]
Exemple de quipu.

La science statistique semble exister dès la naissance des premières structures sociales. D'ailleurs, les premiers textes écrits retrouvés étaient des recensements du bétail, des informations sur son cours et des contrats divers. On a ainsi trace de recensements en Chine au XXIIIe siècle av. J.-C. ou en Égypte au XVIIIe siècle av. J.-C. Ce système de recueil de données se poursuit jusqu'au XVIIe siècle. En Europe, le rôle de collecteur est souvent tenu par des guildes marchandes, puis par les intendants de l'État.

Civilisations précolombiennes

[modifier | modifier le code]

La civilisation Inca (1400-1530) a développé un système de numération positionnel en base 10 (donc similaire à celui utilisé aujourd'hui). Ne connaissant pas l'écriture[3], ils utilisaient des quipus pour « écrire » les statistiques de l'État. Un quipu est un encordage dont les cordes présentent trois types de nœuds symbolisant respectivement l'unité, la dizaine et la centaine[4]. Un agencement des nœuds sur une corde donne un nombre entre 1 et 999 ; les ajouts de cordes permettant de passer au millier, au million, etc.

Le jésuite et chroniqueur espagnol Bernabé Cobo (1983 [1653]: 253–254)[5], venu au Pérou après la conquête (1532), rapporte un témoignage indiquant que les quipucamayocs (maîtres du Quipu) étaient chargés de recenser toutes les données relatives aux récoltes. Dans une étude approfondie du quipu VA 42527 (Museum für Völkerkunde, Berlin), Sáez-Rodríguez (2013)[6] démontre que les écritures comptables de clôture des comptes se rapportant aux greniers (à grains) permettaient au quipucamayoc (chargé de la comptabilité) de les faire correspondre au calendrier lunaire[7].

Ce n'est qu'au XVIIIe siècle que l'on voit apparaître le rôle prévisionnel des statistiques avec la construction des premières tables de mortalité. Antoine Deparcieux écrit en 1746 l'Essai sur les probabilités de la durée de vie humaine. Elle va d'abord servir aux compagnies d'assurances sur la vie qui se créent alors[8].

Démographie

[modifier | modifier le code]

La statistique est aussi un appui pour l'histoire prospective ou rétrospective de la démographie notamment. Ainsi en 1842, le Baron de Reiffenberg présentait-il[9] à l'Académie ses calculs rétrospectifs de population chez des peuples gaulois, d'après des chiffres donnés par Jules César dans sa conquête des gaules (De bello Gallico, v.).

Diagramme des causes de mortalité au sein de l'armée en Orient par Florence Nightingale.

Florence Nightingale est une pionnière de la présentation visuelle de l'information. Elle utilise entre autres les diagrammes circulaires, les "Pie Chart", développés par William Playfair en 1801. Après la guerre de Crimée, elle se met à utiliser une version améliorée de ces diagrammes (équivalant aux histogrammes circulaires d'aujourd'hui), afin d'illustrer les causes saisonnières de mortalité des patients de l'hôpital militaire qu'elle gère. Par la suite, Nightingale réalise une étude statistique complète du système sanitaire dans les campagnes indiennes. Elle devient la figure majeure de l'amélioration des soins médicaux et des services publics de santé, en Inde et en Angleterre.

Statistiques mathématiques

[modifier | modifier le code]
Le théorème central limite établit la convergence de la somme d'une suite de variables aléatoires vers la loi normale : toute somme de variables aléatoires indépendantes et identiquement distribuées tend vers une variable aléatoire gaussienne.

Les statistiques mathématiques s'appuyaient sur les premiers travaux concernant les probabilités développés par Fermat et Pascal. C'est probablement chez Thomas Bayes que l'on vit apparaître un embryon de statistique inférentielle. Condorcet et Laplace parlaient encore de probabilité là où l'on parlerait aujourd'hui de fréquence. Mais c'est à Adolphe Quetelet que l'on doit l'idée que la statistique est une science s'appuyant sur les probabilités.

Pierre-Simon de Laplace fait entrer l'analyse dans la théorie des probabilités dans sa théorie analytique des probabilités de 1812 qui restera longtemps un monument. Son livre donne une première version du théorème central limite qui ne s'applique alors que pour une variable à deux états, par exemple pile ou face mais pas un dé à 6 faces. Il faudra attendre 1901 pour en voir apparaître la première version générale par Liapounov. C'est aussi dans ce traité qu'apparaît la méthode de Laplace pour l'évaluation asymptotique de certaines intégrales.

Sous l'impulsion de Quetelet, qui ouvre en 1841 le premier bureau statistique le Conseil Supérieur de Statistique, les statistiques se développent et deviennent un domaine à part entière des mathématiques qui s'appuie sur les probabilités mais n'en font plus partie.

La théorie moderne des probabilités ne prend réellement son essor qu'avec la notion de mesure et d'ensembles mesurables qu'Émile Borel introduit en 1897.

Informatique

[modifier | modifier le code]
Carte rectangulaire beige clair avec dans le sens de la longueur 10 lignes constituées chacune d'une suite de chiffre identique, de 1 à 10. Des perforations verticales font disparaître certains de ces chiffres
Carte perforée à 80 colonnes.

Le XIXe siècle voit cette activité prendre son plein essor. Des règles précises sur la collecte et l'interprétation des données furent édictées. La première application industrielle des statistiques eut lieu lors du recensement américain de 1890, qui mit en œuvre la carte perforée inventée par le statisticien Herman Hollerith. Celui-ci avait déposé un brevet au bureau américain des brevets.

Ajustement d'un modèle par la méthode des moindres carrés.

Legendre en 1805[10] 1811[11] puis Gauss en 1809[12] introduisent, sur des problèmes d'astronomie, la méthode des moindres carrés, ensemble de méthodes qui deviendront fondamentales en statistiques.

Thermodynamique

[modifier | modifier le code]

Ludwig Boltzmann formalise mathématiquement en 1872 l'évolution d'un gaz peu dense hors équilibre. L'« équation de Boltzmann » est l'équation intégro-différentielle de la théorie cinétique permettant d'évaluer la répartition des énergies cinétiques, à une température donnée, des molécules d'un gaz[13].

Boltzmann considère que le système étudié est composé d'un grand nombre de « petits » systèmes isolés de même nature se distinguant les uns des autres par leur phase — à savoir leur configuration et leur vitesse. Ne pouvant suivre l'évolution de l'un de ces systèmes, il « détermine la distribution de l'ensemble des systèmes parmi toutes les phases qu'ils peuvent prendre à un instant quelconque ». Ces considérations statistiques sont les prémices de l'établissement de la physique statistique[14].

XXe siècle

[modifier | modifier le code]
En 1956, IBM produit le premier système à base de disque dur, le Ramac 305 (Random Access Method of Accounting and Control).
Ramac 305 à l'arsenal de Red River de l'U.S. Army. Au premier plan : deux lecteurs de 350 disques ; au fond : console 380 et unité de calcul 305.

Au XXe siècle, ces applications industrielles se développèrent d'abord aux États-Unis, qui étaient en avance sur les sciences de gestion, puis seulement après la Première Guerre mondiale en Europe. Le régime nazi employa des méthodes statistiques à partir de 1934 pour le réarmement. En France, on était moins au fait de ces applications.

L'application industrielle des statistiques en France se développe avec la création de l'Insee, qui remplaça le Service National des Statistiques créé par René Carmille.

L'avènement de l'informatique dans les années 1940 (aux États-Unis), puis en Europe (dans les années 1960) permit de traiter un plus grand nombre de données, mais surtout de croiser entre elles des séries de données de types différents. C'est le développement de ce qu'on appelle l'analyse multidimensionnelle. Au cours du siècle, plusieurs courants de pensée vont s'affronter :

  • les objectivistes ou fréquentistes qui pensent que les probabilités fournissent un modèle permettant d'idéaliser la distribution en fréquence et que là s'arrête leur rôle ;
  • les propensionistes qui voient les probabilités comme un moyen de mesurer la confiance que l'on peut avoir dans une prévision ;
  • les bayesiens qui soutiennent que les données statistiques seules ne permettent pas de donner le modèle probabiliste idéalisant la distribution en fréquence: il est nécessaire de proposer au départ une forme générale du modèle.

Contributeurs importants aux statistiques

[modifier | modifier le code]

Bibliographie

[modifier | modifier le code]

Références

[modifier | modifier le code]
  1. « Pablo Jensen: «Transformer le monde en chiffres, c’est une opération très subjective» », Libération.fr,‎ (lire en ligne, consulté le )
  2. [1].
  3. Seules les données archéologiques apportent des informations sur leur organisation.
  4. Marcia Ascher, Mathématiques d'ailleurs, Nombres, Formes et Jeux dans les sociétés traditionnelles, Éditions du Seuil, 1998.
  5. Cobo, B. (1983 [1653]). Obras del P. Bernabé Cobo. Vol. 1. Edited and preliminary study By Francisco Mateos. Biblioteca de Autores Españoles, vol. 91. Madrid: Ediciones Atlas.
  6. Sáez-Rodríguez. A. (2012). An Ethnomathematics Exercise for Analyzing a Khipu Sample from Pachacamac (Perú). Revista Latinoamericana de Etnomatemática. 5(1):62–88.
  7. Sáez-Rodríguez. A. (2013). Knot numbers used as labels for identifying subject matter of a khipu. Revista Latinoamericana de Etnomatemática. 6(1): 4-19.
  8. Almanach des Français, traditions et variations, page 194.
  9. Essai sur la statistique ancienne de la Belgique. I. Population. - II. Architecture. - III. Mobbilier, Costumes. Par le Baron de Reiffenberg, Seconde partie séance de l'académie du 3 novembre 1832, Bruxelles, PDF, 142 pages
  10. Legendre, Nouvelles méthodes pour la détermination des orbites des comètes, Appendice: sur la méthode des moindres carrés, Paris, Courcier, 1805
  11. Legendre, Méthodes des moindres carrés, lu le 24 février 1811
  12. Gauss, Theoria motus corporum coelestium in sectionibus conicis solem ambientium, 1809
  13. Gérard Bordes, Encyclopédie de A à Z, Paris, Atlas, , volume 3, p. 860.
  14. Robert Locqueneux, Préhistoire & histoire de la thermodynamique classique, ENS-LSH Editions, (ISBN 978-2-84788-058-8), chap. 13 - La mécanique statistique de Gibbs, p. 297.