Les data-scientist perdent en Jacques Bouveresse un penseur important de leur discipline

La démonstration de Sébastien Fressoz sur la vanité de se prétendre la “première génération à avoir conscience des enjeux environnementaux et climatique” (il en fait remonter la généalogie au moins sur les trois derniers siècles¹ ) pourrait s’appliquer au débat actuel sur le “besoin d’éthique de l’intelligence artificielle” qui se présente souvent comme une réaction “au récent développement de l’usage des algorithmes” : évidemment ces questions d’éthique sont posées depuis des décennies, et Jacques Bouveresse a publié en 1993 un livre captivant sur des sujets connexes. Il s’agit de L’homme probable, Robert Musil, le hasard, la moyenne et l’escargot de l’histoire.

Jacques Bouveresse s’appui de manière conséquente sur le travail de Robert Musil, un écrivain autrichien né en 1880 et mort en suisse en 1942. Musil a notamment écrit un livre non terminé, L’homme sans qualité, redécouvert dans les années 1950, qui est depuis considéré comme un chef d’oeuvre du 20è siècle, au même titre que La recherche du temps perdu.

Situé en 1913, l’homme sans qualité est un épais roman de près de de deux mil pages structuré en quelques centaines de chapitres, dont l’enchevêtrement des idées, des personnages et des histoires rend l’ensemble difficilement résumable. On peut néanmoins, pour le plaisir citer quelques passages :
- ch 4 : “Quand on veut enfoncer les portes ouvertes avec succès, il ne faut pas oublier qu’elles ont un solide chambranle : ce principe (…) n’est pas autre chose qu’une exigence du sens du réel. Mais s’il y a un sens du réel (…), il doit bien y avoir quelque chose que l’on pourrait appeler le sens du possible. (…) Ainsi pourrait-on définir simplement le sens du possible comme la faculté de penser tout ce qui pourrait être “aussi bien” et de ne pas accorder plus d’importance à ce qui est qu’à ce qui n’est pas.”
- ch 62 : “tous ceux qui sont si fiers de rationaliser tout ce qu’ils touchent, ces hommes-là préfèrent abandonner les questions de beauté, de justice, d’amour et de foi, bref tous les grands problèmes humains”
- ch 103 : “la loi des grands nombres, par quoi l’on peut dire à peu près que, si un homme tue pour telle raison et un autre pour telle autre, dès qu’on a affaire à un très grand nombre, le caractère arbitraire et personnel de ces motifs disparaît, et il ne demeure… précisément, qu’est-ce qui demeure ? Voilà ce que j’aimerais vous entendre dire. Ce qui reste, en effet, vous le voyez vous -même, c’est ce que nous autres profanes appelons tout bonnement la moyenne, c’est-à-dire quelque chose dont on ne sait absolument pas ce que c’est.”
Musil était un critique de la pensée statistique, aussi Bouveresse s’appuie sur une dizaine de ses ouvrages pour aborder des thèmes tels que la philosophie de la statistique, l’enjeu de la moyenne en science, l’impact sur la définition de l’individu, et l’histoire des débats sur l’acceptabilité même de la statistique (que Descartes refusait de considérer à contrario de Leibniz) et comment : “la force de la science a été justement de savoir renoncer au bon moment à la recherche de la certitude” (p. 111).
Jacques Bouveresse remarque il que la statistique, science du hasard, “est essentiellement la science de la manière dont le hasard s’élimine pour faire place à des régularités” (p 186), c’est à dire que le hasard s’élimine de lui même, mais nous ne savons absolument pas pourquoi ni comment. C’est une science sans explication.
Et Bouveresse de noter que : “La statistique ne s’intéresse, en fait, qu’aux aspects suffisamment génériques des événements réel et traite en pratique toute le reste, c’est-à-dire tout ce qu’ils ont de purement événementiel et d’irréductiblement singulier comme constituant une sorte de hasard résiduel.” La situation à laquelle on aboutit constitue donc une sorte de “paradoxe constitutif” puisque “tous les événements possibles sont en principe explicables par des lois, mais les événements devenus réels, tels qu’ils se présentent lorsqu’ils arrivent, ne sont jamais vraiment expliqués par elles.” (p198)
Alors que dans nos métiers de data-scientists nous cherchons à dépasser ces règles statistiques par des modèles, Bouveresse nous alerte encore sur notre ubris si nous nous attaquons à prévoir les individus: “Ce qui caractérise l’individu [est] le fait de nous apparaître “comme une chose dans laquelle le factuel excède en importance de façon très significative la possibilité d’expliquer en termes de régularités la façon dont il est apparu” (Musil). Les motifs qu’on invoque pour expliquer une action sont généralement des motifs typiques et ne rendent pas compte de ce qu’elle peut avoir de plus individuel”.
Alors que les managers des magasins de grands groupes comme LVMH peuvent s’extasier face à la prédiction des data-scientists du groupe sur le retour de certains clients en boutique, il ne faut pas oublier les biais de lecture de ces résultats : combien de fausses prédictions pour une prédiction correct, dès qu’il s’agit de l’humain ? Combien de marge de sécurité dans la prédiction ? Quel calcul pour le ROI ? La vérité est que lorsqu’il s’agit d’humains, nos modèles ne fonctionnent correctement que sur la masse des personnes concernées, parce que sur le grand nombre nous allons retrouver (et on espère surpasser grâce au modèle) la loi centrale limite.
Ensuite Bouveresse convoque Wittgenstein (1889–1951), Von Kries (1853–191928), Hacking (1936), pour approfondir son analyse et distinguer entre deux types de déterminations :
1. les déterminations qu’il nomme nomologiques, qui sont des lois physiques à validité universelles : elles instaurent une relation entre des conditions initiales et des conséquences résultant de ces lois
2. les déterminations ontologiques, qui varient avec le temps, qui désignent justement les conditions initiales de l’expérience concrète
On pourrait dire que les déterminations nomologiques pourraient correspondre à nos modèles, et que les ontologiques dépendent des valeurs des features au moment de la prédiction.
Les déterminations ontologiques doivent donc être connues avec certitudes pour nous permettre d’activer les nomologiques, au risque sinon d’être inutiles, or elles “échappent par principe à notre connaissance”. Nous avons beau multiplier les features dans nos modèles, la qualité des données d’entrée et leur capacité à représenter le monde seront toujours insuffisant. Cela couplé à des modèles absolument imparfait, nos prévisions ne sont théoriquement que mirages. Comme on sait : “Tous les modèles sont faux, mais certains sont utiles.” (George Box, 1919–2013)
Néanmoins Bouveresse nous ouvre la voie vers des philosophes proposant des théories surprenantes, comme Timmerding qui propose l’idée que lorsqu’on tire des boules noires et blanches d’une urne, la loi des grands nombres découvre une “régularité non causale” qui s’explique par un “génétisme du hasard” à travers lequel les “causes des événements fortuits ont la capacité de s’influencer les unes les autres d’une façon qui consiste en quelque sorte à se concerter entre elles dans le but d’harmoniser leurs actions et qui évoque de près l’animisme”.
Il évoque aussi le travail de Musil sur une conférence de von Neumann en 1936 qui nota : “On aboutit à ce paradoxe que que du point de vue du physicien la racine de la causalité est le hasard”. Ainsi “si l’on considère que tous les événements que nous observons sont en réalité quelque chose comme la résultante (la moyenne) d’une multitude de micro-événements dont l’occurence ou la non-occurence dépendent uniquement du hasard, il est possible de donner un sens à l’idée qu’une absence fondamentale de raison est à la base de tous les événements qui se produisent et que ce qui arrive ne repose jamais que sur quelque chose qui, en dernière analyse, n’a pas de raison.” (p. 206)
D’autant que depuis l‘émergence de la mécanique quantique nous savons que “le caractère aléatoire ou probabiliste ne réside pas simplement dans notre défaut de connaissance, mais dans la nature même des choses” (p 9).
Partant, des questions philosophiques émergent pour Musil : “comme notre vie n’a aucun sens, elle ne connaît pas dans son ensemble de vrai progrès” (p 246), ni de régression note Bouveresse. Et de citer davantage les réflexions de Musil sur “l’amorphisme humain, qui a pour conséquence qu’il est à peu près impossible de donner un sens à l’idée d’un progrès moral de l’humanité” et voilà comment l‘analyse des statistiques débouche sur des considérations socio-philosophiques. Et selon Musil “l’erreur est que le progrès veuille toujours en finir avec le sens ancien” et dont que “ce que l’on peut reprocher au progrès est de ne pas se contenter de créer des possibilités nouvelles, mais de supprimer du même coup les anciennes, et de transformer en obligation la possibilité d’utiliser les premières de préférence aux secondes.” Ce que Fressoz appelle “le fait technologique accompli” dans son livre l’apocalypse joyeuse².
Ainsi selon Musil, analysé par Bouveresse : “le vrai problème est peut être que que le progrès ne supprime pas nécessairement les possibilités que nous avons le plus à redouter et le moins de raisons de regretter et que nous croyons volontiers d’un âge. Si nous sacrifions encore aujourd’hui autant d’être humains à des dieux ou des fétiches divers, c’est peut-être parce que ‘nous n’avons jamais posé clairement la question du véritable dépassement des idées primitives de l’homme’ (Musil) . La vérité est que nous ne les avons sans doute pas dépassées; mais le progrès constitue justement ce qui nous dispense de poser sérieusement la question.” (p 247)
Il est dommage que ces questions soient quasiment absentes des formations en data-science. La fascination pour les techniques informatiques laisse de côté toute la riche réflexion sur le sens et la possibilité du sens du progrès, et son impact sur l’individu, alors que “Musil a toujours été convaincu que le problème de la relation de l’individu à ses formes d’organisation était le grand problème non résolu des sociétés contemporaines” (p 281). Ainsi Bouveresse note-t-il que “Quételet (1796–1874) pensait que le meurtrier n’est que l’instrument qui, en raison des circonstances dans lesquelles il se trouve placé, exécute le crime qui a été préparé en réalité par la société elle-même (…) : ‘c’est la société qui prépare le crime, et le coupable n’est que l’instrument qui l’exécute’ (Musil). On comprend aisément, dans ces conditions, la difficulté à laquelle se trouve confrontée la société, obligée de juger et de châtier le criminel et, pour cela, de continuer à faire comme s’il avait agi de façon libre et responsable, tout en sachant très bien, par ailleurs, qu’il ne peut avoir été, en réalité, que l’exécutant d’un méfait préparé en fin de compte par elle”.
A l’heure des privations de liberté, de l’extension des caméras de vidéos surveillances, et du fichage généralisé via les réseaux sociaux et l’intelligence artificielle, ce point de vue vieux de 150 ans est toujours d’une actualité flagrante. Le livre de Jacques Bouveresse est une excellente introduction à ces sujets, et a l’intérêt d’être écrit deux ans avant la sortie de Windows 95 et l’émergence mainstream d’internet. Il nous parle donc d’un monde d’avant, d’un monde que les data-scientists récemment formés n’ont pas connu, un monde qui a disparu en 30 ans, mais qui savait pourtant déjà poser les questions pertinentes pour notre nouveau monde de la communication, des réseaux sociaux, et de la contestation des institutions sociales que nous retrouvons cristallisés dans le phénomène Bitcoin.