Plus encore que de données, c’est de discernement, donc d’expertise et de culture métier, dont le Big Data RH a besoin. La culture de données qu’exige le Big Data doit en effet être complétée d’une connaissance approfondie et vaste du domaine auquel elle s’applique pour éviter les erreurs d’interprétation.
Le syndrome de la blonde moustachue
En 2009, Reuters France relayait une information cruciale pour ceux qui rêvent de voir leur salaire progresser plus vite que les autres sans faire les efforts que l’acquisition de compétences exige inévitablement. En effet, l’article du vendredi 9 octobre 2009, intitulé « La moustache, truchement imparable pour grimper les échelons ? » relatait les résultats d’une enquête réalisée à la demande de Quicken Online et de l’institut américain de la moustache (the American Mustache Institute). Cette enquête réalisée auprès de 6000 personnes révélait ainsi, toujours selon l’article de Reuters, que « les Américains moustachus gagnent 8,2% plus que les barbus et 4,3% plus que les gens rasés de près ».
Un an plus tard, le Telegraph rapportait les résultats d’une enquête réalisée par l’Université de Queensland sur un échantillon de 13000 femmes. Cette enquête concluait que les femmes blondes gagnaient en moyenne 7% de plus que les autres, cette différence étant constante même après avoir retiré d’autres facteurs comme la taille, le poids et l’éducation toujours selon le même article.
Les sources de ces deux enquêtes sont incontestables et les résultats qu’elles présentent sont sans nul doute bien ceux qui ont été statistiquement observés. Il suffirait d’ailleurs d’ajouter à cette rigueur statistique les vertus du bon sens pour aller bien plus loin et « booster » sa situation financière dans des proportions inimaginables … En effet, selon le principe simple que « deux bonnes raisons valent mieux qu’une » on pourrait tenter de croire que l’avenir appartient aux blondes moustachues !
Et ceux qui préfèrent les vertus d’un diplôme aux attributs purement esthétiques, les études ne manquent pas non plus pour mieux identifier les moyens d’y arriver… Ainsi, vous rêvez d’un doctorat en sciences de l’ingénieur ? Mangez alors de la mozzarella cela pourrait augmenter vos chances. Si l’on en croit en effet les données (pardon, les data) de l’U.S. Department of Agriculture et de la National Science Foundation, de 2000 à 2009, la corrélation entre la consommation de mozzarella par tête et le nombre de doctorats en sciences de l’ingénieur serait de plus de 95% …
Ces exemples de « corrélations spécieuses » (voir l’encadré ci-dessous) livrent deux enseignements qu’il semble particulièrement utile de conserver à l’esprit, notamment lorsque le microcosme RH s’enflamme pour les vertus « prédictives » du Big Data, qu’il n’est pas ici question de contester mais sur lesquelles il convient d’être prudent.
La différence entre corrélation et causalité
“spurious correlation”
De nombreux exemples de corrélations spécieuses (“spurious correlations“) sont proposés par le site Tyler Vigen. En voici quelques exemples :
- Une corrélation de 93,57% entre le nombre de voitures particulières japonaises vendues aux Etats-Unis et le nombre de suicides par crash de véhicule à moteur.
- Une corrélation de 99,79% entre les dépenses des Etats-Unis dans les domaines de la science, de l’espace et des technologies et les suicides par pendaison, strangulation et étouffement.
- Une corrélation de 99,26% entre la consommation de margarine et le taux de divorce dans le Maine… ou de 97% entre la consommation de lait aux Etats-Unis et le taux de divorce en Alabama.
Pour celle ou celui qui veut bien faire l’effort de réfléchir un instant, cela ne semble pas bien difficile de comprendre qu’une corrélation entre deux phénomènes n’est pas nécessairement la preuve d’une relation de cause à effet entre eux. En effet, une corrélation ne témoigne que de l’existence d’une relation mathématique entre deux séries de données, et cette relation est un indicateur de la probabilité d’une relation de cause à effet. La concomitance de deux phénomènes, quand bien même celle-ci soit elle forte, n’est en aucun cas la preuve que l’un des deux phénomènes est la conséquence directe de l’autre.
A l’instar du raisonnement post hoc (confondre antécédent et cause), confondre corrélation et causalité est un sophisme c’est-à-dire une “argumentation à la logique fallacieuse (…) un raisonnement qui cherche à paraître rigoureux mais qui n’est en réalité pas valide au sens de la logique (quand bien même sa conclusion serait pourtant la « vraie »” (source: Wikipedia).
Pour approfondir le sujet corrélation / causalité
Les dangers de l’interprétation
Cette confusion malheureusement fréquente témoigne de l’importance de la phase d’interprétation de ce que l’on observe, qu’il s’agisse d’une observation « mathématique » ou non. De nombreux biais, à commencer par ceux dont nous sommes les seuls responsables (les préjugés par exemple) peuvent perturber le regard que l’on porte sur un phénomène. Les statistiques présentent à elles seules de nombreuses situations qui obligent à faire preuve non seulement de rigueur mais à aller voir bien plus loin que le bout de son nez avant de tirer des conclusions hâtives.
Le paradoxe de Simpson (voir encadré ci-dessous) est une parfaite illustration de cette complexité car il est totalement contre-intuitif : une corrélation observée sur une série de données peut disparaître voire même s’inverser selon qu’on étudie les données par sous-ensembles ou globalement.
De nombreuses autres sources d’interprétation hâtive existe : la manière dont les données ont été codifiées, l’existence de facteurs explicatifs « cachés », etc. Bien sûr, la surabondance de données qui est aujourd’hui possible permet vraisemblablement de limiter certains de ces risques. On a par exemple moins de risques « d’ignorer » un facteur causal dès lors qu’on multiplie les volumes de données exploitées.
Par ailleurs, en contribuant à renouveler ou à tout le moins à élargir le champ des méthodes d’analyse, le Big Data contribue indéniablement à améliorer le potentiel explicatif des analyses statistiques.
Le paradoxe de Simpson
Il existe de très nombreux exemples concrets du paradoxe de Simpson. Le site Science étonnante en offre de nombreux.
Prenons un exemple simple. Quelle école choisir pour votre enfant en fonction du taux de réussite au Bac ? Supposons que vous disposiez de l’information suivante :
- Sur 600 filles entrées à l’école A, 590 ont eu le bac, le taux de réussite de l’école A pour les filles est de 98% (590/600) alors que sur 900 filles entrées à l’école B, 870 ont eu leur bac ce qui porte le taux de réussite de l’école B pour les filles à 97%. L’école A a donc un meilleur taux de réussite pour les filles.
- Sur 400 garçons entrés à l’école A, 210 ont eu le bac soit un taux de réussite de 53%, alors que sur 100 garçons entrés à l’école B seuls 30 ont eu le bac soit un taux de réussite de 30%. Là encore, l’école A présente un meilleur taux de réussite pour les garçons.
La conclusion qui devrait s’imposer naturellement est la suivante : que l’on soit une fille ou un garçon, le taux de réussite de l’école A est supérieur à celui de l’école B.
Pourtant si l’on observe le même échantillon dans sa globalité on s’aperçoit que :
- sur 1000 personnes entrées dans l’école A (600 filles et 400 garçons), 800 ont eu le bac (590 filles et 210 garçons) soit un taux de réussite de l’école A de 80%
- alors que sur 1000 personnes entrées dans l’école B (900 filles et 100 garçons) 900 ont eu le bac (870 filles et 30 garçons) soit un taux de réussite de l’école B de 90%.
La conclusion qui s’impose est que l’école B a un meilleur taux de réussite global que celui de l’école A.
Cette conclusion est rigoureusement opposée à la précédente alors que ce sont strictement les mêmes données.
La nécessité du discernement
Cependant, pour passer de l’analyse à un modèle que l’on qualifiera de « prédictif », il faut en quelque sorte s’assurer de la pertinence, ou du «sens» de l’algorithme sur lequel repose cette prédiction. Or, c’est précisément là où l’interprétation est déterminante car une fois transformée en algorithme, c’est-à-dire en modèles de représentation, ils ne sont, par nature, que peu critiqués ou remis en cause. Le temps de la modélisation est en effet toujours plus lent que celui des faits.
L’univers RH n’échappe pas à la règle et le nombre d’études, non pas farfelues dans leur résultat mais dans l’usage que l’on en fait ou la publicité qu’on leur offre, en témoigne. Que dire en effet de cette étude réalisée de concert par 3 universités (l’Université de Cornell à New York, de l’Université Notre-Dame dans l’Indiana et l’Université Ouest de l’Ontario) et qui tend à démontrer que les « méchants » gagnent 18% de plus que les « gentils » ? Ou de cette autre étude qui amène le Figaro à écrire que « faire preuve d’audace stylistique pourrait même être un sérieux atout pour votre carrière comme le prouve une nouvelle étude britannique menée par Case Station, une entreprise d’accessoires pour portables » ?
Or, le discernement dont il est ici question pour faire parler les données et que cela fasse sens repose sur trois dimensions fondamentales.
A n’en pas douter, réunir ces trois dimensions reste l’un des grands défis des années à venir.