Identification des causes d'attrition
Contexte & Objectif
Je suis mandatée par la direction RH de l’ESN TechnNova Parterns (spécialisée dans le conseil en transformation digitale et la vente d’applications en SaaS). Ils font face à un taux de démission plus élevé que d’habitude. Ils sont convaincus que « une analyse des données permet d’avoir une vision objective et exhaustive de la situation« .
Il s’agit d’un enjeu majeur. En effet, l’attrition des employés entraîne : perte de compétences clés, désorganisation des équipes, coût de recrutements.
J’interviens dans cette mission pour :
- Comprendre les facteurs associés aux départs
- Construire un modèle capable d’estimer la probabilité de départ d’un employé
- Identifier des leviers d’actions RH concrets
Outils & Méthodes
Langage : Python (matplotlib, seaborn, numpy, pandas, scikit-learn, shap, xgboost, catboost…)
Autres éléments : Github, Git, Visual Studio Code, Terminale, UV (=package manager).
Etape 0 – Configuration de l’environnement de travail
Etape 1 – Structuration et nettoyage des données
Etape 2 – Réalisation d’une analyse exploratoire (EDA) riche et structurée en 7 blocs métier : statistiques descriptives complètes, graphiques variés (boxplots, barplots, histogrammes, violinplots,…).
L’objectif étant de faire ressortir les différences clés entre les employés ayant quitté l’entreprise et ceux encore en poste.
Ajout d’une interprétation métier pour les RH : des insights importants ont été formulés et de premiers leviers actionnables ont été identifiés.
Etape 3 – Feature Engineering : création de 5 variables pertinentes à forte valeur ajoutée.
Etape 4 – Mise en place de la méthodologie de modélisation : problème de classification binaire, création de pipelines scikit-learn reproductibles avec deux préprocesseurs distincts (standardisation, encodage, gestion du déséquilibre des classes), split train/test stratifié, validation croisée (en 5 folds), comparaison de plusieurs types de modèles (baseline, modèles linéaires, modèles non linéaires à base d’arbres).
Etape 5 – Modélisation du modèle retenu (régression logistique) : optimisation des paramètres via GridSearch, optimisation du seuil de décision via la courbe Précision-Rappel, sauvegarde du modèle retenu, exemple d’usage du modèle (fonction de scoring).
Etape 6 – Résultats : performance du modèle (métriques d’évaluation + matrice de confusion) , comparaison rigoureuse de 3 méthodes d’interprétation globale puis interprétation locale (Waterfall plots enrichis par 4 cas contrastés)
Etape 7 – Présentation des résultats : livrables soignés, explication claire des causes potentielles d’attrition et des leviers RH actionnables pour y remédier.
Résultats & Livrables
- Le modèle peut être utilisé comme un outil de scoring permettant d’estimer la probabilité de démission pour chaque salarié à partir de nouvelles données RH. Il pourrait être intégré dans un processus RH afin d’identifier les profils à risque et de mettre en place des actions de rétention ciblées. Dans une perspective de déploiement, le modèle devrait être intégré dans une application ou une API connectée au système d’information RH afin d’automatiser le calcul des scores et leur exploitation par les équipes RH.
- Le modèle doit rester un outil d’aide à la décision et non un outil automatisant les décisions RH, afin d’éviter les biais et de préserver l’interprétation humaine.
Quelques exemples de visualisations extraites de l’analyse et de la modélisation :







