Identification des causes d’attrition

Identification des causes d'attrition

Contexte & Objectif

Je suis mandatée par la direction RH de l’ESN TechnNova Parterns (spécialisée dans le conseil en transformation digitale et la vente d’applications en SaaS). Ils font face à un taux de démission plus élevé que d’habitude. Ils sont convaincus que « une analyse des données permet d’avoir une vision objective et exhaustive de la situation« .

Il s’agit d’un enjeu majeur. En effet, l’attrition des employés entraîne : perte de compétences clés, désorganisation des équipes, coût de recrutements.

J’interviens dans cette mission pour :

Comprendre les facteurs associés aux départs
Construire un modèle capable d’estimer la probabilité de départ d’un employé
Identifier des leviers d’actions RH concrets
Déployer le modèle sous forme d’une API REST afin de permettre son intégration dans un système RH (mise en production)

Outils & Méthodes

Langage & Data Science : Python (matplotlib, seaborn, numpy, pandas, scikit-learn, shap, xgboost, catboost…)

Backend & API : FastAPI, Pydantic, Uvicorn

Data/Bdd/ORM : SQLAlchemy, PostgreSQL, SQLite

Déploiement : Docker, Hugging Face Spaces

Outils dev & versionning : Github, Git, Visual Studio Code, Terminale, UV (=package manager).

Etape 0 – Configuration de l’environnement de travail

Etape 1 – Structuration et nettoyage des données

Etape 2 – Réalisation d’une analyse exploratoire (EDA) riche et structurée en 7 blocs métier : statistiques descriptives complètes, graphiques variés (boxplots, barplots, histogrammes, violinplots,…).

L’objectif étant de faire ressortir les différences clés entre les employés ayant quitté l’entreprise et ceux encore en poste.

Ajout d’une interprétation métier pour les RH : des insights importants ont été formulés et de premiers leviers actionnables ont été identifiés.

Etape 3 – Feature Engineering : création de 5 variables pertinentes à forte valeur ajoutée.

Etape 4 – Mise en place de la méthodologie de modélisation : problème de classification binaire, création de pipelines scikit-learn reproductibles avec deux préprocesseurs distincts (standardisation, encodage, gestion du déséquilibre des classes), split train/test stratifié, validation croisée (en 5 folds), comparaison de plusieurs types de modèles (baseline, modèles linéaires, modèles non linéaires à base d’arbres).

Etape 5 – Modélisation du modèle retenu (régression logistique) : optimisation des paramètres via GridSearch, optimisation du seuil de décision via la courbe Précision-Rappel, sauvegarde du modèle retenu, exemple d’usage du modèle (fonction de scoring).

Etape 6 – Résultats : performance du modèle (métriques d’évaluation + matrice de confusion) , comparaison rigoureuse de 3 méthodes d’interprétation globale puis interprétation locale (Waterfall plots enrichis par 4 cas contrastés)

Etape 7 – Présentation des résultats : livrables soignés, explication claire des causes potentielles d’attrition et des leviers RH actionnables pour y remédier.

Etape 8 – Déploiement & mise en production : Mise en production du modèle via une API REST développée avec FAST API. Intégration du modèle dans un service de prédiction permettant de traiter des requêtes en temps réel. Mise en place d’une base de données (PostgreSQL/SQLite) pour stocker l’historique des prédictions. Conteneurisation de l’application avec Docker et déploiment sur Hugging Face Spaces.

Résultats & Livrables

Le modèle peut être utilisé comme un outil de scoring permettant d’estimer la probabilité de démission pour chaque salarié à partir de nouvelles données RH. Il pourrait être intégré dans un processus RH afin d’identifier les profils à risque et de mettre en place des actions de rétention ciblées. Dans une perspective de déploiement, le modèle devrait être intégré dans une application ou une API connectée au système d’information RH afin d’automatiser le calcul des scores et leur exploitation par les équipes RH.
Le modèle doit rester un outil d’aide à la décision et non un outil automatisant les décisions RH, afin d’éviter les biais et de préserver l’interprétation humaine.
Après validation du modèle par l’équipe RH, restitutions des éléments suivants:
- - - 1. API REST fonctionnelle permettant de réaliser des prédictions en temps réel
      2. Une documentation intéractive (Swagger/OpenAPI)
      3. Un système de stockage des prédictions en base de données
      4. Un modèle déployé et accessible en ligne (Hugging Face)
      5. Une architecture modulaire et testée (tests unitaires et fonctionnels)

Le projet aboutit à une solution industrialisable permettant l’intégration du modèle dans un environnement métier.

Quelques exemples de visualisations extraites de l’analyse et de la modélisation :