💝 Soutenez Datatour ! Votre don nous aide à continuer notre mission.
Logo

Datatour 2025

La DataTour 2025, également désignée comme la Coupe d'Afrique des Nations en Science de Données (CANSD), marque une initiative pionnière ...
Inscriptions

Du 4 juillet 2025

au 18 octobre 2025

Tags
#2025 #datatour #science #donnees #data

Phase de compétition

Début

11 octobre 2025

Fin

06 décembre 2025

Gagnants

06 décembre 2025

🌍 Contexte

L’accès au crédit est l’un des leviers essentiels du développement économique, que ce soit pour financer une activité, un projet personnel ou un besoin urgent. Mais avant d’accorder un prêt, une question cruciale se pose : le client sera-t-il capable de rembourser ?

C’est tout l’enjeu du credit scoring, une tâche au cœur des systèmes bancaires modernes.
Grâce aux données et à l’intelligence artificielle, les institutions financières peuvent aujourd’hui évaluer le risque de défaut avec plus de précision et d’équité.

En Afrique, où une large partie de la population reste sous-bancarisée, développer des modèles de scoring performants et adaptés au contexte local peut favoriser une inclusion financière durable. Ce défi est donc bien plus qu’un simple exercice de data science : il s’agit d’une application directe de la data au service de la société

C’est dans cette optique que s’inscrit la phase nationale du DataTour 2025, invitant les participants à relever un défi de prédiction de défaut de crédit basé sur des données d’historique de prêts.

🎯 Mission à accomplir

Votre mission est de concevoir un modèle de prédiction du risque de défaut à partir des historiques de crédit de clients d’une institution financière.

Vous devrez, à partir des informations disponibles sur chaque prêt, estimer la probabilité qu’un client fasse défaut (flag = 1) ou rembourse correctement (flag = 0).

Deux approches principales s’offrent à vous :

  • Modèles de machine learning traditionnels (Logistic Regression, XGBoost, CatBoost, LightGBM, etc.) utilisant des caractéristiques agrégées et dérivées ;

  • Modèles séquentiels ou neuronaux (RNN, LSTM, Transformers) exploitant directement la dimension temporelle des historiques de crédit.

📂 Jeu de données fourni

Le jeu de données fourni regroupe les informations issues des historiques de crédit des clients sur plusieurs mois.
Chaque ligne correspond à un produit de crédit associé à un client, avec des détails sur sa durée, son statut, et son comportement de paiement.

Retrouvé les données également sur ce lien : https://drive.google.com/drive/folders/1gTa4g4PoGoCW1We_2BIFmuzJOF9LpUNB

📑 Principales colonnes :
  • id : identifiant unique de la demande de prêt

  • flag : variable cible (1 = défaut, 0 = remboursement normal)

  • rn : numéro de série du produit de crédit dans l’historique

  • pre_since_opened / pre_since_confirmed : nombre de jours écoulés depuis l’ouverture ou la confirmation du prêt

  • pre_pterm / pre_fterm : durée prévue et réelle du prêt

  • pre_till_pclose / pre_till_fclose : jours restants avant la clôture prévue ou réelle

  • pre_loans_credit_limit : limite de crédit accordée

  • pre_loans_next_pay_summ / pre_loans_outstanding : montant du prochain paiement et montant restant impayé

  • pre_loans_total_overdue / pre_loans_max_overdue_sum : dettes en souffrance (actuelle et maximale)

  • pre_loans_credit_cost_rate : coût total du crédit

  • pre_loans5 / pre_loans530 / pre_loans3060 / pre_loans6090 / pre_loans90 : nombre de paiements en retard selon les intervalles de jours

  • is_zero_loans_* : indicateurs booléens indiquant l’absence de retard sur les intervalles correspondants

  • pre_util / pre_over2limit / pre_maxover2limit : ratios financiers sur les montants dus et limites de crédit

  • is_zero_util / is_zero_over2limit / is_zero_maxover2limit : indicateurs d’absence de dette ou de dépassement

  • enc_paym_{0..n} : statut des paiements mensuels sur les n derniers mois (séquence temporelle)

  • enc_loans_account_holder_type / enc_loans_credit_status / enc_loans_account_cur / enc_loans_credit_type : informations catégorielles sur le type, le statut et la devise du prêt

  • pclose_flag / fclose_flag : indicateurs de données manquantes sur la durée prévue ou réelle du prêt

Toutes les données sont anonymisées.

⚙️ Comment votre travail sera évalué

Les modèles seront évalués à l’aide de la métrique ROC AUC, une référence dans le domaine du credit scoring.
Les participants devront soumettre un fichier .parquet contenant :

  • id : identifiant unique du prêt,

  • target : probabilité estimée que le client fasse défaut.

Un exemple de soumission est disponible dans sample_submission.parquet.

💡 Pourquoi ce défi a une importance capitale

Ce challenge est une occasion unique pour vous de :

  • appliquer concrètement vos compétences en data science à un problème réel du secteur financier,

  • comprendre la valeur des données transactionnelles,

  • et contribuer à l’innovation dans le domaine du crédit et de l’inclusion financière sur le continent.

🏁 Classement final et soumission des livrables

Le classement se fera en deux étapes :

  • Public leaderboard : résultats intermédiaires sur une partie du test set,

  • Private leaderboard : résultats finaux déterminant les gagnants.

Les lauréats devront fournir leur solution sous forme de fichier ipynb


Partenaires