YG
Données ouvertes africaines & mondiales

13 projets. Données réelles. Modèles réels.

Projets de bout en bout en science des données et apprentissage automatique sur données publiques réelles — modélisation prédictive, inférence statistique, prévision, optimisation et expérimentation à travers la santé, l'énergie, la finance, le commerce de détail et au-delà.

En bref

Chiffres clés du portfolio

6.2%
MAPE — charge horaire PJM (GBM, vs SARIMA 14,5 %)
7 cm
RMSE — niveau du lac Kariba (30 jours)
0.71
AUC — attrition MTN Nigeria (XGBoost)
+122%
Gain de couverture — cliniques mobiles au Kenya (Q-learning vs manuel)
Treize projets

Projets

01
SARIMA WAPE 0.94

Prévision de la demande — chaîne d'approvisionnement en santé

Horizon 12 mois sur les expéditions PEPFAR réelles — focus Rwanda.

Séries temporelles
SARIMAUC state-spaceHolt-WintersGBM
USAID PEPFAR SCMS · 10,324 shipments
02
GBM MAPE 6.2% · UC PI 99%

Prévision de charge horaire — PJM

Modèle à espace d'états + Fourier exogène vs SARIMA sur 145 000 heures de charge PJME.

Séries temporelles
SARIMAUnobservedComponentsFourier exogGBM
PJM Hourly Consumption · 145k records
03
Tweedie Gini 0.310 · Lift 2.52

Sinistres : fréquence & gravité

GLM Poisson / Gamma / Tweedie sur freMTPL2 avec GBM en concurrent.

Régression / GLM
Poisson GLMGamma GLMTweedieXGBoost
freMTPL2 freq + sev · 678k policies
04
MinT-OLS reconciliation

Prévision hiérarchique de la demande — M5

SARIMA + GBM avec MinT-OLS pour rendre cohérentes les prévisions article × magasin × semaine.

Séries temporelles
SARIMAGBMMinT-OLSRMSSE
M5 sample · 13 items × 10 stores × 275 weeks
05
Q-learning +122% vs manual

Planification de cliniques mobiles — Kenya

MDP + Q-learning vs PL plafonnée sur données KMPDC + SHA réelles.

Optimisation
MDPQ-learningLinear programmingscipy.linprog
Kenya KMPDC + SHA · 7,876 facilities
06
GBM RMSE 7 cm · SARIMA PI 100%

Prévision du débit fluvial — lac Kariba

Niveau journalier du lac sur données réelles du barrage du Zambèze ; débit turbiné en exogène.

Séries temporelles
SARIMAState-spaceGBM exog
Lake Kariba reservoir · 1,155 daily obs
07
GBM MAPE 9.4% · 10-yr daily

Prévision solaire — Nairobi

Irradiance journalière avec covariables météo depuis l'API NASA POWER.

Séries temporelles
SARIMAUnobservedComponentsFourier annualGBM weather exog
NASA POWER · 3,652 days, 6 vars
08
Cox PH + Weibull AFT

Analyse de survie client — MTN Nigeria

Ancienneté en temps, attrition en événement ; KM, Cox PH, Weibull AFT, stratification log-rank.

Survie
Kaplan-MeierCox PHWeibull AFTLog-rank
MTN Nigeria · 974 customers
09
SARIMA MAPE 2.0% · price MAE 410 ZAR

Demande & prix aériens — Afrique australe

Prévision journalière du volume sur la route principale + prédicteur de prix GBM sur toutes les routes.

Séries temporelles
SARIMAGBMDynamic pricing
SA Flight Prices · 15,393 flights
10
GBM R² 0.57 · OLS 0.51

Évaluation immobilière — Lagos

Variables : nombre de chambres + type de bien + quartier sur 9 607 annonces de vente à Lagos.

Régression / GLM
OLSGBMLog targetFeature engineering
Lagos Housing · 9,607 listings
11
GBM R² 0.66 (vs OLS 0.31)

Prévision géospatiale de la production agricole

Prévision des ventes agricoles à partir de lat/lon + caractéristiques de l'exploitation + climat dans plusieurs pays africains.

SpatialRégression
Spatial featuresOLSGBMMulti-country
African Farm Households · 9,597 surveyed
12
XGBoost AUC 0.71

Classification d'attrition — MTN Nigeria

XGBoost vs RF vs LogReg avec courbe de calibration et classement de file de rétention.

Classification
LogisticRandom ForestXGBoostCalibration
MTN Nigeria · 974 customers
13
ANOVA p < 1e-9 · Cohen's d 0.68

Cadre de test A/B — marketing

Tests t de Welch + ANOVA + ajustement MCO + postérieur bayésien sur un essai réel à 3 bras.

Expérimentation
ANOVAWelch t-testBonferroniBayesian A/B
Fast-food A/B · 548 weekly obs · 3 arms
Même structure, à chaque fois

Méthodologie

Question métier
Données & EDA
Modélisation
Validation
Déploiement
Impact métier

Données Kaggle CLI · NASA POWER · pandas · SQL · EDA matplotlib · seaborn · seasonal_decompose · Modélisation statsmodels · scikit-learn · XGBoost · lifelines · Validation backtest à origine glissante · validation croisée · log-rank · ANOVA · calibration · Déploiement FastAPI · Streamlit · artefacts picklés · réentraînement planifié.

Ce que ce portfolio démontre

Compétences

Techniques

Séries temporelles & prévision

  • SARIMA / ARIMA
    010204060709
  • UnobservedComponents (espace d'états)
    01020607
  • Holt-Winters / ETS
    01
  • Réconciliation hiérarchique (MinT)
    04
  • Backtest à origine glissante · calibration des IP
    01020607

GLM & modélisation statistique

  • GLM Poisson / Gamma / Tweedie
    03
  • Cox PH · Weibull AFT
    08
  • MCO · régression sur cible logarithmique
    1011
  • Régression logistique · L2
    12
  • Gini · Lorenz · lift du décile supérieur
    03

Apprentissage automatique

  • Arbres à gradient boosté (sklearn, XGBoost)
    02030607101112
  • Forêt aléatoire
    12
  • Variables retard · glissantes · calendaires
    020607
  • Calibration · courbes ROC / PR
    12

Optimisation & expérimentation

  • Processus décisionnels de Markov · Q-learning
    05
  • Programmation linéaire (scipy.linprog)
    05
  • ANOVA · t de Welch · Bonferroni
    13
  • A/B bayésien (simulation postérieure)
    13
  • Analyse stratifiée (garde-fou Simpson)
    13

Outils

Langages & données

PythonSQLpandasNumPySciPyPostgreSQL

Bibliothèques de modélisation

statsmodelsscikit-learnXGBoostLightGBMlifelines

Ingénierie & visualisation

FastAPIStreamlitDockerGitJupytermatplotlibseabornLaTeX
Qui

Parcours

Doctorat en mathématiques (topologie) à l'Université du Cap. Carrière partagée entre mathématiques appliquées rigoureuses et science des données opérationnelle, avec plus de 10 ans d'expérience dans la santé, la finance, l'énergie, l'assurance, le commerce de détail et le secteur public. Co-auteur de The Shape of Data (No Starch Press, 2024), un manuel de niveau cycle supérieur sur l'apprentissage automatique géométrique. h-index 12 sur 18 articles évalués par les pairs. Bilingue FR/EN.