Étude de cas · Opérations santé · Optimisation stochastique

Planification de cliniques mobiles — Kenya

PDM sur données réelles avec 7 876 établissements de santé kényans agréés KMPDC et la série temporelle des paiements SHA par établissement. Trois politiques — rotation manuelle, programme linéaire plafonné, Q-learning tabulaire — comparées sur les patients servis, le coût de déplacement et l'équité. Le constat honnête : l'algorithme compte moins que la façon dont les contraintes sont écrites.

Lecture · 8 min · 1702 mots Q-learning · 83 patients/jour (+122 % vs manuel) PL (plafond 25 %) · 52/jour (+39 %, 4 comtés desservis) Rotation manuelle · 37/jour, 87 km/jour de déplacement Données · 7 876 établissements · 47 comtés

Résumé

Trois politiques de planification sur le même dispatch simulé sur 180 jours. Q-learning double les patients servis par jour vs la rotation manuelle, mais y parvient en concentrant 100 % des visites sur Nairobi (qui domine le volume de paiements SHA dans les données réelles). Un programme linéaire avec un plafond de 25 % par comté diversifie sur quatre comtés, sacrifie un peu de patients servis, mais élimine 32 % du déplacement et respecte une contrainte d'équité qu'un régulateur imposerait réellement. Le bon « gagnant » est celui dont l'objectif correspond au mandat sous lequel le programme de cliniques mobiles a été financé.

Pourquoi c'est important

Les cliniques de santé mobiles au Kenya font le pont entre les hôpitaux de référence fixes et les bassins ruraux mal desservis. Chaque visite coûte du carburant, des heures de personnel et des consommables ; chaque visite sert aussi une file finie de patients. La décision de planification — quel comté la clinique visite-t-elle demain — est contraignante : une clinique à Nairobi est une clinique pas à Wajir. Trois contraintes réelles pèsent sur l'opérateur :

La question métier

Étant donné une liste de comtés candidats avec leurs comptes (réels) d'établissements et la série temporelle des paiements SHA comme proxy de la demande, quel comté la clinique visite-t-elle chaque jour pendant les 180 prochains jours pour maximiser les patients servis sous contrainte de budget de déplacement — et qu'est-ce qui change quand on ajoute une contrainte d'équité ?

Données

Deux jeux de données réels du Kenya, joints au niveau du comté :

Après nettoyage des lignes sans comté et jointure, les 12 premiers comtés par volume de paiements SHA deviennent les emplacements candidats pour le PDM.

Données réelles KMPDCPaiements SHA réelsCoords 2D synthétiques (pas de GPS sur Kaggle)PDM à 12 comtés
Top 20 des comtés kényans par nombre d'établissements et volume de paiements SHA
Figure 1. Distribution réelle : top 20 des comtés kényans par nombre d'établissements agréés KMPDC (gauche) et volume de paiements SHA (droite). Nairobi domine les deux — 1 723 établissements, ~2,2 milliards KSH de paiements — d'un ordre de grandeur sur le deuxième. Ce seul fait pilote l'histoire d'optimisation ci-dessous.
Séries temporelles des paiements SHA par comté de décembre à février
Figure 2. Paiements SHA par comté sur les 8 périodes d'observation. La variation est réelle et spécifique à chaque comté — la modulation saisonnière par comté est ce qui donne au PDM sa dynamique non triviale ; sinon il dégénérerait en « toujours prendre Nairobi ».

Formulation PDM

Un processus décisionnel de Markov standard à temps discret et actions discrètes :

La distance vient de coordonnées 2D synthétiques dans la boîte englobante lat/lon du Kenya car le jeu de données public Kaggle n'inclut pas le GPS — un point de remplacement clair pour la production. Les conclusions structurelles du PDM ne dépendent pas des coordonnées spécifiques.

12 comtés représentés en 2D, taille de bulle proportionnelle au nombre d'établissements, couleur selon la demande
Figure 3. Les 12 comtés candidats sur une carte 2D synthétique. La taille de la bulle est proportionnelle au nombre d'établissements, la couleur à la demande moyenne inférée. Nairobi est la grosse bulle jaune vif — le cluster vers lequel la politique optimale gravite systématiquement.

Trois politiques

1. Rotation manuelle (référence du secteur)

Visiter le comté t mod 12 le jour t. C'est ce que font la plupart des opérations de terrain sous-dotées — rotation uniforme, aucune conscience de la demande. Maximise l'équité géographique par construction ; ignore la demande.

2. Programme linéaire avec plafond de visites par comté

Résoudre max cTv sous sum(v) = 1, 0 ≤ v_i ≤ 0,25, où v_i est la part de visites pour le comté i et c_i sa demande attendue. Traduire le vecteur de parts optimal en un planning stochastique.

Sans le plafond, la PL dégénère en « toujours prendre Nairobi » — exactement la même réponse vers laquelle Q-learning finit par converger. Le plafond est le mandat d'équité écrit sous forme de contrainte linéaire.

3. Q-learning tabulaire

ε-greedy standard avec α = 0,1, γ = 0,95, ε décroissant de 0,30 à 0,05 sur 400 épisodes. Table Q[loc, day_bucket, action] ; mises à jour depuis le signal de récompense de la simulation. Un terme de pénalité de revisite à l'entraînement pousse vers la diversification, mais la politique d'évaluation gloutonne (qui ne voit pas l'historique des visites récentes) retombe vers le comté à plus forte demande.

Courbe de récompense d'entraînement Q-learning sur 400 épisodes
Figure 4. Récompense d'entraînement Q-learning (moyenne glissante sur 20 épisodes) sur 400 épisodes. L'agent identifie rapidement le comté à plus forte demande et cesse d'explorer ; la récompense plafonne autour de l'épisode 100. Convergence plus rapide qu'attendu — un signal clair que la structure de la demande est dominée par un seul comté, sans subtilité.

Résultats

Déroulements simulés sur 180 jours avec la même graine de demande réalisée pour les trois politiques :

PolitiquePatients/jourDéplacement total (km)Comtés desservisGain de couverture vs manuel
Rotation manuelle37.387,30412
PL (plafond 25 % par comté)52.060,1214+39%
Q-learning (sans plafond)82.801+122%
La lecture honnête. Le « +122 % de gain de couverture » du Q-learning n'est un gain de couverture que si l'on entend « couverture » comme « patients servis ». Au sens d'équité que la plupart des programmes de santé utilisent — visites aux bassins du quartile inférieur d'utilisation — la couverture du Q-learning est pire que celle de la rotation manuelle. Le Q-learning ne visite jamais Wajir, Migori ou Mandera. Sa politique est de rester à Nairobi pendant les 180 jours. C'est une propriété de l'objectif centré sur la demande, pas un bug du Q-learning.

Compromis

Esquisse de déploiement

Pour un vrai programme de cliniques mobiles :

Leçons

  1. Choisissez l'algorithme qui correspond à la structure de contraintes, pas à la métrique phare. Q-learning maximise les patients servis bruts d'une large marge, mais la PL est la réponse correcte au déploiement dans un cadre contraint et supervisé par un régulateur.
  2. La « couverture » est une métrique ambiguë tant qu'on n'écrit pas la contrainte. Patients servis et équité du quartile inférieur sont deux interprétations raisonnables, et le classement des algorithmes s'inverse entre elles. Le chiffre phare de l'étude (+122 %) est honnête sous une définition et trompeur sous une autre — l'analyse approfondie lève l'ambiguïté.
  3. Cheap structural prior > expensive learned policy on small action spaces. 12 actions × 84 states is not a regime where reinforcement learning is the right tool. Direct value iteration or LP would converge faster, give interpretable shadow prices, and avoid the over-engineering trap.