Étude de cas · Énergie · Séries temporelles

Prévision d'irradiance solaire — Nairobi

Prévision journalière à 90 jours pour Nairobi, sur un jeu de données décennal, gratuit et accessible programmatiquement. Le GBM avec covariables météo gagne sur la précision ponctuelle ; la climatologie mensuelle est un baseline plus solide que ce que l'on attend ; les modèles d'espace d'états donnent le signal d'incertitude opérationnellement utile — le même arbitrage à trois sommets que PJM, dans un régime physique différent.

Lecture · 8 min · 1763 mots Meilleur modèle · GBM avec covariables météo MAPE · 9,4 % (vs SARIMA 13,8 %, climatologie 12,3 %) Couverture IP SARIMA / UC · 99 % / 99 % Données · 3 652 obs. journalières · 2014–2023 · NASA POWER

Résumé

Un modèle gradient-boosté qui utilise l'irradiance retardée + les covariables météo du jour (couverture nuageuse, humidité, précipitations, température, vent) prévoit l'irradiance journalière à Nairobi avec 9,4 % de MAPE sur un horizon de 90 jours — contre 13,8 % pour SARIMA et 21,6 % pour un état d'états UC. Deux constats à retenir : la climatologie mensuelle atteint 12,3 % de MAPE (mieux que SARIMA) — l'enveloppe saisonnière à elle seule explique l'essentiel de la prévisibilité. Et SARIMA et UC livrent toutes deux 99 % de couverture empirique des IP: pour une décision de dimensionnement de batterie ou d'équilibrage du réseau, c'est l'intervalle calibré qui pilote le dimensionnement, pas la moyenne plus serrée du GBM.

Pourquoi cela compte

Le Kenya exploite l'un des plus grands marchés de solaire pay-as-you-go d'Afrique — des millions de systèmes domestiques avec une capacité de batterie infrajournalière. La question de prévision se répète chaque soir : charger fortement la batterie cette nuit, ou parier que le soleil de demain suffira ? Même question au niveau du gestionnaire de réseau qui équilibre le solaire face au thermique et à l'hydro. Une erreur d'irradiance à J+1 de 5 % peut suffire à inverser la décision « remplir la batterie ce soir » ou « la laisser en réserve ». À 90 jours, la question bascule vers le budget et la négociation de contrats de stockage, mais le vocabulaire métrique reste le même.

La question métier

Trois consommateurs opérationnels regardent la même prévision :

Trois clients, une seule prévision, trois choses différentes qu'ils regardent. L'étude de cas compare un baseline SARIMA, un modèle structurel d'espace d'états et un challenger ML pour voir lequel répond à quel besoin.

Données

API NASA POWER: gratuite, programmatique, sans authentification. 10 ans (2014-01-01 → 2023-12-31) de valeurs journalières pour Nairobi (lat -1,2921, lon 36,8219) :

Les 90 derniers jours sont mis de côté comme fenêtre de test ; tout ce qui précède est en entraînement. Le tier gratuit de NASA POWER est généreux et l'endpoint API tient sur une URL — le même pipeline bascule vers Lagos, Le Cap, Le Caire ou Dakar en changeant deux nombres dans download_data.py.

API NASA POWERSans authRésolution journalière10 ans6 variables météo

EDA

Trois régularités dominent la série d'irradiance de Nairobi, et elles sont physiques, pas statistiques : creux semestriel en mars–mai et octobre–décembre (les « grandes pluies » et « petites pluies »), pic semestriel en janvier–février et juillet–septembre, et une anti-corrélation avec la couverture nuageuse au pas journalier qui résume toute la variance à court horizon.

Irradiance journalière, couverture nuageuse et précipitations 2014-2023
Figure 1. Haut : irradiance de surface journalière à Nairobi. Le motif annuel bimodal est visible — deux pics annuels, deux creux annuels, modulés par la variabilité interannuelle. Milieu : couverture nuageuse journalière, avec le même cycle bimodal inversé. Bas : précipitations, culminant pendant les saisons des pluies ; les épisodes pluvieux expliquent les pires journées d'irradiance.
Cycle annuel : irradiance moyenne mensuelle vs couverture nuageuse et précipitations
Figure 2. Cycle annuel, moyennes mensuelles. Irradiance (or) et couverture nuageuse (bleu) sont des images miroir bimodales : l'irradiance la plus basse et la couverture nuageuse la plus haute se produisent deux fois par an (avril–mai et oct.–nov., les saisons des pluies). Les précipitations (bleu foncé) renforcent le même schéma. C'est la structure que les trois modèles doivent apprendre.
Matrice de corrélation des variables NASA POWER pour Nairobi
Figure 3. Matrice de corrélation. L'irradiance corrèle fortement avec la couverture nuageuse (négatif, ~−0,7) et l'humidité (négatif, ~−0,4). La température est faiblement positive — c'est l'irradiance qui pilote la température, pas l'inverse. Le signal de couverture nuageuse est le levier qui permet au GBM de battre SARIMA : la nébulosité du jour est une vérité-terrain à laquelle SARIMA n'a pas accès via la seule irradiance retardée.

Approche de modélisation

Trois candidats principaux plus trois baselines, tous prédisant ALLSKY_SFC_SW_DWN journalier à 90 jours.

1. SARIMA

SARIMAX(2,0,2)(1,0,1)7 — AR/MA non-stationnaires + AR/MA saisonniers hebdomadaires. Notez l'ordre : l'irradiance est stationnaire en moyenne (les cycles nuageux oscillent autour d'une climatologie fixe), donc pas de terme d'intégration. La composante saisonnière hebdomadaire absorbe surtout du bruit de mesure — le solaire n'est pas vraiment un phénomène à « cycle hebdomadaire » à cette latitude, mais le jour de la semaine peut corréler avec un lissage de mesure.

2. Espace d'états — UnobservedComponents + exog. Fourier annuelles

UnobservedComponents avec tendance locale-linéaire et quatre paires d'harmoniques de Fourier annuelles passées comme régresseurs exogènes. L'ordre Fourier de 4 est choisi parce que le motif annuel bimodal de Nairobi demande plus de flexibilité qu'une seule sinusoïde.

3. Challenger ML — GBM avec covariables météo

GradientBoostingRegressor(n_estimators=400, max_depth=3, learning_rate=0.05) sur des features ingénierées :

Les covariables nuageuse et d'humidité sont le levier. SARIMA et UC ne travaillent que sur l'irradiance retardée ; le GBM reçoit aussi la couverture nuageuse et les précipitations de la veille. L'écart de MAPE est principalement attribuable à cet avantage informationnel.

Baselines

Trois points de référence : naïf-dernier (prédire demain = aujourd'hui), naïf-saisonnier (prédire demain = irradiance d'il y a un an), et climatologie mensuelle (prédire demain = irradiance moyenne pour ce mois calendaire, calculée sur la fenêtre d'entraînement).

Résultats

Test mis de côté sur 90 jours :

ModèleMAPERMSE (kWh/m²/jour)Couverture IP 95 %
GBM (exog. météo)9,42 %0,68
Climatologie mensuelle12,32 %0,79
SARIMA(2,0,2)(1,0,1)713,78 %0,8899 %
Naïf-saisonnier (lag 365 j)16,49 %1,13
UC + exog. Fourier annuelles21,63 %1,3499 %
Naïf-dernier25,38 %1,56
Comparaison de prévision à 90 jours pour SARIMA, UC et GBM par rapport à l'irradiance réelle
Figure 4. Prévision mise de côté sur 90 jours. La ligne noire est l'irradiance réalisée. Le GBM (bleu pointillé) suit la série réalisée plus serré que SARIMA ou UC ; l'IP 95 % de l'UC (zone ombrée) est suffisamment large pour que presque chaque observation réalisée reste à l'intérieur.
La climatologie est un baseline solide — et c'est une fonctionnalité, pas un bug. Les 12,3 % de MAPE de la climatologie mensuelle battent les 13,8 % de SARIMA. Cela vous dit que le plafond de prévisibilité d'une série d'irradiance à cette latitude est essentiellement l'enveloppe saisonnière : connaître le mois calendaire vous donne l'essentiel de ce qui est connaissable. Le gain de 9,4 % du GBM par rapport à la climatologie vient presque entièrement des covariables nuageuse + humidité du jour — la part qui ne peut pas être devinée à partir du seul calendrier.

Compromis

Esquisse de déploiement

Pour les opérateurs solaires pay-as-you-go et les gestionnaires de réseau :

Enseignements

  1. La climatologie est un vrai baseline ; vérifiez-la. Un SARIMA qui ne bat pas la climatologie mensuelle est un SARIMA qui sur-complique le problème. La meilleure prévision est parfois la moyenne du mois calendaire, habillée d'un intervalle calibré.
  2. Les covariables météo du jour sont le différenciateur. Le gain de 4 points de pourcentage de MAPE sur la climatologie vient entièrement des entrées de couverture nuageuse et d'humidité. Si votre système de production ne peut pas les observer en quasi-temps-réel, le modèle structurel est votre plafond honnête.
  3. NASA POWER plus un script de téléchargement de trente lignes suffit comme infrastructure pour un service de prévision à l'échelle d'une ville. Pas de météo payante, pas de licence, pas d'angoisse de quotas. Le pipeline s'étend trivialement à n'importe quelle ville africaine. Le goulot d'étranglement, c'est ce que vous faites de la prévision, pas d'où viennent les entrées.