Bootcamp Machine Learning & IA — Programme
Programme en cohorte AIRINA Labs. 10 semaines à temps plein / 20 semaines à temps partiel. Dix modules, de Python au MLOps, capstone, portfolio.
Programme : Bootcamp Machine Learning & IA — Une approche par la pratique Opéré par : AIRINA Labs Instructeur principal : Dr. Yaé Ulrich Gaba Format : 100 % en ligne, synchrone, en cohorte Langue : Anglais (cohorte FR disponible sur demande) Cadence : 10 semaines à temps plein ou 20 semaines à temps partiel Taille de cohorte : 12 à 24 participants par session
Le programme en bref
| Sessions en direct | 60+ |
| Projet capstone | 1 (en équipe ou individuel) |
| Intervenants industriels | 8 |
| Heures de cours | 200 |
| Étude personnelle (TP) | 20 heures / semaine |
| Étude personnelle (T.partiel) | 10 heures / semaine |
| Permanences | Hebdomadaires, avec assistants d’enseignement |
| Livrable final | Capstone déployé + pièce de portfolio |
| Certificat | Oui, à l’issue de tous les modules et du capstone |
Les 200 heures de cours se répartissent environ 60 % en direct (cours magistraux, ateliers, code-along, revues de capstone) et 40 % en travail structuré asynchrone (lectures, notebooks, problèmes). Les 60+ sessions en direct couvrent les cours, les ateliers pratiques, les interventions industriels, les permanences, les revues de capstone et la présentation finale.
Public
- Professionnels en activité qui passent à des rôles ML/IA depuis des domaines voisins — génie logiciel, analyse de données, finance quantitative, actuariat, calcul scientifique.
- Étudiants de licence avancée et de master en mathématiques, informatique, statistique, ingénierie ou sciences sociales quantitatives, qui veulent un parcours intensif plutôt qu’un cours étalé sur un semestre.
- Cohortes d’entreprise organisant un programme interne de montée en compétences : banques, opérateurs télécom, assureurs, fintech, équipes data du secteur public.
Vous tirerez davantage du programme si vous arrivez avec une syntaxe Python à l’aise (fonctions, classes, comprehensions), une familiarité avec la ligne de commande, et des mathématiques de niveau licence (algèbre linéaire, calcul, probabilités). Aucune expérience préalable en machine learning n’est requise, mais elle aide.
Prérequis
- Indispensable. Maîtrise de Python au niveau “je peux lire et modifier un script de 200 lignes sans me perdre”. À l’aise avec fonctions, classes, imports, dictionnaires, comprehensions. Familier avec
pipet les environnements virtuels. - Indispensable. Algèbre linéaire (vecteurs, matrices, valeurs propres), calcul (dérivées, gradients, intégrales), probabilités (variables aléatoires, espérance, probabilité conditionnelle) au niveau licence.
- Fortement recommandé. Une exposition même brève à NumPy / Pandas.
- Utile mais non obligatoire. Une exposition antérieure au ML (un cours en ligne, une compétition Kaggle, un cours d’introduction universitaire), familiarité avec Git/GitHub, ligne de commande Linux de base.
Si vous n’êtes pas sûr d’avoir les prérequis, le dossier de candidature inclut un court test technique. Une auto-évaluation honnête en amont vaut mieux qu’une semaine 1 stressante.
Outils
- Python 3.11+ comme langage de travail tout au long
- Jupyter (notebook + Lab) pour les ateliers
- NumPy, Pandas, scikit-learn, matplotlib, seaborn comme pile analytique
- PyTorch (principal) et TensorFlow/Keras (secondaire) pour le deep learning
- HuggingFace (
transformers,datasets,peft,accelerate) pour le TAL et les LLM - LangChain, ChromaDB, FAISS pour le RAG
- MLflow, DVC, Docker, FastAPI pour le module MLOps
- Google Colab (offre gratuite avec GPU) comme solution de repli ; les participants sans GPU local utilisent Colab Pro ou Kaggle pour les semaines deep learning
- Git / GitHub pour le contrôle de version tout au long du bootcamp ; la pièce finale de portfolio est publiée sur le GitHub du participant
Les dix modules
Chaque module ci-dessous renvoie aux supports existants du catalogue de cours quand un cours équivalent existe. Le bootcamp condense, séquence et ajoute des projets par-dessus le catalogue, plutôt que de réécrire le contenu.
Module 1 — Python pour le travail sur données
En une phrase. Prendre le Python que vous connaissez à moitié et le rendre assez précis pour livrer en production.
Acquis d’apprentissage. À l’issue du module, les participants pourront :
- Écrire du Python idiomatique — comprehensions list/dict/set, générateurs, gestionnaires de contexte, décorateurs
- Utiliser NumPy et Pandas couramment pour la manipulation vectorisée de données
- Construire un projet Python reproductible (virtualenv,
pyproject.toml, pre-commit, tests de base) - Lire, modifier et écrire des notebooks Jupyter sans perdre la reproductibilité
Sujets. Types et contrôle de flux · fonctions, portée, closures · classes et protocoles · tableaux NumPy, broadcasting, indexation · Series et DataFrames Pandas, jointures, group-by, reshape · matplotlib et seaborn pour la visualisation · environnements virtuels et gestion de dépendances · bases de Git pour code et notebooks.
Ateliers. (1) Refactorer un script de 300 lignes désordonné en un module propre avec tests. (2) Manipuler un vrai jeu de données public (données d’établissements de santé au Kenya) de bout en bout en Pandas. (3) Publier votre projet sur GitHub avec README, lockfile, et installation reproductible.
S’appuie sur. Catalogue : Programmation pour Scientifiques et Introduction à la Science des Données.
Module 2 — Introduction au machine learning
En une phrase. Ce que le ML est, ce qu’il n’est pas, et le workflow qui tourne sous chaque projet.
Acquis.
- Formuler un problème comme apprentissage supervisé, non supervisé ou par renforcement, et reconnaître quand aucun de ces cadres n’est le bon
- Construire un pipeline train/validation/test propre qui évite les fuites
- Choisir, ajuster et évaluer un modèle simple sur un jeu de données réel
- Lire une courbe d’apprentissage et une matrice de confusion sans se mélanger
Sujets. La boucle d’apprentissage supervisé · fonctions de perte et risque · minimisation du risque empirique · biais-variance · validation croisée, split train/val/test, fuites · métriques d’évaluation pour la classification et la régression · le « no free lunch » dans le choix de modèle.
Ateliers. (1) Prédire la réadmission de patients sur un jeu de données hospitalier réel (régression logistique, évaluée avec calibration et non seulement précision). (2) Diagnostiquer une mauvaise évaluation : repérer la fuite dans un notebook délibérément cassé.
S’appuie sur. Catalogue : Fondements de l’Apprentissage Automatique (chapitres d’introduction).
Module 3 — ML classique : classification, régression, clustering
En une phrase. La boîte à outils pré-deep-learning — toujours la bonne réponse pour la plupart des problèmes tabulaires.
Acquis.
- Ajuster et calibrer une régression linéaire et régularisée (ridge, lasso, elastic net)
- Construire et interpréter des ensembles d’arbres (random forests, gradient boosting)
- Appliquer des méthodes non supervisées (k-means, hiérarchique, DBSCAN, GMM, PCA, UMAP)
- Interpréter feature-importance et partial-dependence honnêtement, sans surinterpréter la causalité
Sujets. Régression linéaire et logistique · régularisation (ridge, lasso, elastic net) · SVM et astuce du noyau · arbres de décision, random forests, gradient boosting (XGBoost, LightGBM) · clustering (k-means, hiérarchique, DBSCAN, GMM) · réduction de dimension (PCA, UMAP, t-SNE) · interprétation de modèles (permutation importance, SHAP, partial dependence) · ce que ces méthodes peuvent et ne peuvent pas dire sur la causalité.
Ateliers. (1) Scoring de crédit sur un jeu de données Kaggle / banque africaine — pipeline complet de l’EDA à une fonction de scoring déployable, avec audit d’équité. (2) Segmentation client par patterns de transactions mobile money. (3) Interprétation SHAP d’un modèle XGBoost, en incluant les modes de défaillance de SHAP lui-même.
S’appuie sur. Catalogue : Fondements de l’Apprentissage Automatique (corps principal).
Module 4 — Systèmes de recommandation
En une phrase. Comment fonctionnent vraiment les systèmes à la Netflix, et le problème d’évaluation honnête qu’ils posent.
Acquis.
- Implémenter du filtrage collaboratif (user-based, item-based, factorisation matricielle)
- Implémenter du filtrage par contenu avec des embeddings
- Construire un recommandeur hybride et l’évaluer avec les métriques offline (precision@k, NDCG, MAP)
- Comprendre pourquoi les métriques offline divergent souvent des résultats d’A/B en ligne
Sujets. Le problème de la recommandation · feedback explicite vs implicite · filtrage collaboratif · factorisation matricielle (SVD, ALS, NMF) · filtrage par contenu avec embeddings · modèles hybrides · évaluation : precision@k, recall@k, NDCG, MAP, métriques offline vs online · cold-start, biais de popularité, bulles de filtre · le problème du « vous ne saurez jamais avant d’A/B tester ».
Ateliers. (1) Filtre collaboratif sur MovieLens (SVD puis ALS). (2) Construire un recommandeur hybride sur un jeu e-commerce public. (3) Faire passer le même recommandeur dans trois métriques d’évaluation et expliquer pourquoi elles classent les modèles différemment.
S’appuie sur. Pas d’équivalent direct dans le catalogue — contenu nouveau écrit spécifiquement pour le bootcamp.
Module 5 — Traitement automatique du langage
En une phrase. Des méthodes classiques aux pipelines de l’ère Transformer.
Acquis.
- Construire un pipeline de classification de texte (nettoyage, tokenisation, vectorisation, entraînement, évaluation)
- Fine-tuner un transformer pré-entraîné sur une tâche spécifique à un domaine
- Appliquer le TAL dans un contexte multilingue ou à faibles ressources (avec attention aux langues africaines)
- Reconnaître les limites : hallucination, biais, difficulté d’évaluation
Sujets. Prétraitement de texte et tokenisation (BPE, WordPiece) · embeddings de mots (Word2Vec, GloVe, FastText) · modèles séquentiels (RNN, LSTM, GRU) · l’architecture Transformer · modèles de la famille BERT et fine-tuning · NER, sentiment, classification, résumé · TAL multilingue et à faibles ressources · évaluation : BLEU, ROUGE, exact match, évaluation humaine.
Ateliers. (1) Classification de sentiment sur avis clients (baseline régression logistique → DistilBERT fine-tuné). (2) Reconnaissance d’entités nommées sur un jeu multilingue incluant au moins une langue africaine. (3) Résumé de documents avec un T5/BART fine-tuné.
S’appuie sur. Catalogue : Traitement Automatique du Langage.
Module 6 — ML moderne : ANN, CNN, RNN
En une phrase. Le deep learning de bout en bout, avec assez de théorie pour savoir quand ne pas l’utiliser.
Acquis.
- Entraîner un réseau feed-forward à partir de zéro, d’abord en NumPy puis en PyTorch
- Construire, entraîner et évaluer des CNN sur des tâches de classification d’images
- Construire, entraîner et évaluer des RNN/LSTM sur des tâches séquentielles
- Diagnostiquer les pathologies d’entraînement : gradients qui s’évanouissent, surapprentissage, neurones morts, dérive de distribution
Sujets. Réseaux feed-forward, rétropropagation, optimisation (SGD, Adam, AdamW) · régularisation (dropout, batch norm, weight decay, early stopping) · CNN (LeNet, AlexNet, ResNet, architectures modernes) · RNN, LSTM, GRU · l’attention comme primitive · apprentissage de représentations · les leçons amères du deep learning (scaling de compute, ce qui ne se transfère pas).
Ateliers. (1) Construire un MLP à 2 couches à partir de zéro en NumPy, puis le porter en PyTorch. (2) Classification d’images sur un jeu d’imagerie médicale publique (radiographie thoracique par exemple, avec discussion des biais de dataset). (3) Prédiction de séquence sur des séries temporelles financières avec un LSTM.
S’appuie sur. Catalogue : Apprentissage Profond.
Module 7 — LLM et IA générative
En une phrase. Ce qu’il y a sous le capot de GPT/Claude/LLaMA, ce qu’on peut vraiment en faire, et où ils échouent.
Acquis.
- Comprendre l’architecture Transformer telle qu’elle apparaît dans les LLM modernes
- Appliquer efficacement le prompt engineering et les techniques de sortie structurée
- Fine-tuner un petit LLM open-source avec LoRA/QLoRA sur un jeu de domaine
- Construire un système RAG (Retrieval-Augmented Generation)
- Évaluer la génération honnêtement : quand un LLM est vraiment utile, et quand il fabule
Sujets. Le transformer, mécanisme d’attention, scaling laws · pré-entraînement, fine-tuning, RLHF/DPO au niveau survol · prompt engineering, sortie structurée, function calling · fine-tuning par paramètres (LoRA, QLoRA, PEFT) · RAG : chunking, embedding, retrieval, reranking, génération · modèles de diffusion (intuition + usage pratique) · évaluation : BLEU, ROUGE, LLM-as-judge, évaluation humaine, pourquoi toutes ces métriques sont partielles · systèmes agentiques et tool use · sûreté, alignement, hallucination, biais.
Ateliers. (1) Construire un RAG sur un corpus de domaine (rapports OMS/AFRO par exemple) avec ChromaDB et un LLM local ou via API. (2) Fine-tuner un modèle ouvert 1-7B paramètres avec LoRA sur une tâche de domaine. (3) Construire un agent multi-étape avec tool use (recherche, calculatrice, exécution de code) via LangChain ou LangGraph.
S’appuie sur. Catalogue : IA Générative.
Module 8 — MLOps et déploiement
En une phrase. Ce qu’il faut pour que le modèle continue à fonctionner après que le notebook est fermé.
Acquis.
- Versionner code, données et modèles de manière à soutenir la reproductibilité
- Conteneuriser un modèle et le déployer comme API REST
- Mettre en place tracking d’expériences, model registry et monitoring
- Construire un pipeline CI/CD basique pour un système ML
Sujets. Reproductibilité (Git, DVC, MLflow) · tracking d’expériences et model registry (MLflow, Weights & Biases) · conteneurisation (Docker, docker-compose) · servir des modèles (FastAPI, BentoML, model registries) · monitoring (dérive des données, des prédictions, de la performance, latence, coût) · CI/CD pour pipelines ML · la différence entre « ça marche sur mon laptop » et « ça marche en production pendant six mois ».
Ateliers. (1) Envelopper un modèle entraîné dans un service FastAPI, conteneuriser, déployer sur un cloud gratuit (Render ou Railway), l’appeler depuis un notebook. (2) Mettre en place le tracking MLflow pour une boucle de réentraînement. (3) Simuler une dérive de données sur un modèle déployé et la détecter depuis le dashboard de monitoring.
S’appuie sur. Catalogue : MLOps.
Module 9 — Projet capstone
En une phrase. Prendre un problème réel et le mener de l’idée au système déployé en deux semaines.
Ce module tourne en parallèle des modules 8 et 10, sur les deux dernières semaines du programme. Chaque participant (ou petite équipe de 2-3) livre un projet complet : jeu de données réel, modèle réel, endpoint déployé, rapport écrit, dépôt public, démonstration live.
Voir CAPSTONE.md pour la spécification complète du projet, les jalons, la grille d’évaluation, et des exemples de pistes de projets.
Module 10 — Portfolio
En une phrase. Le capstone, les ateliers, et un profil public clair qui dit « je sais effectivement faire ça ».
Acquis.
- Curater trois à cinq projets du bootcamp dans un portfolio cohérent
- Écrire un README qu’un lecteur extérieur peut suivre en cinq minutes
- Publier le capstone en démo hébergée + rédaction technique
- Construire un profil public (GitHub, LinkedIn, site personnel si applicable) qui pointe vers le portfolio
Sujets. Curation de portfolio (moins, c’est plus) · discipline du README · écriture technique pour projets ML · publication de notebooks (nbviewer, Colab, GitHub Pages, Jupyter Book) · hébergement de démos de modèles (Gradio, Streamlit, HuggingFace Spaces) · utiliser son portfolio pour poser de meilleures questions en entretien technique.
Référence. Le portfolio data-science de l’instructeur principal est un modèle parmi d’autres. Le module 10 ne prescrit pas un template unique — il enseigne la discipline de rendre son travail trouvable et lisible pour des lecteurs extérieurs à la cohorte.
Calendrier (cohorte temps plein 10 semaines)
| Semaine | Thème | Modules |
|---|---|---|
| 1 | Boîte à outils Python pour le travail sur données | M1 |
| 2 | Introduction au ML + début du ML classique | M2 + M3 (partie 1) |
| 3 | ML classique en profondeur, atelier scoring de crédit | M3 |
| 4 | Systèmes de recommandation | M4 |
| 5 | Traitement automatique du langage | M5 |
| 6 | Deep learning (ANN, CNN, RNN) | M6 |
| 7 | LLM et IA générative | M7 |
| 8 | MLOps et déploiement | M8 |
| 9 | Travail sur le capstone + sessions portfolio | M9 + M10 |
| 10 | Finalisation du capstone, présentations finales, lancement du portfolio | M9 + M10 |
Les cohortes à temps partiel parcourent le même contenu sur 20 semaines avec une intensité hebdomadaire de moitié. Les sessions d’intervenants industriels sont réparties sur les semaines 2-9 (environ une par semaine, parfois deux).
Une semaine type à temps plein :
- Lundi-jeudi matins (3 h chacun). Cours en direct, code-along, atelier
- Lundi-jeudi après-midis (2 h chacun). Travail d’atelier indépendant, avec permanences d’assistants d’enseignement
- Vendredi. Intervenant industriel (1 h) + revue d’atelier (1 h) + rétrospective de cohorte (1 h)
- Étude personnelle (20 h sur la semaine). Lectures, pré-travail pour la semaine suivante, finalisation des ateliers
Pédagogie
L’« approche par la pratique » n’est pas du marketing — c’est un choix délibéré avec deux conséquences concrètes :
-
Chaque module a un vrai jeu de données et un livrable déployable. Pas un jeu de tutoriel choisi pour la propreté pédagogique, mais des données que les participants rencontreront plausiblement dans leur propre travail : dossiers bancaires africains, données d’établissements de santé, CDR télécom, imagerie satellite, texte multilingue. Le livrable en fin de module est quelque chose qu’un participant pourrait mettre sur GitHub.
-
Les erreurs font partie du programme. Plusieurs ateliers sont délibérément semés de fuites de données, de mauvais choix d’évaluation, ou de pathologies d’entraînement. L’exercice consiste à les trouver. Le principe : repérer un pipeline ML cassé vaut plus que d’en construire un qui marche en vase clos.
Le cadre « cas-centré » se traduit ainsi : chaque semaine s’ouvre sur un cas réel (un système déployé, un échec publié, un rapport d’audit), et le contenu technique est motivé par ce que le cas a nécessité.
Évaluation et certificat
- Livrables hebdomadaires des ateliers (40 %) — chaque atelier de module est noté sur la justesse, la qualité du code, et une courte interprétation écrite
- Projet capstone (40 %) — système déployé + rédaction technique + démonstration live
- Participation (20 %) — engagement dans les sessions en direct, revue de code par pairs, présentations de jalons du capstone
Les participants qui complètent tous les livrables et passent le capstone (grille dans CAPSTONE.md) reçoivent un Certificat de réalisation signé par l’instructeur principal et AIRINA Labs.
Le certificat est une attestation de réalisation, pas un diplôme accrédité. Il est surtout utile comme ancrage de portfolio dans les conversations avec employeurs, pas comme un titre en soi.
Série d’intervenants industriels
Les 8 intervenants industriels d’une cohorte sont issus des réseaux AIRINA Labs et AIMS : praticiens ML/IA dans des banques africaines, télécoms, fintech, et bureaux régionaux d’entreprises tech globales ; un ou deux chercheurs seniors dans des laboratoires internationaux. Chaque session dure une heure : 30 minutes de « ce qu’on construit vraiment, et pourquoi », 30 minutes de Q&R avec la cohorte. Les noms et affiliations sont confirmés par cohorte et partagés à la clôture des inscriptions.
Les intervenants ne font pas de pitch produit et ne recrutent pas. Ils viennent dire à la cohorte à quoi ressemble le travail hors du bootcamp.
Après le programme
Pendant trois mois après la fin de la cohorte, les participants conservent l’accès à :
- L’espace Slack de la cohorte (réseau de pairs + canal alumni)
- Un échange 1-à-1 de 30 minutes avec l’instructeur principal pour un suivi technique ou carrière
- La version hébergée de leur capstone (l’instructeur maintient le déploiement actif pendant au moins 3 mois sur un cloud gratuit)
Ce n’est pas un service de placement. L’objectif est de laisser les participants avec un portfolio fonctionnel, un réseau de pairs, et la base technique pour faire leur propre prochain pas.
Ressources
Lectures recommandées et références, par module :
- Modules 1-3 (Python, fondements ML). Aurélien Géron, Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (3e éd., O’Reilly).
- Module 3 (ML classique). Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning (Springer, 2e éd.). PDF gratuit sur le site de Hastie.
- Module 4 (Systèmes de recommandation). Charu Aggarwal, Recommender Systems: The Textbook (Springer, 2016).
- Module 5 (TAL). Dan Jurafsky et James Martin, Speech and Language Processing (3e éd. draft). Gratuit sur le site des auteurs.
- Module 6 (Deep learning). Ian Goodfellow, Yoshua Bengio, Aaron Courville, Deep Learning (MIT Press, 2016). Gratuit en ligne.
- Module 7 (LLM / GenAI). Sebastian Raschka, Build a Large Language Model From Scratch (Manning, 2024). Le cours NLP HuggingFace (gratuit en ligne).
- Module 8 (MLOps). Chip Huyen, Designing Machine Learning Systems (O’Reilly, 2022). Le blog MLOps d’Eugene Yan.
- Compagnon ML topologie/géométrie (optionnel). Colleen M. Farrelly et Yaé Ulrich Gaba, The Shape of Data (No Starch Press) — pour les membres de cohorte qui veulent appliquer outils topologiques et géométriques aux mêmes problèmes.
Candidater
Les cohortes ont lieu plusieurs fois par an. Pour manifester un intérêt pour une cohorte future, ou pour discuter d’une cohorte privée d’entreprise pour votre organisation :
Merci d’inclure dans votre message : votre profil, votre objectif pour le bootcamp, et si vous parlez d’une cohorte ouverte (individuelle) ou d’une cohorte privée d’entreprise (équipe). Pour les cohortes d’entreprise, précisez aussi la taille d’équipe et la fenêtre temporelle visée.